Alibaba Qwen3.5: La potencia de la IA multimodal llega finalmente a nuestras PC

Alibaba Qwen3.5 : La puissance de l’IA multimodale arrive enfin sur nos PC

A medida que la IA occidental se encierra en una carrera por modelos cada vez más grandes —y las facturas en la nube aumentan a medida que la inteligencia se vuelve «lista para producción»—, Alibaba avanza con una propuesta casi contraintuitiva: más inteligencia, menos recursos.

Esta semana, el equipo de Qwen presentó la serie Qwen3.5 Small Model, un cuarteto de modelos de pesos abiertos (0,8B, 2B, 4B, 9B) diseñados para el edge, lo local primero y agentes ligeros.

🚀 Introducing the Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ More intelligence, less compute.
These small models are built on the same Qwen3.5 foundation — native multimodal, improved architecture, scaled RL:
• 0.8B / 2B → tiny, fast,… pic.twitter.com/90JfOM9k4T
— Qwen (@Alibaba_Qwen) March 2, 2026

Cuatro modelos, una idea: acercar lo «capaz» a nuestras laptops… y a veces a nuestros teléfonos inteligentes

La serie incluye:

Qwen3.5-0.8B y Qwen3.5-2B: variantes «pequeñas/rápidas», diseñadas para implementaciones frugales (edge, batería, latencia).
Qwen3.5-4B: base multimodal compacta, diseñada como base para agentes ligeros, con un contexto nativo anunciado de 262k tokens.
Qwen3.5-9B: el «razonamiento compacto» que Qwen posiciona como un modelo de referencia en densidad de inteligencia, con comparaciones directas (y muy agresivas) con rivales mucho más grandes.

Los pesos se publican bajo licencia Apache 2.0, lo que permite un uso comercial y la personalización sin regalías—a punto clave para empresas que buscan evitar el bloqueo por API.

El ingrediente técnico: una arquitectura «híbrida eficiente» (DeltaNet + MoE)

Donde Qwen quiere avanzar no es solo en tamaño, sino en estructura. En su artículo técnico, el equipo describe una Efficient Hybrid Architecture que combina Gated Delta Networks (una forma de atención lineal) y un Mixture-of-Experts (MoE) disperso… para sortear la «muralla de la memoria» y mejorar el rendimiento/latencia en la inferencia.

Otro punto estratégico: la serie se anuncia como nativamente multimodal, entrenada a través de una fusión temprana de tokens multimodales en lugar de agregar un codificador de visión «encima» de un modelo de texto. En términos claros: la visión ya no es un accesorio, es una capacidad base.

Benchmarking: cuando «pequeño» afirma jugar en la misma liga que los grandes

Alibaba publica resultados muy ambiciosos (y recogidos por varios medios), especialmente para los modelos de 4B y 9B en razonamiento y multimodal. Entre los números más citados:

GPQA Diamond: Qwen3.5-9B anunciado con 81,7, superando a gpt-oss-120B con 80,1
Video-MME (subtítulos): Qwen3.5-9B 84,5, Qwen3.5-4B 83,5, por encima de Gemini 2.5 Flash-Lite 74,6
MMMU-Pro: Qwen3.5-9B 70,1, sobre Gemini 2.5 Flash-Lite 59,7 en las comparaciones compartidas

Se debe tomar con la prudencia habitual: estas puntuaciones se basan en protocolos de benchmark que pueden variar (prompts, configuraciones, versiones). Pero el mensaje es claro: Qwen quiere imponer la idea de que la inteligencia multimodal ya no necesita un modelo de mil millones de parámetros para ser útil.

Lo que esto cambia para desarrolladores y empresas

El «local-first» se vuelve creíble: Un modelo de 9B con pesos abiertos bajo Apache 2.0 promete un agente que opera localmente (o en la nube soberana) sin restricciones de precios por token.
Un camino fuera de CUDA, en la lógica de «stack alternativo»: La estrategia global de Qwen 3.5 se inscribe en una mayor presión de Alibaba hacia la era de la inteligencia.
Una ventaja industrial: los «Modelos Base». La presencia de variantes base (no alineadas de manera RLHF) es particularmente atractiva para equipos que quieren una «pizarra» para moldear, sin tener que luchar contra estilos o rechazos preinstalados (un punto frecuentemente citado por la comunidad).

El verdadero desafío: no solo el rendimiento, sino el ecosistema

Nvidia tiene CUDA, OpenAI cuenta con integración de productos, y Anthropic tiene credibilidad empresarial. Alibaba, por su parte, pone sobre la mesa otra herramienta: la distribución (pesos de código abierto, permisivos) y la optimización de arquitectura.

Sin embargo, el éxito del lado empresarial dependerá de la robustez en el workflow multi-etapas (evitar la «cascada de alucinaciones»), la calidad de las herramientas de inferencia y despliegue, la gobernanza (residencia de datos, cumplimiento) y la capacidad de mantener una cadencia de actualizaciones sin fragmentar el ecosistema.

Aún así, se dibuja un movimiento claro: la IA «útil» se compacta, y se vislumbra un futuro en el que los agentes multimodales se diseminan —en máquinas locales, estaciones de trabajo, dispositivos edge— en lugar de existir exclusivamente en la nube.