La multinacional china Alibaba ha dado un paso más dentro de esta competitiva carrera de la inteligencia artificial. En esta ocasión, lo ha hecho abriendo el modelo Qwen3-VL, una nueva serie de IA visión-lenguaje, al ecosistema de open source. Este paso, anunciado por la propia empresa el pasado 23 de septiembre, trae poderosas novedades en el campo de la IA.
Con este modelo, contamos con una arquitectura de 235.000 millones de parámetros y capacidades que tratan de desmarcarse de los sistemas cerrados de IA como Gemini, de Google, o ChatGPT de OpenAI. De esta manera, Alibaba permite que desarrolladores independientes y empresas puedan acceder sin coste alguno a un modelo tan potente como para comprender imágenes, ejecutar tareas autónomas o interpretar vídeos de larga duración.
Todo ello, bajo una licencia Apache 2.0 de libre uso. Pero por lo que más destaca este modelo es, sin duda, por su capacidad de actuar como un «agente visual». Es decir, que es capaz de controlar y automatizar aplicaciones reconociendo los elementos que aparecen en pantalla e interactuando de manera autónoma. De esta manera, Alibaba apuesta por un modelo de mercado distinto a las herramientas con licencia cerrada.
Así es Qwen3-VL
Qwen3-VL es, en estos momentos, el modelo de código abierto más avanzado desarrollo por Alibaba. De hecho, cuenta con 235 millones de parámetros e innovaciones que potencian tanto el análisis visual como sus aplicaciones dentro del mundo digital. Esta nueva IA trabaja con el concepto de «context windows» de hasta 256.000 tokens, ampliables a un millón. A través de esta función, se pueden procesar videos completos y ofrecer respuestas sobre el contenido del propio vídeo: eventos que ocurren, personajes, diálogos…
Su núcleo multimodal incluye dos versiones diferenciadas: «Instruct», para tareas y benchmarks relacionadas con la percepción visual, y «Thinking», orientado al razonamiento y la comprensión multimodal.
Pero el principal atractivo de este nuevo modelo de Qwen es su función de «agente visual». Esta característica supone que el modelo puede operar dentro de una interfaz gráfica. Es decir, puede reconocer elementos en pantalla y ejecutar acciones autónomas con respecto a ellos: por ejemplo, automatizar tareas repetitivas o facilitar la accesibilidad y el uso dentro de un hardware que requiera de ciertos conocimientos. Para ello, Alibaba ha introducido tres mejorar arquitectónicas:
- Codificación posicional Interleaved-MRoPE.
- Tecnología DeepStack para mejorar el alineamiento texto-imagen.
- Sistema «text-timestamp alignment» de alineación temporal para vídeo con el objetivo de multiplicar la precisión del modelo en el visionado de vídeos.
| Componente | Tecnología Implementada | Función Principal |
|---|---|---|
| Codificación Visual | Interleaved-MRoPE | Mejora la codificación de información espacial en imágenes. |
| Alineamiento Multimodal | DeepStack | Optimiza la integración y coherencia entre texto e imagen. |
| Procesamiento de Vídeo | Text-Timestamp Alignment | Sincroniza con precisión eventos de vídeo con descripciones textuales. |
El cambio de apuesta frente a su competencia
Alibaba pretende desmarcarse de la filosofía de «más grande es mejor». Por ello, ha orientado Qwen3-VL hacia aplicaciones específicas con buenos resultados en benchmarks. Frente a otros modelos de IA cerrados, el gigante asiático ofrece una alternativa para desarrolladores y empresas con el foco puesto en proyectos de vídeo, automatización, investigación académica y accesibilidad.
De hecho, Qwen3-VL rivaliza en benchmarks con Gemini, GPT-5 y otras IAs de modelos cerrados, pero se desmarca gracias a su apertura y arquitectura avanzada. Este modelo lo tenemos disponible en Hugging Face bajo Aparche 2.0. Según los benchmarks publicados en Qwen.ai el 23 de septiembre, este modelo demuestra un rendimiento competitivo, alcanzando una precisión del 84.7% en MMBench y superando a GPT-4o en MathVista con un 58.3%.
| Modelo | MMBench (%) | MathVista (%) | VQA Accuracy | Contexto Máx. (Tokens) |
|---|---|---|---|---|
| Qwen3-VL | 84.7 | 58.3 | 79.2 | 256K |
| Gemini 1.5 Pro | 83.2 | 56.8 | 78.5 | 1M |
| GPT-4o | 82.9 | 56.1 | 77.8 | 128K |
