Z.ai (anteriormente conocida como Zhipu AI) acaba de lanzar un modelo de IA multimodal de código abierto que pretende ser la referencia open source en cuanto a las capacidades de visión de un modelo de inteligencia artificial. Una alternativa que pretende competir con GPT-5 o Claude Opus…
Dicho modelo tiene el nombre de GLM-4.6V, y tiene una gran capacidad para comprender visualmente los documentos, procesar el lenguaje y la llamada «function calling» que vamos a explicar en este artículo. Todo ello en un solo modelo que puedes descargar, instalar y ejecutar localmente sin pagar un solo céntimo.
GLM-4.6V es capaz de procesar simultáneamente vídeos, imágenes, documentos PDF con cientos de páginas y texto. Y lo hace con una ventana de contexto de 128.000 tokens. Lo que sería equivalente a 150 páginas de un libro. Pero lo más importante es que GLM-4.6V no solo entiende lo que ve, sino que puede ejecutar acciones basadas en dicha comprensión visual: desde extraer datos de formularios a convertir diseños en código, buscar información en webs… una nueva oportunidad tanto para startups como para usuarios que necesiten buenas capacidades de IA, pero que no puedan costearse GPT-5 y demás alternativas.
GLM-4.6V: visión nativa y «function calling»
Hasta ahora, los modelos de lenguaje podían procesar imágenes, pero solo a modo de «espectadores pasivos». Es decir: recibían una foto, la analizaban y devolvían texto. GLM-4.6V da un giro de guion a ese modelo. El sistema entiende las imágenes, los vídeos y los documentos con la misma naturalidad con que entiende los textos. Y por ello puede ejecutar acciones directamente según lo que ve.
Si le pasamos un screenshot de una web, puede extraer datos de una tabla, buscar información relacionada y generar un informe de manera automática. Si le mostramos un wireframe de diseño, puede convertirlo directamente en HTML y CSS. Si procesa un PDF de un contrato, por ejemplo, puede identificar una cláusula problemática, resumirla y sugerir cualquier cambio.
Para todo ello, cuenta con una ventana de contexto de 128.000 tokens. Esto significa que GLM-4.6V puede procesar de una sola vez y sin ayuda lo que sería equivalente a 150 páginas de documentación, 200 diapositivas de PowerPoint, un vídeo de una hora de duración o todo lo anterior de manera combinada. Por lo tanto, no hay necesidad de fragmentar la información. Una solución perfecta para aumentar tu ritmo de trabajo de cara a auditorías de documentos visuales, extracción de datos de archivos digitales o conversión de diseños visuales a código.
GLM-4.6V vs modelos comerciales
GLM-4.6V no es solo de código abierto, sino que compite directamente con modelos comerciales considerados premium por una décima parte de su precio. En los resultados de los principales benchmarks multimodales, como MMBench, MathVista u OCRBench, el modelo logra un rendimiento al nivel de GPT-5 y Claude Opus en cuanto a tareas de comprensión visual: análisis de documentos, OCR y razonamiento lógico sobre gráficos.
Pero lo verdaderamente importante, más allá del rendimiento, está en su propuesta económica. GLM-4.6V en la nube tiene un precio de alrededor de 30 céntimos por millón de tokens de entrada y de 90 céntimos de salida. Una cifra que en GPT-5 llega hasta los 30 dólares por millón de tokens y que en Claude Opus alcanza los 15 dólares. Es decir, una diferencia de 50 a 100 veces mejor de precio.
Aun así, la versión de escritorio local es plenamente gratuita, bajo licencia MIT. Por lo que podemos tenerla directamente en nuestro PC sin ningún tipo de coste ni suscripción. Por lo que podemos tener en nuestro ordenador una IA con grandes capacidades de visión y lenguaje sin comprometer el presupuesto de una pequeña empresa. Y el hecho de que sea open source también significa que los desarrolladores pueden modificar el modelo en casos específicos de uso sin atarse a políticas comerciales de grandes corporaciones.
