Grok 4, la inteligencia artificial creada por xAI, propiedad de Elon Musk, ha conseguido la corona en el benchmark NYT Connections Extended. Pero este benchmark tiene algo muy distinto al resto, y es que también mide el rendimiento promedio de un humano. Lo que quiere decir que supera incluso el razonamiento humano.
NYT Connections Extended es una prueba que mide cómo es de eficaz una inteligencia artificial enfrentada a pruebas de razonamiento. Y los enfrenta nada más y nada menos que a 651 rompecabezas en juegos de lógica del propio New York Times. En esta ocasión, el propio Grok 4 ha alcanzado la puntuación de 92,4% de éxito. Lo que le ha llevado a alcanzar el primer puesto con respecto a los otros grandes modelos, como ChatGPT o Gemini, e incluso es superior a la media de acierto humana.
Y sí, has leído bien. Ha podido superar a todos los gigantes del mercado: o3-pro, de ChatGPT, Gemini 2.5 Pro, Qwen 3, Claude Opus 4 o DeepSeek R1. Dicho benchmark fue creado por el desarrollador Lech Mazur, pero nadie esperaba que un modelo tan discreto hasta el momento como Grok alcanzase la primera posición. Lo que quiere decir que estamos ante un serio contendiente en la carrera por el reinado de la IA.
Los resultados del NYT Connections Extended
Grok 4, la IA por la que Elon Musk ha apostado en todo momento, ha conseguido liderar el test benchmark de NYT Connections Extended. Esta prueba se encarga de estudiar el rendimiento de los principales sistemas de inteligencia artificial del mundo, pero lo hace con una premisa en particular. La de superar un razonamiento lógico del juego «Connections Extended» del periódico más leído del mundo: el New York Times.
La mecánica de este juego es encontrar 4 grupos distintos de palabras dentro de una cuadrícula que engloba 16 términos distintos. Por lo que siempre hay cuatro grupos perfectamente relacionados entre sí. Pero para añadir un plus de dificultad, el propio Mazur ha añadido 4 palabras trampa en cada puzzle, lo que aumenta la dificultad en cada uno de los puzzles. De esta manera, no solo se mide una capacidad de razonamiento, sino que se le añade un nuevo filtro para medir una capacidad de razonamiento más verídica.
¿Es más inteligente Grok 4 que un humano?
Dentro de este test también se incluyen los resultados promedios que alcanzan los humanos, o al menos los recopilados entre diciembre de 2024 y febrero de 2025. Es decir, según este análisis, los jugadores resuelven el 71% de los puzzles de este juego, pero, tal y como puedes ver en la gráfica, los modelos más conocidos de IA ya superan dicha marca.
Sin embargo, no debemos pasar por alto que los jugadores más habilidosos en esta prueba alcanzan una tasa de rendimiento del 100%. Por lo que se puede decir que el único sistema que supera a la media de humanos, pero aún se encuentra por debajo de los más hábiles, no es otro que Grok 4, con un 92,4% de acierto.
¿Supone esto un cambio de panorama en la IA?
Aunque es solo un indicador en particular, el liderazgo de Grok 4 en este apartado supone que xAI está haciendo las cosas bien y ya está preparado para competir en ligas de gigantes. Hasta el momento, los mejores resultados en pruebas de este tipo eran los modelos de OpenAI, Google o Anthropic. Sin embargo, ahora ha aparecido un nuevo contendiente que pretende imponerse al resto. Solo queda esperar, de cara al futuro, por los distintos benchmarks que evalúen otro tipo de rendimiento. Veremos entonces, hasta dónde es capaz de llegar la apuesta liderada por Elon Musk.
