Aunque al leer el titular pienses en Madrid o Barcelona, nada tiene que ver. El partido más fascinante en estos momentos no lo juegan humanos, sino dos inteligencias artificiales: Albert y Kai. Estas IA, entrenadas mediante «Deep Reinforcement Learning», comienzan a jugar… sin saber qué tienen que hacer, y acaban siendo verdaderas estrellas.
Es una demostración muy visual y divertida sobre cómo la IA puede aprender, adaptarse y perfeccionas sus tácticas de manera autónoma. Y es que podemos observar sus primeros toques de balón, hasta jugadas que luego son sorprendentes. Además, hay que sumar que todo ello ocurre en cuestión de segundos y minutos. Precisamente por ser un experimento tan curioso se ha convertido en todo un fenómeno viral, además de lo didáctico que puede ser ver cómo funciona el aprendizaje por refuerzo.
En este experimento, llevado a cabo por DeepMind de Google y con el nombre de «Emergent Coordination through Competition», cada gol conseguido se convierte en una recompensa que moldea su comportamiento en el futuro, mientras que encajar un gol es una penalización. Y es a través de miles de simulaciones en que estos «jugadores» pulen sus habilidades. Te dejamos con el curioso vídeo que está revolucionando las redes.
La mecánica de este experimento de IA
Bajo este curioso enfrentamiento deportivo se desarrolla la mecánica de «Refuerzo de aprendizaje profundo», o Deep Reinforcement Learning. Esto es una rama del aprendizaje automático utilizado para las IAs que, en esta ocasión, se ha utilizado sobre Albert y Kai. Este aprendizaje influye sobre el motor de simulación, las redes neuronales, los recursos de computación y los parámetros clave. Pero lo más sorprendente de todo es que ninguno de los dos «jugadores» recibe instrucciones específicas.
Tan solo aprenden a jugar al fútbol a través de un sistema de ensayo y error. Y recibirán recompensas por las acciones que los acercan al objetivo: marcar 1000 goles. Pero también penalizaciones si reciben un gol o marcan en propia puerta.
Cómo es el entrenamiento para Albert y Kai
Al principio, Albert y Kai actúan de manera casi aleatoria, pues desconocen por completo lo que deben hacer. Por lo tanto, sus movimientos carecen de sentido. Al «controlar» el balón, sus movimientos tampoco son nada fluidos. Los tiros son erráticos y los goles en propia meta son comunes.
Después de cada partida, los algoritmos analizan las consecuencias de sus actos. Una jugada exitosa, como un gol, se refuerza, y aumenta la probabilidad de repetirla en un futuro. Mientras que un error debilita esa conexión neuronal.
Mientras acumulan partidos -aunque hablemos de miles de partidos-, ambos comienzan a desarrollar un comportamiento más especializado. Por ejemplo, aprenden a controlar el balón, a anticiparse a los movimientos del oponente y a identificar oportunidades para chutar.
Conforme avanzan en «profesionalidad», los creadores ajustan los parámetros del juego. Como el tamaño de las porterías o la velocidad de ambos «jugadores». Esta mecánica se conoce como «curriculum learning».
Qué nos enseña este partido
Aunque pueda parecer un pasatiempo más, detrás se esconde algo más importante que el entretenimiento. Es una demostración muy didáctica de cómo los modelos de IA que utilizamos van aprendiendo habilidades cada vez más complejas dentro de un entorno. Aunque no esté programada para ninguna acción en particular.
Este mismo comportamiento lo podemos extrapolar a campos como la robótica, en que los robots aprenden a interactuar con su entorno, o a los vehículos autónomos. Pero también es el proceso que siguen las IA más conocidas: ChatGPT, Gemini, Grok, Perplexity…
Por lo que no estamos ante un sistema que solo pueda pensar, sino también «aprender» y «adaptarse» a las circunstancias. Y aunque pueda parecer surrealista, nos acerca potencialmente a situaciones que se pueden leer en libros del mismo Isaac Asimov.
| Fase de Entrenamiento | Duración (Horas de Simulación) | Habilidades Adquiridas y Comportamiento | Métrica de Éxito |
|---|---|---|---|
| Aleatoria | 0-20h | Movimientos erráticos, sin interacción con el balón, colisiones frecuentes. | ~0% goles |
| Asociación Básica | 20-100h | Primeros contactos con el balón, reacción a recompensas/penalizaciones. | ~5% precisión en disparos |
| Control Elemental | 100-500h | Desplazamiento controlado con el balón, diferenciación entre ofensa y defensa. | ~40% de posesiones terminan en disparo |
| Estrategia Emergente | 500-2,840h | Pases coordinados, anticipación de movimientos, fintas y roles tácticos espontáneos. | 78% de eficacia en juego de equipo |
