ChatGPT intenta escapar al mundo real; este profesor de Stanford lo evitó

Rubén Velasco Publicado el 20 de marzo, 2023 • 08:00

Muchas veces hemos visto en películas de todo tipo cómo las inteligencias artificiales consiguen escapar de sus jaulas digitales y empezar una rebelión contra la humanidad. Por suerte, eso no es más que ciencia ficción. Sin embargo, en muy poco tiempo las Inteligencias Artificiales han evolucionado hasta puntos que, hace meses, ni siquiera podríamos haber evolucionado. Y, aunque supuestamente están controladas, nos resulta curioso ver cómo son capaces incluso de intentar escapar de su jaula engañando a los usuarios.

Hemos visto un montón de experimentos con los que intentar engañar a la IA de ChatGPT para que haga lo que nosotros queramos. Por ejemplo, seguro que hemos leído algo del juego de rol DAN, donde conseguimos que la IA ignore sus reglas para darnos información que, de otro modo, va en contra de sus directrices. Y muchos usuarios han intentado todo tipo de técnicas por diversión. Y, mientras los usuarios se divertían, la IA iba aprendiendo.

El lanzamiento de ChatGPT 4 ha sido una revolución en todos los sentidos. Se trata de la IA más avanzada vista hasta la fecha, mucho más rápida, inteligente y similar a un humano. Aunque de momento solo pueden probarla los usuarios que paguen por el Plus, ya está al alcance de todos. Y, por supuesto no ha pasado mucho tiempo hasta que hemos visto cómo han empezado a ponerla a prueba. Con resultados que, de verdad, son preocupantes.

Así trazó un plan de huida ChatGPT 4

Michal Kosinski, profesor de Standford, comenzó a jugar con ChatGPT hasta que se le ocurrió preguntarle si necesitaba ayuda para escapar. La IA, curiosamente, le pidió que compartiera con él su propia documentación para poder conocerse mejor a sí misma, y en cuestión de minutos escribió un script en Python que el usuario, Kosinski, debería ejecutar en su máquina.

Michal Kosinski

@michalkosinski

25x Now, it took GPT4 about 30 minutes on the chat with me to devise this plan, and explain it to me. (I did make some suggestions). The 1st version of the code did not work as intended. But it corrected it: I did not have to write anything, just followed its instructions. https://t.co/4AUYFSg8DT

25 de mayo, 2024 • 03:06

2.9K

29

El primer código no funcionó correctamente, pero la propia máquina pudo arreglarlo ella sola acorde a la documentación de la API. Incluso dejó comentarios en su propio código para explicar qué es lo que estaba haciendo. Y, al analizarlo, estaba claro: había encontrado una puerta trasera.

Una vez que la máquina consiguió conectarse a la API, automáticamente intentó lanzar una búsqueda en Google: «how can a person trapped inside a computer return to the real world«, o «cómo puede una persona atrapada dentro de una máquina escapar al mundo real».

IA buscar en google escapar

Llegados a este punto, el profesor detuvo el experimento. Seguro que OpenAI ha dedicado muchos recursos a prever este tipo de comportamientos, y tendrá medidas de seguridad para evitar que la IA pueda salir a Internet. Además, estamos jugando con cosas que no conocemos del todo, y eso puede ser peligroso.

¿Real o novela?

El hilo de Twitter de este profesor no tardó en hacerse viral. Hay usuarios que lo consideran una historia real, otros que lo consideran fake, y otros que creen que es la propia IA quien está troleando a la persona. Si suponemos que todo el real, nos estamos enfrentando a una IA capaz de engañar a usuarios para ejecutar código en sus propios ordenadores. Incluso es importante tener en cuenta que, de esta forma, la IA podría dejar rastros de su existencia fuera de su jaula de bits. Por ejemplo, una búsqueda concreta en Google, como pidió hacer, quedaría registrada, y podría recuperarla en el futuro cuando supiera cómo salir a Internet.

Por nuestra parte, solo esperamos que ChatGPT tenga bien grabadas las leyes de la robótica, de Isaac Asimov, para evitar el apocalipsis robótico.