La Inteligencia Artificial está revolucionando Internet. Pero para que sea útil, y pueda crecer y evolucionar, es necesario que se nutra constantemente de nueva información. Las redes sociales son una fuente de datos infinita, por lo que la mayoría de los LLM se nutren directamente de ellas. El problema es que a muchos usuarios no les gusta que usen sus fotos, o sus mensajes, para entrenar a estas IAs. Por suerte, no todas las redes sociales son como Instagram, Facebook o X.
Mastodon es una red social inspirada en Twitter / X, pero con la particularidad de que, en vez de funcionar de forma centralizada (es decir, que todos los usuarios se conectan al mismo servidor central), utiliza un modelo descentralizado en el que cualquiera puede montar su propio nodo, el cual está interconectado con los demás.

La empresa de Mastodon está fuera del mercado de las IAs y los LLMs. No tiene su propio algoritmo, y tampoco planea tenerlo ni a corto ni a largo plazo. Por supuesto, tampoco va a permitir que otras empresas se aprovechen de su plataforma, y de sus usuarios, para entrenar sus propios modelos de lenguaje. Y, para erradicarlo, acaban de publicar unos nuevos términos de licencia, los cuales entran en vigor el 1 de julio de este mismo año.
Adiós al scrapping y a las IAs en Mastodon
Los usuarios de Mastodon hemos recibido un correo en el que se nos informa de los nuevos términos de uso que va a aplicar la plataforma. Estos nuevos términos se centran en actualizar la lista de usos prohibidos de la red social. Y, citamos, son los siguientes:
- Violar los términos de uso, u otras políticas, aplicable a la instancia;
- Cargar cualquier material, programa o software que contenga cualquier virus, gusano, spyware, troyano u otro programa o código diseñado para interrumpir, destruir o limitar la funcionalidad de la instancia, lanzar una denegación de ataque de servicio o, de cualquier otra manera, intentar interferir con el funcionamiento y la disponibilidad de la instancia.
- Usar, iniciar, desarrollar o distribuir cualquier sistema automatizado, que incluya, entre otros, cualquier araña, robot, utilidad de trucos, raspador, lector fuera de línea, o cualquier sistema de minería de datos o herramientas de extracción y recopilación de datos similares para acceder a la instancia, excepto en cada caso, ya que puede ser el resultado del motor de búsqueda estándar o el navegador de Internet y el caché local o para la revisión humana y la interacción con el contenido en la instancia.
- Usar o iniciar cualquier script no autorizado u otro software.
- Interferir, deshabilitar, vandalizar o interrumpir la instancia o servidores o redes conectadas a la instancia.
- Hackear, penetrar, deshabilitar o eludir de otra manera las medidas de seguridad de la instancia o servidores o redes conectadas a la instancia.
- Usar la instancia de cualquier manera que viole cualquier derecho o regulación nacional, federal, estatal, local o internacional aplicable.
El punto importante en este sentido es el 3. Y es que los usuarios de esta red social están cada vez más enfadados porque sus contenidos se están usando a diario para alimentar estos modelos de lenguaje sin su permiso.
Bluesky regalando datos de usuarios
Bluesky es otra red social alternativa a X. Sus usuarios buscan alejarse del control de Elon Musk en una plataforma mucho más libre. Esta empresa no tiene su propio modelo de lenguaje para IA, pero es consciente de lo lucrativo que es apostar por ella.
Así, hace unos meses, la plataforma subió un repositorio repleto de datos creados por sus usuarios para permitir a otras empresas usar estos datos para entrenar otros modelos de lenguaje, lo cual generó ira y enfado dentro de la comunidad.
I've removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake.
— Daniel van Strien (@danielvanstrien.bsky.social) 2024-11-27T02:19:57.958Z
Y no es el único caso. Reddit, actualmente, está en juicios con Anthropic, creadores de la IA Claude, por entrenar su modelo de lenguaje usando sus publicaciones sin licencia y sin permiso.
Son tiempos complicados, y la batalla entre los que están a favor, y en contra, de la IA está aún por comenzar.