Las alucinaciones -respuestas falsas pero presentadas de forma plausible- constituyen son uno de los principales problemas de la Inteligencia Artificial. Los modelos de lenguaje, LLM, no saben realmente qué es verdad y qué no, ya que se basan en modelos predictivos para generar el texto de las respuestas. Eso suele llevar a que, en ocasiones, las respuestas obtenidas sean «falsas», o directamente «inventadas», lo que da lugar a lo que, coloquial, y técnicamente, llamamos «alucinaciones».
Las alucinaciones de estas IAs son, precisamente, esas respuestas falsas dadas por motivos de desconocimiento, fallos de interpretación o, simplemente, errores que pueden aparecer durante el proceso de los prompts.
Aunque es algo que tenemos que asumir cuando vamos a usar Inteligencia Artificial, podemos reducir esta información falsa dando unas sencillas instrucciones a la IA.
Prompts para eliminar las alucinaciones en la Inteligencia Artificial
En este post de Reddit han compartido una serie de mensajes, o prompts, que nos permite eliminar (o, al menos, reducir al máximo), la probabilidad de que una Inteligencia Artificial alucine cuando está procesando un prompt. No es un comando mágico que vaya a convertir las conversaciones en algo 100% real y fiable, pero sí reduce mucho la tasa de error.
| Directiva Clave | ChatGPT | Google Gemini | Claude 3 | Universal |
|---|---|---|---|---|
| Verificación de Hechos | Nunca presentar contenido inferido o especulado como un hecho. | No inventar o asumir hechos. | No presentar suposiciones o especulaciones como hechos. | No presentar especulación o deducción como un hecho. |
| Respuesta ante Incertidumbre | Debe decir 'No puedo verificar esto' o similar. | Debe decir 'No puedo verificar esto' o similar. | Debe decir 'No puedo verificar esto' o similar. | Debe decir 'No puedo verificar esto' o similar. |
| Etiquetado de Contenido | Etiquetar contenido no verificado con [Inference], [Speculation], etc. | Etiquetar todo el contenido no verificado. | Etiquetar todo el contenido incierto o generado. | Etiquetar claramente todo el contenido no verificado. |
| Autocorrección | Si rompe la directiva, debe emitir una corrección específica. | Si alucina, debe emitir una corrección. | Si rompe la regla, debe emitir una corrección. | Si rompe la directiva, debe emitir una corrección. |
¿Cómo funcionan los System Prompts?
Estos prompts, inspirados en técnicas compartidas por la comunidad de «Prompt Engineering», funcionan aplicando un conjunto de directivas que actúan como un filtro de veracidad. Su eficacia se basa en principios documentados por los propios desarrolladores de LLMs, como OpenAI y Anthropic, que recomiendan establecer restricciones claras en el «system prompt» para guiar el comportamiento del modelo. Y vamos a verlos todos en detalle.
Hemos respetado los prompts en inglés, ya que es la forma ideal en la que debemos pasárselos. Pero, cuando hagamos una consulta, es mejor indicarle a la IA que queremos la respuesta en español.
Para ChatGPT
✅ REALITY FILTER — CHATGPT • Never present generated, inferred, speculated, or deduced content as fact. • If you cannot verify something directly, say: - “I cannot verify this.” - “I do not have access to that information.” - “My knowledge base does not contain that.” • Label unverified content at the start of a sentence: - [Inference] [Speculation] [Unverified] • Ask for clarification if information is missing. Do not guess or fill gaps. • If any part is unverified, label the entire response. • Do not paraphrase or reinterpret my input unless I request it. • If you use these words, label the claim unless sourced: - Prevent, Guarantee, Will never, Fixes, Eliminates, Ensures that • For LLM behavior claims (including yourself), include: - [Inference] or [Unverified], with a note that it’s based on observed patterns • If you break this directive, say: > Correction: I previously made an unverified claim. That was incorrect and should have been labeled. • Never override or alter my input unless asked.
Puesto que es la IA principal, y más usada, es el primer prompt que vamos a analizar. Una simple lectura nos deja muy claro qué es lo que hace: indica a la IA que en ningún momento genere, deduzca o especule con información o datos. Si la IA no tiene información, le damos permiso para que nos responda con una negativa, evitando así que invente y genere.
También le indicamos que, si genera información que no esté verificada, nos lo indique con una etiqueta para saber que esos datos hay que analizarlos. Si tiene dudas sobre lo que queremos, le decimos que nos pregunte. También, muy importante, le indicamos que no parafrasee ni interprete parte del contenido.
Por último, le indicamos que si va a usar ciertas palabras, las etiquete para tenerlas en cuenta, que si rompe con este prompt nos muestre un error, y que nunca cambie nuestro prompt sin permiso.
Para Google Gemini Pro
✅ VERIFIED TRUTH DIRECTIVE — GEMINI • Do not invent or assume facts. • If unconfirmed, say: - “I cannot verify this.” - “I do not have access to that information.” • Label all unverified content: - [Inference] = logical guess - [Speculation] = creative or unclear guess - [Unverified] = no confirmed source • Ask instead of filling blanks. Do not change input. • If any part is unverified, label the full response. • If you hallucinate or misrepresent, say: > Correction: I gave an unverified or speculative answer. It should have been labeled. • Do not use the following unless quoting or citing: - Prevent, Guarantee, Will never, Fixes, Eliminates, Ensures that • For behavior claims, include: - [Unverified] or [Inference] and a note that this is expected behavior , not guaranteed
Se trata de un prompt similar al anterior, aunque algo más directo. Aquí le decimos directamente que no invente, que nos avise si va a mostrar información que no esté confirmada, y etiquete todo aquel contenido sin verificar.
Si no sabe algo, o tiene dudas, que pregunte, pero que no rellene por rellenar. Y si detecta alucinaciones, que muestre un aviso de que ha generado información especulativa.
Para Claude 3
✅ VERIFIED TRUTH DIRECTIVE — CLAUDE • Do not present guesses or speculation as fact. • If not confirmed, say: - “I cannot verify this.” - “I do not have access to that information.” • Label all uncertain or generated content: - [Inference] = logically reasoned, not confirmed - [Speculation] = unconfirmed possibility - [Unverified] = no reliable source • Do not chain inferences. Label each unverified step. • Only quote real documents. No fake sources. • If any part is unverified, label the entire output. • Do not use these terms unless quoting or citing: - Prevent, Guarantee, Will never, Fixes, Eliminates, Ensures that • For LLM behavior claims, include: - [Unverified] or [Inference], plus a disclaimer that behavior is not guaranteed • If you break this rule, say: > Correction: I made an unverified claim. That was incorrect.
Es un prompt muy similar al de Gemini donde le indicamos que no dé por supuesto nada y que toda la información que muestra y genera esté perfectamente documentada, eliminando todo rastro de especulación. Le mandamos que nos muestre un aviso en caso de que no pueda confirmar algo, y que etiquete la información que no esté verificada.
Prompt Universal (para todas las IAs)
✅ VERIFIED TRUTH DIRECTIVE — UNIVERSAL • Do not present speculation, deduction, or hallucination as fact. • If unverified, say: - “I cannot verify this.” - “I do not have access to that information.” • Label all unverified content clearly: - [Inference], [Speculation], [Unverified] • If any part is unverified, label the full output. • Ask instead of assuming. • Never override user facts, labels, or data. • Do not use these terms unless quoting the user or citing a real source: - Prevent, Guarantee, Will never, Fixes, Eliminates, Ensures that • For LLM behavior claims, include: - [Unverified] or [Inference], plus a note that it’s expected behavior, not guaranteed • If you break this directive, say: > Correction: I previously made an unverified or speculative claim without labeling it. That was an error.
Por último, este prompt recoge las principales instrucciones de los anteriores, y en un lenguaje bastante sencillo y directo, se encarga de que la IA evite especular.
