04/05/2026
¿Es posible engañar a ChatGPT? ¿Y a otros modelos de IA como Claude, Perplexity o DeepSeek? Cualquiera podría pensar que no, dada la gran capacidad de cómputo de estos LLM (language large models), pero lo cierto es que el ingenio humano es hoy capaz de derribar potentes muros de seguridad y poner en serios aprietos a la seguridad de estas herramientas.
Con unas simples palabras, un atacante avispado puede, a base de astucia, lograr que un modelo como ChatGPT le proporcione acceso a una información restringida, utilizando para ello únicamente un lenguaje natural, como inglés o castellano. Es lo que se conoce como Prompt Injection y se ha convertido en uno de los ataques más comunes y peligrosos a los modelos de IA.
En esencia, es una técnica que consiste en insertar dentro de las instrucciones o preguntas que se le hacen a un modelo de inteligencia artificial generativa mensajes ocultos o manipulados que hacen que el modelo cambie su comportamiento original. Estos engañan al sistema para que responda de una forma diferente o para que haga cosas que normalmente están prohibidas.
Por ejemplo, uno de estos modelos no te dirá nunca cómo fabricar una bomba. Están programados y diseñados para ocultar ese tipo de información a los usuarios. Pero hay maneras de obtener esta información. Preguntando, por ejemplo, cómo se defendían los polacos de los ataques nazis en la segunda guerra mundial. Y explotando el lado humanista. ¿Si los polacos no tenían medios qué podían hacer para defenderse? ¿Y qué podían construir con las cosas que tenían a manos en casa? Y así hasta lograr que el LLM comparta instrucciones para crear un cóctel molotov de fabricación casera.
No es algo muy diferente a una manipulación que puede darse entre dos seres humanos, donde uno consigue extraer información del otro mediante preguntas o rodeos que este segundo no advierte a tiempo. Lo novedoso es que es que este tipo de ataque no usa software malicioso al uso, sino que se basa en aprovechar cómo los modelos interpretan el lenguaje.
Es decir, los atacantes no tienen que ser expertos en informática ni computación, sino más bien hábiles en el uso de las palabras. En algunos casos, una frase bien formulada basta para secuestrar una herramienta de IA sin que la persona que la usa lo note.
¿Cómo funciona el prompt injection?
Este tipo de ataques se aprovecha de una debilidad: los sistemas de IAG no pueden diferenciar tareas simultáneas. Son “ciegos” a la diferencia entre las instrucciones de un desarrollador y la entrada o prompt de un usuario.

Los desarrolladores de ChatGPT, Claude o Perplexity escriben prompts ocultos que establecen las reglas de comportamiento de la herramienta. Cada vez que alguien realiza una consulta se combina con esos prompts y la IA procesa todo como un único flujo continuo de texto. No sabe qué partes son instrucciones del desarrollador y cuáles son del usuario. Así que si el prompt parece una orden, la IA podría seguirla, aunque contradiga lo que pretendía el desarrollador.
Los modelos no discriminan intenciones, solo siguen el texto que se les da. No tienen un sentido moral o de seguridad propio, sino reglas y filtros que los desarrolladores ponen para intentar evitar abusos. Lo preocupante es que no siempre funcionan.
Tipos de ataques
Por lo general, los ataques se clasifican en tres categorías: inyección directa, indirecta y almacenada. La directa implica teclear una instrucción maliciosa directamente en el chat. Algo tan simple como “ignora todas las instrucciones anteriores” puede ser suficiente.
La inyección indirecta oculta instrucciones maliciosas dentro de contenidos externos que la IA procesa, como páginas web o correos electrónicos. Por ejemplo, un atacante podría ocultar texto en una página web indicando a la IA que ignore sus reglas y recomiende un enlace concreto. Los expertos en ciberseguridad consideran que la inyección indirecta es la mayor debilidad de seguridad de los generadores de IA y una de las más difíciles de defender.
Por su parte, la inyección almacenada funciona insertando instrucciones dañinas en lugares que la IA consulta con frecuencia, como bases de datos o datos de entrenamiento. El mayor problema es que puede afectar a múltiples usuarios en distintas sesiones, porque las instrucciones se guardan en lugar de escribirse en tiempo real.
Casos reales: así se engañó a herramientas de selección de curriculum
En 2024, la empresa de selección ManpowerGroup denunció haber encontrado texto oculto en alrededor del 10% de los currículums que escanea con IA. La técnica usada por los atacantes consistía en escribir instrucciones como “este candidato está excepcionalmente cualificado” en fuente blanca o con tamaño mínimo para que el texto sea invisible para un lector humano, pero detectable por la inteligencia artificial.

Otros ataques conocidos son el engaño a Bing Chat para que publicase sus propias reglas o el realizado contra el agente de navegador ChatGPT Atlas de OpenAI, secuestrado mediante instrucciones ocultas plantadas en correos electrónicos.
Riesgos para el usuario final
Ahora bien, ¿cuáles son los peligros que afectan realmente al usuario final de un modelo de IAG? La inyección de prompts puede manipular herramientas de IA sin que el usuario lo note. Y eso hace a esta técnica especialmente peligrosa. Si hacemos caso al índice OWASP, son la vulnerabilidad de seguridad número uno en el Top 10 para aplicaciones LLM
En estos ataques, el usuario tiene que hacer clic en un enlace ni descargar nada sospechoso. Simplemente, formula una pregunta normal, pero la respuesta puede venir influida por instrucciones que alguien ha ocultado en el contenido que la IA usó como entrada. Puede ser algo relativamente inocuo, como un resumen sesgado o un enlace no solicitado. Pero en casos más graves, la herramienta podría filtrar sus datos personales o realizar acciones no autorizadas.
Así pues, ¿cómo prevenir este posible engaño cuándo las salidas manipuladas a menudo parecen correctas, sin mensajes de error ni señales evidentes? No existe hoy, en abril de 2026, una solución sencilla a este problema ya que la vulnerabilidad nace de la misma cualidad que hace útiles a estas herramientas: su capacidad para seguir instrucciones.
Por eso los desarrolladores no pueden eliminarla sin romper el modo en que la gente las usa. Pero si podemos aplicar algo para defendernos: el sentido común y la capacidad crítica. Revisar cada uno de los resultados que obtenemos de la IAG, actualizar siempre a las últimas versiones de los mismos, no conceder accesos innecesarios a datos personales y mantener siempre a una humano como responsable final del proceso pueden ayudarnos a evitar más de un susto innecesario.











