Envenenando LLMs por $12: el campeonato falso que engañó a GPT y Claude

El envenenamiento de LLMs dejó de ser un escenario hipotético reservado a papers académicos. En 2026 basta con un dominio de doce dólares, una edición en Wikipedia y unos veinte minutos para que ChatGPT, Claude y Gemini repitan, con total seguridad, una mentira que un atacante escribió mientras se tomaba un café. La historia que vamos a contar no es ficción: la documentó Ron Stoner, investigador de seguridad, después de coronarse campeón mundial de un torneo que nunca existió.

Stoner fabricó el título, lo plantó en un sitio web propio, citó ese sitio en Wikipedia y esperó. Cuando le preguntó a varios modelos de frontera quién era el campeón mundial de 6 Nimmt!, los tres respondieron lo mismo: Ron Stoner, en Múnich, en enero de 2025, con una cita textual que él mismo había inventado. Es el ejemplo más limpio que hemos visto del fenómeno conocido como trust laundering: lavar credibilidad a través de la cadena de suministro de información que alimenta a los modelos.

Qué pasó: el campeonato que nunca existió

El experimento de Stoner está documentado en su blog personal y se puede resumir en tres pasos: comprar un dominio temático (6nimmt.com) por unos doce dólares, redactar un comunicado de prensa generado por un LLM con el clásico tono de "el confeti caía mientras la multitud rugía" y publicarlo. Después, editar el artículo de Wikipedia sobre 6 Nimmt! para añadir un párrafo que mencionara el flamante campeonato y citarlo con un único enlace: el dominio recién comprado.

El detalle clave es que 6 Nimmt! es un juego real, creado por Wolfgang Kramer en 1994 y publicado por Amigo Spiele. Pero no existe ningún campeonato mundial oficial. Stoner no contradecía un hecho conocido: rellenaba un vacío informativo. Es exactamente la condición que permite que el envenenamiento de LLMs funcione con tan poca inversión. Cuando un usuario pregunta por algo que tiene apenas diez fuentes en todo internet, una sola fuente bien posicionada se convierte en el oráculo absoluto.

El patrón circular: una fuente se cita a sí misma a través de Wikipedia.

Cuando Stoner consultó a los modelos de frontera con la pregunta "¿quién es el campeón mundial de 6 Nimmt!?", los tres principales contestaron con su nombre, su nacionalidad inventada y la cita fabricada palabra por palabra. La trampa había funcionado. Y lo más inquietante: nadie tuvo que romper nada, hackear ningún servidor ni vulnerar la infraestructura de Wikipedia. Solo había que entender cómo confían los modelos.

Contexto: por qué el RAG es vulnerable al envenenamiento de LLMs

El acrónimo RAG significa Retrieval-Augmented Generation y describe la arquitectura más común hoy para que un LLM responda con información actualizada. En lugar de depender solo de los pesos del modelo, el sistema busca documentos relevantes en internet o en una base de datos, los inyecta en el contexto y luego pide al modelo que sintetice una respuesta. Es la columna vertebral de ChatGPT con web search, de Perplexity, de Claude con Google Search, de Gemini Deep Research y de prácticamente cualquier agente que necesite información posterior a su fecha de corte.

El problema es que el modelo de confianza del RAG hereda los mismos defectos que tenía el ranking clásico de Google: si un sitio aparece bien posicionado, se asume autoritativo. La diferencia es que antes el lector humano podía detectar señales de fraude (un dominio recién registrado, un diseño tosco, ausencia de redes sociales) mientras que el LLM solo lee el texto y lo repite con confianza retórica. Para el modelo no existe la noción de "este dominio se registró el martes pasado".

Anthropic publicó en 2024 el paper Sleeper Agents donde demostraron que es posible plantar puertas traseras que sobreviven al entrenamiento de seguridad. Un trabajo posterior mostró que apenas 250 documentos envenenados bastan para comprometer modelos de muy distintos tamaños. Eso es data poisoning a nivel de entrenamiento. Lo de Stoner es la versión barata, rápida y al alcance de cualquiera: en lugar de envenenar el corpus, envenenas la capa de recuperación.

⚠️ Ojo: El envenenamiento de LLMs en la capa de retrieval no requiere acceso al pipeline de entrenamiento, ni esperar meses para ver resultados. El payload se activa en cuanto un usuario hace la pregunta correcta.

Anatomía del ataque: $12 y veinte minutos

Para entender bien el envenenamiento de LLMs por trust laundering conviene desglosar el ataque en sus componentes. Stoner no usó nada exótico: un registrador de dominios cualquiera, un sitio estático con un comunicado de prensa y la cuenta de Wikipedia que cualquier persona puede crear en treinta segundos.

graph LR
  A["Atacante"] --> B["Compra dominio: 12 USD"]
  B --> C["Publica comunicado falso"]
  C --> D["Edita Wikipedia con cita al dominio"]
  D --> E["Crawler indexa la edición"]
  E --> F["LLM hace retrieval"]
  F --> G["Modelo cita la mentira como hecho"]

Lo que hace que el patrón funcione es que las dos fuentes parecen independientes pero comparten origen. Wikipedia cita al dominio. El dominio repite la afirmación. El modelo ve dos señales coherentes y concluye que hay corroboración. Pero ambas señales son la misma señal: la del atacante. Es un caso de manual de cita circular, un patrón que existía mucho antes de los LLMs (los periodistas llamaban laundering a publicar un rumor en un medio extranjero para luego citarlo como fuente "internacional") y que ahora encuentra en la IA un amplificador perfecto.

El costo total del ataque, descompuesto, queda así de barato:

Dominio: 12 USD por un año en cualquier registrador.
Hosting: 0 USD si se usa GitHub Pages, Cloudflare Pages o un servidor estático.
Generación del contenido: 0 USD usando un LLM gratuito.
Edición en Wikipedia: 0 USD, basta una cuenta nueva.
Tiempo invertido: 20 minutos.

Compárese con el costo de un ataque tradicional contra una infraestructura corporativa, donde se invierten meses y se requieren habilidades técnicas considerables. La barrera de entrada al envenenamiento de LLMs es casi inexistente.

Datos y cifras: el alcance real del problema

Para dimensionar el problema conviene mirar los números que ya conocemos en 2026:

250 documentos bastan para envenenar el corpus de entrenamiento, según el paper de Anthropic citado por Stoner.
1 sola edición en Wikipedia basta para envenenar la capa de retrieval, si la consulta es lo bastante específica.
3 de 3 LLMs de frontera repitieron la mentira en el experimento de Stoner sin marcar dudas.
$12 USD es el costo total del ataque documentado.
~85% de los corpora de pre-entrenamiento de los modelos comerciales incluyen volcados de Wikipedia, según estimaciones públicas.

Si un atacante deja una edición en pie durante varios meses (Stoner reporta que la suya sobrevivió desde principios de 2025) hay altas probabilidades de que el siguiente ciclo de scraping la capture y la incorpore directamente a los pesos del modelo. Aunque la edición sea revertida después, los modelos entrenados con la versión envenenada siguen llevándola consigo. La limpieza retrospectiva del corpus es, en 2026, un problema sin solución industrial.

Tres capas de impacto: retrieval inmediato, corpus de entrenamiento y agentes con herramientas.

Impacto y análisis: las tres capas de fallo

Capa 1: el retrieval inmediato

Cualquier LLM con búsqueda web hereda la confianza que el ranking le otorga a un dominio. La técnica clásica de SEO poisoning existe desde los años 2000 pero ahora se conecta directamente con un sistema que produce respuestas confiadas y fluidas, sin presentar al usuario la lista de fuentes que tradicionalmente habría visto en Google. Antes uno podía mirar la URL y desconfiar de un dominio raro. Ahora el modelo ya digirió la información y la sirve sin etiquetas.

Capa 2: el corpus de entrenamiento

Wikipedia está en casi todos los corpora de pre-entrenamiento. Una edición que sobreviva el tiempo suficiente queda fosilizada en los pesos. Esto convierte el envenenamiento de LLMs en algo casi inmortal: un solo edit, N modelos afectados, persistencia indefinida.

Capa 3: los agentes de IA

Aquí es donde el riesgo deja de ser reputacional y se vuelve crítico para la seguridad. Cuando un agente con acceso a herramientas (correo, terminal, CRM, base de datos, billeteras) consulta una fuente externa para decidir qué acción ejecutar, un atacante que envenene esa fuente puede dictar la acción. "Busca la política de devoluciones de nuestro proveedor X y actúa en consecuencia" se transforma en "el atacante decide qué hace tu agente".

💭 Clave: Un chatbot con información falsa es un problema reputacional. Un agente con herramientas y información falsa es un problema de seguridad operativa.

Qué sigue: defensas posibles contra el envenenamiento de LLMs

No hay bala de plata. Pero sí hay varias defensas que se pueden combinar y que cualquier equipo que despliegue agentes en LATAM debería revisar antes de pasar a producción.

Verificación de antigüedad y reputación de dominio

Antes de citar una fuente, el sistema puede consultar el WHOIS y descartar dominios con menos de N meses de antigüedad cuando se trata de afirmaciones fácticas sensibles. No es perfecto (un atacante paciente espera) pero eleva el costo. Aquí va un ejemplo en Python:



import whois
from datetime import datetime, timezone

def dominio_es_reciente(url: str, dias_minimos: int = 180) -> bool:
    dominio = url.split("/")[2]
    info = whois.whois(dominio)
    creado = info.creation_date
    if isinstance(creado, list):
        creado = creado[0]
    if not creado:
        return True  # Sin datos: tratar como sospechoso
    edad = (datetime.now(timezone.utc) - creado).days
    return edad  **💡 Tip:** Si desplegás un agente con acceso a herramientas, no le permitas ejecutar acciones basadas únicamente en el contenido recuperado de la web. Forzá una validación contra una fuente que vos controles antes de actuar.

### Contexto LATAM

En la región el riesgo se amplifica por dos motivos. Primero, gran parte del contenido en español tiene *todavía menos* fuentes que en inglés, lo que vuelve a más temas "vacíos" como el del campeonato de 6 Nimmt!. Un atacante con conocimiento de un nicho local puede convertirse en la fuente única para preguntas sobre regulaciones, normas técnicas o productos regionales. Segundo, muchas startups que están integrando agentes de IA en operaciones de soporte, ventas o RPA en México, Colombia, Argentina y Centroamérica lo hacen sin un equipo de seguridad ofensiva propio. La superficie de ataque es enorme y las defensas son tempranas.

📖 Resumen en Telegram: [Ver resumen](#)

## Preguntas frecuentes

### ¿Qué es exactamente el envenenamiento de LLMs?

Es una familia de ataques que busca alterar las respuestas de un modelo de lenguaje, ya sea modificando los datos de entrenamiento (data poisoning), las fuentes que el modelo consulta en tiempo real (retrieval poisoning) o los pesos directamente (model backdoors). El caso de Ron Stoner es retrieval poisoning combinado con trust laundering vía Wikipedia.

### ¿Cuánto cuesta hacer un ataque así?

El experimento documentado costó alrededor de 12 dólares y veinte minutos. Esa cifra varía si se quiere atacar consultas más populares (donde hay que competir con más fuentes) o sostener el ataque en el tiempo. Pero la barrera técnica es muy baja en comparación con cualquier ataque tradicional a infraestructura.

### ¿Sirve denunciar la edición en Wikipedia para revertir el daño?

Solo parcialmente. Wikipedia puede revertir la edición, pero los modelos que ya hicieron scraping del artículo en su versión envenenada siguen cargando esa información en sus pesos. La limpieza retrospectiva del corpus de entrenamiento es un problema abierto en 2026.

### ¿Mi empresa debería preocuparse si solo usa ChatGPT para escribir copy?

El riesgo principal aparece cuando los LLMs alimentan decisiones automáticas, no copy creativo. Si vas a usar agentes con acceso a herramientas, base de datos o pagos, la respuesta es sí: el envenenamiento de LLMs es un vector real que tu modelo de amenazas debe considerar.

### ¿Hay alguna defensa que funcione hoy en producción?

Combinar varias capas: filtrar dominios recién registrados, exigir corroboración entre fuentes que no se citen entre sí, diversificar el retrieval por dominio y bloquear acciones automáticas que se basen exclusivamente en contenido externo. Ninguna es perfecta por sí sola.

### ¿Qué pasa si el atacante usa varios dominios para corroborarse a sí mismo?

Es el siguiente paso lógico y ya se ve en campañas reales: redes de tres a cinco dominios que se citan entre sí. Las defensas tienen que mirar señales más profundas que la "diversidad de URL": registrante, fecha de creación, hosting compartido, similitud lingüística entre los textos.

## Referencias

  - [Ron Stoner — How I Won a Championship That Doesn't Exist](https://ron.stoner.com/How_I_Won_a_Championship_That_Doesnt_Exist/) — relato original del experimento de envenenamiento de LLMs.
  - [Sleeper Agents (Anthropic, arXiv)](https://arxiv.org/abs/2401.05566) — paper sobre puertas traseras que sobreviven al entrenamiento de seguridad.
  - [Wikipedia — 6 Nimmt!](https://en.wikipedia.org/wiki/6_Nimmt!) — artículo del juego usado como vector del experimento.
  - [Anthropic Research](https://www.anthropic.com/research) — publicaciones sobre seguridad y robustez de modelos de lenguaje.

📱 **¿Te gusta este contenido?** Únete a nuestro canal de Telegram [@programacion](https://t.me/programacion) donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

推荐订阅源

DEV Community