Skip to main content
AnthropicкибербезопасностьLLM

Claude Mythos y la NSA: exageración, prueba y riesgo real

La historia de que Claude Mythos 'hackeó a la NSA' resultó ser muy exagerada: fue una prueba controlada de red-team, no un ataque real. Pero para las empresas es una señal seria: la integración de IA y la protección de la infraestructura interna deben diseñarse juntas, no por separado.

Contexto técnico

Fui a las fuentes originales porque la frase 'pirateó la NSA en horas' suena demasiado sensacionalista incluso para los estándares de 2026. Y sí, rápidamente queda claro lo principal: lo confirmado no fue un hackeo autónomo real, sino una prueba controlada de red-team en condiciones específicas.

El senador Mark Warner relató las palabras del general Joshua Rudd como si el modelo hubiera accedido a casi todos los sistemas clasificados en horas. Pero después se aclaró la historia: no fue un incidente real en infraestructura en vivo, sino una revisión interna, y la afirmación viral original fue retirada públicamente por exagerada.

Aquí es donde me interesó no solo como lector, sino como ingeniero de arquitectura de soluciones de IA. Incluso si eliminamos el bombo, el hecho sigue siendo grave: un modelo de primer nivel junto con herramientas de seguridad puede encontrar debilidades muy rápidamente, especialmente si el entorno es simplificado, la monitorización es débil y el escenario de prueba proporciona un contexto conveniente.

Anthropic, según comentarios disponibles, describe el episodio de manera mucho más acotada: el modelo analizó código, eludió restricciones y encontró principalmente defectos conocidos o no demasiado críticos. Además, verificaciones independientes mostraron que contra sistemas bien defendidos de ese nivel, ese resultado no está demostrado. Así que yo no repetiría 'el LLM rompió la NSA'. Pero 'el LLM acelera radicalmente la seguridad ofensiva en un entorno de pruebas' ya es una formulación honesta.

Y esto, por cierto, impacta directamente en la automatización con IA. Si una empresa hoy construye agentes internos de IA con acceso a repositorios, tickets, CI/CD, secretos y paneles de administración, está creando un campo de pruebas ideal para un movimiento lateral muy rápido si la arquitectura se armó apresuradamente.

Impacto en negocio y automatización

Veo tres conclusiones prácticas aquí. Primera: no se puede hacer integración de inteligencia artificial sin repensar en paralelo IAM, segmentación y registro. De lo contrario, un agente útil mañana se convertirá en el mejor pentester interno, solo que sin programación.

Segunda: aumentará el costo de los errores en la combinación 'modelo más herramientas'. El acceso a shell, código, navegador y APIs internas ahora debe otorgarse como un privilegio de alto riesgo, no como una casilla conveniente para una demo.

Tercera: ganarán quienes diseñen guardrails a nivel de arquitectura de IA, en lugar de añadirlos después del piloto. Justamente esto es lo que en Nahornyi AI Lab solemos resolver para los clientes: dónde se necesita un agente y dónde se requiere un sandbox estricto y un segmento separado.

Si ya está madurando la automatización con IA para procesos internos, yo ahora no discutiría sobre el bombo de Mythos, sino que miraría sus derechos de acceso, secretos y registros. Si lo desea, podemos revisar juntos su entorno y diseñar un esquema donde la automatización con IA acelere el trabajo en lugar de abrir una puerta lateral a su negocio. En Nahornyi AI Lab ayudo precisamente a convertir esas ideas en un sistema funcional y seguro.

Anteriormente cubrimos Augustus, un escáner para red-teaming automatizado de modelos de lenguaje que detecta vulnerabilidades a jailbreaks e inyecciones de prompts. Estas herramientas se vuelven críticamente importantes cuando surgen informes sobre cómo Claude penetró los sistemas de la NSA en cuestión de horas.

Compartir este articulo