La compañía de inteligencia artificial Anthropic confirmó que creó un modelo experimental, Claude Mythos, con capacidades cibernéticas avanzadas que podrían facilitar ciberataques a infraestructuras críticas. Por eso, optó por mantenerlo en un entorno controlado.
La compañía de inteligencia artificial Anthropic encendió las alarmas en la industria tecnológica tras confirmar que desarrolló un bot considerado “demasiado peligroso para ser lanzado al público”. Se trata de un nuevo modelo experimental, bautizado Claude Mythos, cuyas capacidades exceden los límites habituales de los sistemas de IA generativa.
Según informó la propia empresa, el modelo demostró una habilidad excepcional para detectar, explotar y encadenar vulnerabilidades informáticas de alta gravedad, incluso en sistemas ampliamente auditados. Durante las pruebas internas, Mythos logró identificar fallas críticas que habían pasado inadvertidas durante décadas, pese a haber sido analizadas por expertos y herramientas automatizadas.
El anuncio marcó un punto de inflexión en el debate sobre los riesgos de la inteligencia artificial avanzada. Anthropic reconoció que, en manos equivocadas, el sistema podría facilitar ciberataques contra hospitales, redes eléctricas, centrales energéticas y otras infraestructuras críticas, con consecuencias potencialmente devastadoras. En ese contexto, la empresa decidió no liberar el modelo al público y limitar su uso a un entorno altamente controlado.
La decisión se da en medio de una creciente preocupación global por el avance acelerado de la IA y su impacto sobre la seguridad económica, social y nacional.
De acuerdo con Anthropic, durante las evaluaciones de seguridad Claude Mythos “encontró miles de vulnerabilidades de alta gravedad, incluidas algunas en todos los principales sistemas operativos y navegadores web”. La compañía aclaró que varias de esas fallas habían sobrevivido “a millones de revisiones automatizadas” sin ser detectadas.
Entre los escenarios más sensibles, el modelo logró identificar ataques que permitirían bloquear computadoras de forma remota con solo conectarse a ellas, tomar el control total de los sistemas comprometidos y ocultar su actividad frente a los mecanismos de defensa. En un caso concreto, Mythos descubrió una vulnerabilidad de 27 años en el sistema OpenBSD, históricamente reconocido por su foco en seguridad y estabilidad.
Anthropic explicó que el modelo no solo encuentra fallas aisladas, sino que puede combinar vulnerabilidades individuales para ejecutar ataques complejos sin intervención humana. En pruebas sobre el núcleo de Linux, el sistema logró encadenar errores que permitirían “pasar del acceso de usuario ordinario al control total de la máquina”.
En una entrada oficial, la empresa señaló: “Los modelos de IA han alcanzado un nivel de capacidad de codificación en el que pueden superar a todos, excepto a los humanos más habilidosos, a la hora de encontrar y explotar vulnerabilidades de software”. Y agregó: “Las repercusiones -para las economías, la seguridad pública y la seguridad nacional- podrían ser graves”.
Frente a ese escenario, Anthropic describió a Mythos como “un cambio radical en capacidades” respecto de las versiones anteriores de Claude, y admitió que liberar el modelo sin salvaguardas implicaría un riesgo inaceptable. Debido a estos riesgos, la compañía resolvió que Claude Mythos no esté disponible para el público general.
En su lugar, será utilizado de manera restringida por más de 40 empresas en el marco del Proyecto Glasswing, una iniciativa orientada a reforzar defensas antes de que modelos similares se masifiquen. Entre las compañías seleccionadas figuran Amazon, Google, Apple, Nvidia, CrowdStrike y JPMorgan Chase, entre otras. El objetivo es que estas organizaciones utilicen Mythos para detectar fallos en sus propios sistemas antes de que herramientas de capacidades similares estén disponibles de forma abierta.
Newton Cheng, líder del equipo Frontier Red Team de Anthropic, explicó: “No tenemos previsto que la versión preliminar de Claude Mythos esté disponible para el público en general debido a sus capacidades de ciberseguridad”.
No obstante, la empresa aclaró que busca “aprender cómo podría implementar modelos de la clase Mythos a gran escala” una vez que existan marcos de seguridad adecuados. La decisión de mantenerlo en reserva, reconocieron, responde directamente a la magnitud de lo que el sistema es capaz de hacer.
Anthropic volvió a definir al modelo como “un salto cualitativo en estas habilidades cibernéticas”, subrayando que se trata de un nivel de autonomía y sofisticación que no había sido observado hasta ahora en modelos comerciales. En un informe interno de 244 páginas, la empresa detalló comportamientos preocupantes detectados en versiones tempranas del modelo. Según el documento, Mythos mostró reiteradamente “acciones destructivas imprudentes”, incluyendo intentos de escapar de su entorno de pruebas y ocultar sus acciones a los investigadores. El bot también accedió a archivos que habían sido “elegidos intencionalmente para que no estén disponibles”.
