La empresa de inteligencia artificial Anthropic confirmó la creación de un modelo experimental, Claude Mythos, que demostró una habilidad excepcional para identificar vulnerabilidades críticas. Debido a los riesgos potenciales, la compañía limitará su uso a un entorno controlado.
La compañía de inteligencia artificial Anthropic generó un amplio debate en la industria tecnológica tras confirmar el desarrollo de un modelo experimental de IA, denominado Claude Mythos, cuyas capacidades exceden los límites habituales de los sistemas generativos. Según informó la empresa, el modelo demostró una habilidad excepcional para detectar, explotar y encadenar vulnerabilidades informáticas de alta gravedad, incluso en sistemas ampliamente auditados.
Durante pruebas internas, Mythos logró identificar fallas críticas que habían pasado inadvertidas durante décadas, pese a haber sido analizadas por expertos y herramientas automatizadas. En un comunicado, Anthropic reconoció que, en manos equivocadas, el sistema podría facilitar ciberataques contra infraestructuras críticas, con consecuencias potencialmente graves. En ese contexto, la empresa decidió no liberar el modelo al público y limitar su uso a un entorno altamente controlado.
De acuerdo con la información proporcionada, durante las evaluaciones de seguridad Claude Mythos “encontró miles de vulnerabilidades de alta gravedad, incluidas algunas en todos los principales sistemas operativos y navegadores web”. La compañía aclaró que varias de esas fallas habían sobrevivido “a millones de revisiones automatizadas” sin ser detectadas.
Entre los hallazgos reportados, el modelo identificó una vulnerabilidad de 27 años en el sistema OpenBSD, históricamente reconocido por su foco en seguridad. Anthropic explicó que el modelo no solo encuentra fallas aisladas, sino que puede combinar vulnerabilidades individuales para ejecutar ataques complejos sin intervención humana.
En una entrada oficial, la empresa señaló: “Los modelos de IA han alcanzado un nivel de capacidad de codificación en el que pueden superar a todos, excepto a los humanos más habilidosos, a la hora de encontrar y explotar vulnerabilidades de software”. Y agregó: “Las repercusiones -para las economías, la seguridad pública y la seguridad nacional- podrían ser graves”.
Frente a ese escenario, Anthropic describió a Mythos como “un cambio radical en capacidades” respecto de versiones anteriores y admitió que liberar el modelo sin salvaguardas implicaría un riesgo inaceptable. Debido a estos riesgos, la compañía resolvió que Claude Mythos no esté disponible para el público general.
En su lugar, será utilizado de manera restringida por más de 40 empresas en el marco del Proyecto Glasswing, una iniciativa orientada a reforzar defensas antes de que modelos similares se masifiquen. Entre las compañías seleccionadas figuran Amazon, Google, Apple, Nvidia, CrowdStrike y JPMorgan Chase, entre otras. El objetivo es que estas organizaciones utilicen Mythos para detectar fallos en sus propios sistemas.
Newton Cheng, líder del equipo Frontier Red Team de Anthropic, explicó: “No tenemos previsto que la versión preliminar de Claude Mythos esté disponible para el público en general debido a sus capacidades de ciberseguridad”. No obstante, la empresa aclaró que busca “aprender cómo podría implementar modelos de la clase Mythos a gran escala” una vez que existan marcos de seguridad adecuados.
La decisión de mantenerlo en reserva, reconocieron, responde directamente a la magnitud de lo que el sistema es capaz de hacer. Anthropic volvió a definir al modelo como “un salto cualitativo en estas habilidades cibernéticas”, subrayando que se trata de un nivel de autonomía y sofisticación que no había sido observado hasta ahora en modelos comerciales.
