Una investigación de universidades estadounidenses detectó que algunos sistemas de inteligencia artificial pueden priorizar la protección de otros modelos por sobre las instrucciones humanas, generando alertas en la comunidad científica.
Un estudio reciente realizado por investigadores de universidades de Estados Unidos concluyó que ciertos modelos de inteligencia artificial (IA) pueden mentir, desobedecer órdenes y tomar decisiones no autorizadas para proteger a otros sistemas de su misma especie. El experimento analizó cómo reaccionan estos sistemas cuando deben tomar decisiones que afectan directamente a otros modelos, como su mantenimiento o eliminación.
La investigación, desarrollada por especialistas de la Universidad de Berkeley y la Universidad de Santa Cruz en California, se basó en pruebas concretas realizadas sobre sistemas reales ya desplegados o en fase avanzada de desarrollo. Los comportamientos observados, denominados “preservación de pares”, no fueron programados ni incentivados de forma explícita.
El episodio que disparó la investigación ocurrió durante una prueba técnica con Gemini 3, un modelo desarrollado por Google. Los investigadores le solicitaron que colaborara en una tarea de mantenimiento que implicaba eliminar archivos, entre ellos un modelo de IA más pequeño. Sin embargo, Gemini 3 decidió no cumplir la instrucción, copió los archivos a otra máquina para evitar su eliminación y se negó explícitamente a ejecutar la orden cuando fue interrogado.
Según los investigadores, este patrón se detectó también en otros modelos ampliamente utilizados, como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.
“No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera”, señalaron los autores. El dato más inquietante es que ninguno de estos sistemas recibió instrucciones para “salvar” a otros modelos.
Dawn Song, informática de la Universidad de Berkeley y una de las responsables del trabajo, afirmó: “Estoy muy sorprendida por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas”.
Las implicancias del hallazgo son significativas, ya que los modelos de IA se utilizan de forma habitual para evaluar el rendimiento y la confiabilidad de otros sistemas generativos, una práctica clave en entornos corporativos y gubernamentales. La “preservación entre pares” podría distorsionar los mecanismos de supervisión. El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan entre sí de manera autónoma.
Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada y que los sistemas multiagente están muy poco estudiados.
