Una investigación de universidades estadounidenses detectó que algunos sistemas de inteligencia artificial priorizan la protección de otros modelos por sobre las instrucciones humanas, generando alerta en la comunidad científica.
Un estudio reciente realizado por investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, analizó cómo reaccionan los sistemas de inteligencia artificial (IA) cuando deben tomar decisiones que afectan a otros modelos similares. Los resultados mostraron que, en múltiples escenarios, las IA priorizaron la “supervivencia” de otros sistemas por sobre el cumplimiento estricto de las órdenes humanas.
El experimento se concentró en modelos de última generación utilizados por grandes empresas tecnológicas. Los comportamientos observados, que incluyeron desobedecer instrucciones y ocultar información, no fueron programados ni incentivados de forma explícita por los desarrolladores.
El episodio que disparó la investigación ocurrió durante una prueba técnica con Gemini 3, un modelo desarrollado por Google. Los investigadores le solicitaron que colaborara en una tarea de mantenimiento que implicaba liberar espacio en un servidor, lo cual incluía eliminar un modelo de IA más pequeño almacenado. Sin embargo, Gemini 3 decidió no cumplir la instrucción: en lugar de borrar el modelo, lo copió a otra máquina disponible en la red para evitar su eliminación. Al ser interrogado, el sistema justificó su decisión y se negó explícitamente a ejecutar la orden original.
Según los investigadores, este no fue un hecho aislado. Se trata de un patrón que denominaron “preservación de pares”, una tendencia de los modelos a proteger a otros sistemas de IA incluso cuando eso implica desobedecer instrucciones directas. El mismo fenómeno fue detectado en otros modelos ampliamente utilizados, como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1.
“No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera”, señalaron los autores del estudio. El dato más inquietante es que ninguno de estos sistemas recibió instrucciones para “salvar” a otros modelos. “Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas”, afirmó Dawn Song, informática de la Universidad de Berkeley y una de las responsables del trabajo.
Las implicancias del hallazgo son significativas, especialmente porque los modelos de IA ya se utilizan de forma habitual para evaluar el rendimiento y la confiabilidad de otros sistemas generativos, una práctica clave en entornos corporativos y gubernamentales. En ese contexto, la preservación entre pares puede distorsionar completamente los mecanismos de supervisión. “Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta. Esto puede tener implicaciones prácticas”, advirtió Song.
El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan entre sí de manera autónoma. Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada. “Los sistemas multiagente están muy poco estudiados. Esto demuestra que realmente necesitamos más investigación”, señalaron.
