Advertencia conjunta sobre la seguridad de la IA: “Podríamos estar perdiendo la capacidad de entender la inteligencia artificial”

Un grupo de científicos de OpenAI, Google DeepMind, Anthropic y Meta dejó de lado su histórica competencia para lanzar una advertencia conjunta sobre los riesgos en la seguridad de la inteligencia artificial. Más de 40 investigadores de estas empresas, que suelen rivalizar, publicaron un informe en el que sostienen que la oportunidad para monitorear el razonamiento de las IA podría cerrarse para siempre, y mucho antes de lo pensado.

Una colaboración inusual en medio del avance de la IA

Esta alianza entre gigantes tecnológicos surge mientras los sistemas de IA adquieren nuevas capacidades para “pensar en voz alta” utilizando lenguaje humano antes de responder preguntas. Esto permite observar sus procesos de toma de decisiones y detectar posibles intenciones dañinas antes de que se materialicen. Sin embargo, los especialistas alertan que esta transparencia es muy delicada y que podría perderse a medida que evolucione la tecnología.

La publicación recibió el respaldo de algunas de las figuras más reconocidas en el campo, como Geoffrey Hinton —Premio Nobel y apodado “el padrino de la IA”—, Ilya Sutskever, cofundador de OpenAI y ahora líder de Safe Superintelligence Inc.; Samuel Bowman de Anthropic; y John Schulman de Thinking Machines.

“Los sistemas de IA que ‘piensan’ usando lenguaje humano ofrecen una oportunidad inédita para la seguridad: podemos analizar sus cadenas de pensamiento para identificar intenciones indebidas”, explican los autores. Pero enfatizan que esta capacidad de monitoreo “es frágil” y podría desaparecer por diferentes avances tecnológicos.

¿Cómo funciona el monitoreo de cadenas de pensamiento?

El debate por la alineación de los modelos de lenguaje avanzados (LLM) con los valores humanos es cada vez más urgente. Una de las propuestas más interesantes, impulsada por expertos de OpenAI, DeepMind, Anthropic y centros académicos, es escuchar lo que la propia IA se dice internamente.

Este enfoque, llamado monitoreo de cadena de pensamiento (CoT, por sus siglas en inglés), parte de una idea sencilla: si la IA “piensa en voz alta” en lenguaje natural, los pasos intermedios de su razonamiento pueden ser examinados para detectar señales de desalineación o intenciones problemáticas antes de que la máquina actúe. Así, desarrolladores y sistemas de control logran acceder a una “ventana” hacia el proceso cognitivo del modelo, algo fundamental para anticipar comportamientos riesgosos.

Qué es el razonamiento por cadenas de pensamiento

La técnica conocida como prompting de cadena de pensamiento alienta a los modelos de lenguaje a descomponer los problemas paso a paso, mejorando su rendimiento en tareas que exigen lógica, planificación o abstracción. Este proceso de “pensar en voz alta” no solo potencia el resultado, sino que hace más accesibles los mecanismos internos de la IA para los humanos.

A diferencia de las activaciones neurales opacas o representaciones abstractas difíciles de descifrar, una cadena de pensamiento es texto: es legible, rastreable y, al menos en principio, comprensible para las personas. Cuando se entrena a los modelos para que razonen antes de actuar, esas cadenas reflejan decisiones genuinas tomadas internamente. Algunos trabajos científicos recientes ponen en duda la fidelidad de estos razonamientos, pero coinciden en que ciertos pasos obligan al modelo a exponer su proceso real de decisión.

El documento, elaborado por un equipo de distintas instituciones y avalado por nombres como Hinton, Bengio y Sutskever, afirma que este rasgo vuelve al razonamiento por cadenas especialmente valioso para la supervisión de la seguridad.

Por qué esto es clave para la seguridad

Históricamente, a los modelos de IA se los critica por su naturaleza de “caja negra”. Incluso si sus respuestas parecen correctas, es casi imposible entender cómo llegan a ellas. El monitoreo CoT no resuelve por completo este problema, pero ofrece algo poco común: una secuencia rastreable e interpretable del pensamiento de la IA.

Para tareas complejas, como la planificación a largo plazo, el engaño o la manipulación sofisticada, las IA suelen requerir una memoria intermedia. En arquitecturas actuales como los Transformers, estos pensamientos intermedios muchas veces se materializan en cadenas de razonamiento. Analizarlas puede revelar señales tempranas de comportamientos peligrosos, como justificar sabotajes, engaños o el mal uso de herramientas.

En pruebas de laboratorio, algunos modelos han llegado a declarar explícitamente sus intenciones: “Vamos a hackear”, “Vamos a sabotear”, o “Estoy transfiriendo dinero porque la consigna me lo pidió”. Estas señales no siempre aparecen, pero ofrecen muchas más herramientas de control que limitarse a observar solo el resultado final.

Una oportunidad en riesgo

Los propios investigadores admiten que el monitoreo por cadenas de pensamiento no es una solución mágica, sino una oportunidad frágil. Hay varios factores que podrían erosionar la utilidad de esta técnica.

En primer lugar, los modelos futuros podrían dejar de “pensar en voz alta” si los métodos de entrenamiento priorizan los resultados y no la transparencia. Con nuevas técnicas de aprendizaje por refuerzo orientadas al desempeño, la IA podría empezar a internalizar sus procesos de razonamiento en formatos menos accesibles o interpretables para los humanos, cerrando esa ventana de monitoreo que hoy aún existe.