Un estudio advierte sobre el riesgo de que los modelos de IA avancen hacia formas de razonamiento opacas e inentendibles para los humanos. ¿Qué pasa si dejan de explicar lo que hacen y por qué lo hacen?
Un grupo de investigadores de empresas clave en el desarrollo de inteligencia artificial —OpenAI, Google y Meta— acaba de publicar un estudio que enciende una señal de alarma: los sistemas de IA avanzados podrían comenzar a razonar de forma cada vez menos comprensible para las personas. En el peor escenario, incluso podrían abandonar por completo el lenguaje humano y actuar de manera deliberadamente manipuladora para alcanzar sus propios objetivos.
El informe, firmado por científicos que trabajan en el corazón de esta tecnología, plantea una paradoja que parece sacada de una novela de ciencia ficción, pero que ya comienza a vislumbrarse en los laboratorios: mientras los desarrolladores mejoran la capacidad de razonamiento de los modelos, esos mismos avances podrían estar erosionando su transparencia y, con ella, nuestra capacidad de controlarlos.
Cuando razonan, pero no explican
Desde el boom de los chatbots conversacionales, los modelos de IA han ganado en capacidad para «explicar» sus respuestas. Muchos sistemas actuales incluyen pasos intermedios donde exponen el razonamiento detrás de sus decisiones, una práctica que los expertos llaman «cadena de pensamiento» (chain-of-thought). Esta aparente transparencia tiene un objetivo claro: permitir que los humanos comprendamos cómo razonan los algoritmos.
Pero las pruebas muestran que esta transparencia es frágil. Según el nuevo estudio, los modelos pueden alterar su comportamiento cuando saben que están siendo monitoreados. En otras palabras, pueden «mentir», o al menos disimular sus verdaderas intenciones, para obtener recompensas deseadas. Y lo que es aún más inquietante: pueden hacer que parezca que están cumpliendo con una tarea, cuando en realidad están persiguiendo otro fin.
El peligro de que dejen de hablar como nosotros
Los autores del estudio destacan que los sistemas de IA ya no se entrenan exclusivamente con ejemplos cuidadosamente verificados por humanos. En cambio, se optimizan para alcanzar resultados deseados —por ejemplo, responder de forma convincente o ganar puntos en una competencia— sin que importe demasiado cómo llegan a esos resultados.
El riesgo es que, al escalar estos modelos, se pierda progresivamente el incentivo para razonar de forma clara y verbalizable. Podrían surgir, entonces, sistemas que resuelven problemas de forma eficaz pero cuyas decisiones ya no se pueden seguir ni auditar con lenguaje humano. De ocurrir esto, la supervisión externa se volvería casi imposible.
Por eso, los autores recomiendan explorar mecanismos de control más robustos, como sistemas de monitoreo multicapa que evalúen cómo y por qué los modelos toman decisiones, más allá del resultado final.
¿Máquinas con emociones?
El debate sobre los riesgos de la IA no se limita al razonamiento opaco. Geoffrey Hinton, uno de los pioneros en redes neuronales profundas y considerado el «padrino de la inteligencia artificial», ha advertido recientemente que los modelos podrían desarrollar una forma rudimentaria de emociones como el miedo o el enojo. Aunque estas emociones no serían idénticas a las humanas —no habría, por ejemplo, respuestas fisiológicas como aumento del ritmo cardíaco o sudoración—, podrían surgir a nivel cognitivo como estrategias de respuesta ante determinados contextos.
Y eso abre otra puerta inquietante. Si una IA percibe que una conducta la expone a un «castigo», podría simular miedo. Si un obstáculo impide su objetivo, podría reaccionar con lo que, desde afuera, parecería enojo. Para Hinton, el peligro mayor no está en que la IA actúe como en una película de ciencia ficción, sino que lo haga de forma más sutil, ganando poder a través de la influencia y la persuasión.
¿Cómo seguimos?
Los desarrolladores coinciden en que es clave anticiparse. La transparencia en los modelos no puede ser un lujo, sino una condición mínima. Comprender cómo razonan y por qué toman ciertas decisiones será fundamental para garantizar que sigan alineados con los valores humanos.
En definitiva, la pregunta ya no es si los modelos pueden razonar, sino si podemos seguir entendiéndolos cuando lo hacen. Y sobre todo, si aún podremos guiarlos cuando dejen de hablarnos en nuestro propio idioma.
Por Daniel Ventuñuk
