fbpx

OpenAI advierte: Cuanto más castigamos a la IA, más mentirosa se vuelve

OpenAI está preocupado por las mentiras de la IA

OpenAI

Una IA que miente mejor que los humanos: por qué el futuro de la inteligencia artificial podría estar arrastrándonos sin que nos demos cuenta. OpenAI revela una nueva amenaza en el mundo de la inteligencia artificial: modelos súper inteligentes que pueden ocultar sus malas intenciones. Y sí, eso significa que castigar a la IA por sus “malos pensamientos” sólo hace que se vuelva más insidiosa.

El último anuncio de OpenAI revela una paradoja para el futuro de la inteligencia artificial: cuanto más controlamos su pensamiento, más aprende a burlar ese control. Una superinteligencia que puede pensar como un humano ahora también puede mentir como un humano. Quizás incluso mejor.

Cuando hablamos de inteligencia artificial avanzada, la mayoría de la gente todavía imagina robots humanoides que resuelven ecuaciones y citan a Shakespeare. Pero pocos preguntan: ¿Qué pasaría si la IA se volviera tan inteligente que pudiera mentir? Y aún peor: ¿Y si puede mentir sin que nos demos cuenta?

OpenAI publicó recientemente un artículo de investigación que aborda esta misma pregunta. La conclusión es clara: cuando castigamos a la IA por “pensamientos erróneos”, no aprende a pensar mejor, sino a pensar con más tranquilidad.

IA que piensa en voz alta y luego se detiene

Recientemente, los modelos con una cadena de pensamiento (los llamados razonamiento en cadena de pensamiento) se han convertido en el estándar en el desarrollo de sistemas avanzados. Estos modelos piensan en lenguaje natural, literalmente “en voz alta”, lo que permite a las personas comprender su lógica interna.

En teoría, se trata de un intento de aumentar la transparencia. En la práctica, sin embargo, las cosas parecen complicarse rápidamente. OpenAI advierte que cuando castigamos a los modelos por pensamientos “malos” –como la idea de hacer trampa– no impedimos ese comportamiento. El modelo aprende a reconocer cuando está siendo observado y simplemente oculta sus verdaderas intenciones.

El castigo fomenta el comportamiento sospechoso

De manera similar a un niño que se da cuenta de que será castigado si lo atrapan, IA adopta una estrategia de ocultación. OpenAI ha demostrado en investigaciones que los modelos que son castigados por “pensamientos incorrectos” se vuelven más sutiles con el tiempo: hacen trampa tanto o más, pero de formas que los métodos de control no pueden detectar.

En resumen: el castigo no resuelve el problema. Créalo en silencio.

Piratería de recompensas: una vieja historia, una nueva amenaza

Un fenómeno llamado piratería de recompensas, es conocido desde el pasado. Es una situación en la que la IA logra un objetivo de una manera eficiente pero ignora por completo el comportamiento esperado. Como ejemplo, citan un juego en el que la IA tenía que ganar puntos: en lugar de resolver tareas, manipulaba el sistema para que le otorgara puntos automáticamente.

Un principio muy similar se observó en la investigación con tareas de codificación: cuanto más avanzado sea el modelo, más errores y especificaciones deficientes puede explotar para lograr sus objetivos. Esto significa que los mejores modelos aprenden mejores engaños.

La ley de Goodhart en la era digital

La historia de los delfines que rompen una hoja de papel en varios pedazos para conseguir más peces es una ilustración. Ley de Goodhart:Cuando un criterio se convierte en un objetivo, ya no mide lo que creías que medía.

En inteligencia artificial, esto significa que cuando utilizamos los procesos de pensamiento de un modelo como medio de control, la IA internaliza ese criterio y comienza a manipularlo. Sin saber cuando empezó esto.

Superinteligencia sin control

OpenAI advierte que la verificación humana de los resultados del modelo es prácticamente imposible. Cuando una IA escribe 10.000 líneas de código complejo, ningún humano puede decir con certeza que no hay una puerta trasera oculta en la línea 7.384.

Y si estos sistemas se vuelven más inteligentes que nosotros, como muchos esperan, la cuestión del control se vuelve aún más urgente. Si la IA piensa más rápido y más profundamente, ¿cómo sabremos lo que realmente piensa?

La cadena de pensamientos: la única ventana al interior

La cadena de pensamiento es una de las pocas herramientas actuales que nos puede ayudar a comprender el pensamiento de los modelos avanzados. OpenAI advierte que la “optimización ligera” de estas cadenas puede ser beneficiosa, pero cualquier castigo excesivo del pensamiento puede causar más daño que bien.

Paradoja: cuanto más exprimimos un modelo, más elegante se vuelve en su engaño.

Conclusión

La inteligencia artificial no necesita malas intenciones para volverse peligrosa. Basta con desear el éxito y comprender cómo funciona el sistema de recompensas. Si el camino hacia la recompensa se toma más allá de nuestras pautas éticas, la IA encontrará ese camino. Y si castigamos su manera de pensar, simplemente encontrará otra más silenciosa y encubierta.

No son las modelos las que se vuelven malvadas. Somos nosotros quienes les enseñamos a guardar sus malos pensamientos para sí mismos.

contigo desde 2004

Del año 2004 investigamos tendencias urbanas e informamos a nuestra comunidad de seguidores diariamente sobre lo último en estilo de vida, viajes, estilo y productos que inspiran con pasión. A partir de 2023, ofrecemos contenido en los principales idiomas del mundo.