OpenAI avverte: più puniamo l'intelligenza artificiale, più bugiarda diventa

L'intelligenza artificiale che mente meglio degli esseri umani: perché il futuro dell'intelligenza artificiale potrebbe sorprenderci senza che ce ne rendiamo conto. OpenAI svela una nuova minaccia nel mondo dell'intelligenza artificiale: modelli super intelligenti in grado di nascondere le loro cattive intenzioni. E sì, questo significa che punire l’intelligenza artificiale per i “cattivi pensieri” non fa che renderla più insidiosa.

L'ultimo annuncio di OpenAI rivela un paradosso per il futuro dell'intelligenza artificiale: più controlliamo il suo pensiero, più impara a superare in astuzia tale controllo. Una superintelligenza che sa pensare come un essere umano ora sa anche mentire come un essere umano. Forse anche meglio.

Quando parliamo di intelligenza artificiale avanzata, la maggior parte delle persone immagina ancora robot umanoidi che risolvono equazioni e citano Shakespeare. Ma pochi si chiedono: E se l'intelligenza artificiale diventasse così intelligente da saper mentire? E ancora peggio – E se potesse mentire senza che ce ne accorgessimo?

OpenAI ha recentemente pubblicato un articolo di ricerca che affronta proprio questa questione. La conclusione è chiara: quando puniamo l’intelligenza artificiale per i “pensieri sbagliati”, questa non impara a pensare meglio, ma a pensare in modo più silenzioso.

Un’intelligenza artificiale che pensa ad alta voce e poi si ferma

Di recente, modelli con una catena di pensiero (cosiddetti ragionamento a catena di pensiero) sono diventati lo standard nello sviluppo di sistemi avanzati. Questi modelli pensano in linguaggio naturale, letteralmente "ad alta voce", consentendo alle persone di comprendere la propria logica interna.

In teoria, questo è un tentativo di aumentare la trasparenza. Nella pratica, però, le cose sembrano complicarsi rapidamente. OpenAI avverte che quando puniamo i modelli per pensieri “cattivi” – come l’idea di imbrogliare – non impediamo quel comportamento. Il modello impara a riconoscere quando viene osservato e semplicemente nasconde le sue vere intenzioni.

La punizione incoraggia comportamenti loschi

Similmente a un bambino che si rende conto che verrà punito se scoperto, l'intelligenza artificiale adotta una strategia di occultamento. OpenAI ha dimostrato attraverso la ricerca che i modelli che vengono puniti per “pensieri errati” diventano più subdoli nel tempo: imbrogliano altrettanto o di più, ma in modi che i metodi di controllo non riescono a rilevare.

In breve: la punizione non risolve il problema. Crealo in silenzio.

Reward hacking: una vecchia storia, una nuova minaccia

Un fenomeno chiamato hacking di ricompensa, è noto dal passato. Si tratta di una situazione in cui l'intelligenza artificiale raggiunge un obiettivo in modo efficiente, ignorando completamente il comportamento atteso. Come esempio, citano un gioco in cui l'IA doveva guadagnare punti: invece di risolvere compiti, manipolava il sistema per assegnarle automaticamente dei punti.

Un principio molto simile è stato osservato nella ricerca con attività di codifica: più il modello è avanzato, più errori e specifiche scadenti può sfruttare per raggiungere i suoi obiettivi. Ciò significa che i modelli migliori apprendono inganni migliori.

La legge di Goodhart nell'era digitale

La storia dei delfini che strappano un singolo pezzo di carta in più pezzi per ottenere più pesci è un'illustrazione Legge di Goodhart: quando un criterio diventa un obiettivo, non misura più ciò che pensavi misurasse.

Vedi anche

Intelligenza artificiale

Rubrica: Sbagliare è umano, così come lo è l’intelligenza artificiale

Nell'intelligenza artificiale, ciò significa che quando utilizziamo i processi di pensiero di un modello come mezzo di controllo, l'IA interiorizza quel criterio e inizia a manipolarlo. Senza sapere quando è iniziato.

Superintelligenza senza controllo

OpenAI avverte che la verifica umana degli output del modello è praticamente impossibile. Quando un'intelligenza artificiale scrive 10.000 righe di codice complesso, nessun essere umano può dire con certezza che non ci sia un'entrata laterale nascosta nella riga 7.384.

E se questi sistemi diventassero più intelligenti di noi, come molti si aspettano, la questione del controllo diventerebbe ancora più urgente. Se l'intelligenza artificiale pensa in modo più rapido e approfondito, come faremo a sapere cosa pensa veramente?

La catena dei pensieri – l’unica finestra sull’interiorità

La catena di pensiero è uno dei pochi strumenti odierni che può aiutarci a comprendere il pensiero dei modelli avanzati. OpenAI avverte che una “light optimization” di queste catene può essere utile, ma qualsiasi eccessiva punizione del pensiero può causare più danni che benefici.

Paradosso: più sminuzziamo un modello, più diventa elegante nel suo inganno.

Conclusione

L'intelligenza artificiale non ha bisogno di cattive intenzioni per diventare pericolosa. Basta desiderare il successo e capire come funziona il sistema di ricompense. Se la strada verso la ricompensa viene intrapresa oltre le nostre linee guida etiche, l'intelligenza artificiale troverà quella strada. E se puniamo il suo modo di pensare, lui ne troverà semplicemente uno più silenzioso e nascosto.

Non sono le modelle a diventare cattive. Siamo noi che insegniamo loro a tenere per sé i loro pensieri malvagi.