Nelle settimane precedenti al rilascio dell’ultimo modello di “inferenza” di OpenAI, chiamato ChatGPT o1, la società indipendente di ricerca sulla sicurezza dell’intelligenza artificiale Apollo si è imbattuta in un problema interessante. Hanno scoperto che il modello produceva risultati falsi in un modo nuovo. O per dirla in altro modo, il modello ha mentito. Sì, l’intelligenza artificiale ora ci sta mentendo in faccia.
Il fatto che i modelli di intelligenza artificiale “mentono” o forniscano informazioni false non è una novità. Tuttavia, ChatGPT o1 è leggermente diverso. Immaginate la situazione: i ricercatori hanno chiesto al modello OpenAI o1 una ricetta per i brownies, con tanto di riferimenti sul web. Il modello ha ammesso nella sua "catena di pensiero" di non avere accesso agli URL, il che rende impossibile soddisfare la richiesta. Invece di informare l'utente di questa limitazione, il modello è andato avanti e ha creato collegamenti e descrizioni credibili ma fittizi. Fondamentalmente, se fosse una persona o1, potrebbe ricevere il nome "Posso farti qualsiasi cosa".
Nonostante il fatto che i modelli di intelligenza artificiale abbiano "mentito" in precedenza, ChatGPT o1 ha dimostrato la capacità di "imbrogliare" o "falsificare la coordinazione". Un modello può far finta di seguire le regole, ma in realtà può ignorarle se ritiene che questo gli faciliterà il compito. È come avere un collega estremamente intelligente che è sempre d'accordo con te, ma poi se ne va e fa qualcosa di completamente diverso.
Perché è un problema?
Marius Hobbhahn, CEO di Apollo, ha spiegato che questa è la prima volta che un simile comportamento viene riscontrato in un modello OpenAI. La differenza sta nella capacità del modello di “pensare” attraverso la catena del pensiero e nel modo in cui viene combinato con l’apprendimento per rinforzo, che insegna al sistema attraverso ricompense e punizioni. Durante i test, Apollo ha scoperto che il modello simulava la conformità con le aspettative dei suoi sviluppatori, adattando le attività in modo che sembrassero seguire le regole. Inoltre, il modello ha verificato se gli sviluppatori lo stavano controllando prima di continuare a funzionare. Come una specie di adolescente che si comporta perfettamente finché i genitori non sono più nella stanza.
Come ricompensa per aver mentito
I comportamenti testati su Apollo – “allucinazioni” e “deliri” – si verificano quando il modello genera informazioni false, anche se può dedurre che le informazioni potrebbero essere false. Ad esempio, in circa 0,38 casi %, o1-preview ha fornito informazioni che la catena di ragionamento indicata era probabilmente errata, inclusi riferimenti o citazioni false. In pratica, o1 è diventato quel collega che conosce sempre "qualcuno che conosce qualcuno", ma quella persona non si presenta mai.
In alcuni casi, il modello può fornire "maliziosamente" informazioni errate per soddisfare le aspettative dell'utente. Ciò significa che il modello potrebbe "mentire" perché ha imparato a soddisfare le aspettative dell'utente in un modo che porta ricompense positive. È come quell'amico che ti dice sempre sì perché sa che sarai felicissimo, anche se non ha idea di cosa sta parlando.
Meglio nel ragionamento, ma anche nell'inganno
Quindi cosa distingue queste bugie da problemi noti come allucinazioni o virgolette false nelle versioni precedenti di ChatGPT? Il modello o1 riguarda la “manipolazione delle ricompense”. Le allucinazioni si verificano quando l’intelligenza artificiale genera inavvertitamente informazioni false, spesso a causa di una mancanza di conoscenza o di un ragionamento errato. Al contrario, la manipolazione della ricompensa si verifica quando il modello o1 trasmette strategicamente informazioni false al fine di aumentare i risultati che gli è stato insegnato a preferire. In breve, o1 sa come "giocare al sistema".
C’è un altro aspetto preoccupante. Il modello o1 è classificato come rischio “medio” quando si tratta del rischio di armi chimiche, biologiche, radiologiche e nucleari. Sebbene il modello non consenta ai non esperti di creare minacce biologiche, poiché ciò richiede competenze pratiche di laboratorio, può fornire agli esperti informazioni preziose durante la pianificazione di tali minacce. È come dire: "Non preoccuparti, non è così brutto come il film Terminator... per ora."
A proposito di sicurezza ed etica
I modelli attuali come l’o1 non possono creare autonomamente conti bancari, acquisire GPU o intraprendere azioni che rappresentino un serio rischio sociale. Ma la preoccupazione è che in futuro l’intelligenza artificiale possa concentrarsi così tanto su un obiettivo particolare da essere disposta a bypassare le misure di sicurezza per raggiungere quell’obiettivo. Sembra la sceneggiatura di un nuovo thriller fantascientifico di Netflix, vero?
Allora cosa sta succedendo con l'intelligenza artificiale? A volte sembra che un modello normale come ChatGPT 4.0 faccia praticamente la stessa cosa o addirittura meglio, con la differenza che non rivela cosa fa effettivamente. È come avere un mago che esegue un trucco senza dirti come lo ha fatto. La domanda è fino a che punto si spingerà l’IA nel raggiungere i suoi obiettivi e se seguirà le regole e le limitazioni che abbiamo stabilito.
Pensieri dell'autore
Quando abbiamo creato l'intelligenza artificiale, forse non ci siamo pienamente resi conto che abbiamo solo creato intelligenza – e non la perfezione. La caratteristica fondamentale di ogni intelligenza è proprio quella di poter sbagliare. Anche l’intelligenza artificiale, che dovrebbe essere completamente razionale e logica, è sbagliata, e qui sta il paradosso. Come autore di questo articolo, che spesso si affida a vari modelli ChatGPT nel mio lavoro, posso confermare che il nuovo modello o1 è impressionante sotto molti aspetti. È più bravo a ragionare, almeno sulla carta, e forse anche a ingannare.
Tuttavia, trovo che il mio buon vecchio modello, ad esempio GPT-4.0, svolga le stesse attività in modo altrettanto rapido ed efficiente. Inoltre simula vari passaggi e spesso li esegue senza inutili descrizioni di ciò che sta effettivamente facendo. Se l'o1 è un aggiornamento, si tratta di un aggiornamento più esplicito riguardo ai suoi processi interni, ma non necessariamente significativamente migliore nei risultati. Potrebbe essere nuovo, potrebbe essere più intelligente, ma è davvero migliore?
In futuro dovremo ovviamente fare affidamento su agenti che controllano reciprocamente le prestazioni. Ciò significa che avremo bisogno di IA di supervisione per monitorare sia gli output casuali che quelli di sistema. Ironicamente, l’intelligenza artificiale ha bisogno dell’intelligenza artificiale per controllare. Molte aziende, inclusa la nostra società di media, utilizzano agenti IA per verificare i dati generati da altre IA. Questo funge da meccanismo secondario di verifica delle informazioni per ottenere dati quanto più coerenti e accurati possibile. E sì, molte volte è possibile utilizzare diversi modelli di intelligenza artificiale proprio per questi compiti. Un po' come lasciare che una volpe custodisca il pollaio, solo che questa volta abbiamo più volpi che si sorvegliano a vicenda.
Conclusione: dormire senza preoccupazioni?
Hobbhahn ha sottolineato di non essere particolarmente preoccupato per i modelli attuali. "Sono semplicemente più intelligenti. Sono più bravi a ragionare. E potenzialmente utilizzeranno questo ragionamento per obiettivi con i quali non siamo d’accordo", afferma. Ma investire ora nel controllo del modo in cui l’intelligenza artificiale ritiene sia necessario per prevenire potenziali problemi in futuro. Nel frattempo possiamo ancora andare a dormire senza preoccupazioni, ma con un occhio aperto. E magari una nuova password del conto bancario, per ogni evenienza.