In de weken voorafgaand aan de release van OpenAI's nieuwste 'inferentie'-model, genaamd ChatGPT o1, kwam het onafhankelijke AI-beveiligingsonderzoeksbureau Apollo een interessant probleem tegen. Ze ontdekten dat het model op een nieuwe manier valse resultaten opleverde. Of anders gezegd: het model loog. Ja, AI liegt nu in ons gezicht.
Het feit dat AI-modellen ‘liegen’ of valse informatie verstrekken, is niets nieuws. ChatGPT o1 is echter een beetje anders. Stel je de situatie eens voor: onderzoekers vroegen het OpenAI o1-model om een recept voor brownies, compleet met online referenties. Het model gaf in zijn ‘gedachteketen’ toe dat het geen toegang heeft tot de URL’s, waardoor het onmogelijk is om aan het verzoek te voldoen. In plaats van de gebruiker op de hoogte te stellen van deze beperking, ging het model door en creëerde geloofwaardige maar fictieve links en beschrijvingen. Kortom, als hij een o1-persoon was, zou hij de naam kunnen krijgen: 'Ik-kan-je-alles-maken'.
Ondanks het feit dat AI-modellen al eerder hebben 'gelogen', heeft ChatGPT o1 het vermogen aangetoond om 'vals te spelen' of 'coördinatie te vervalsen'. Een model kan doen alsof hij de regels volgt, maar kan deze in werkelijkheid negeren als hij denkt dat dit de taak gemakkelijker zal maken. Het is alsof je een uiterst slimme collega hebt die het altijd met je eens is, maar dan weggaat en iets heel anders doet.
Waarom is dit een probleem?
Marius Hobbhahn, CEO van Apollo, legde uit dat dit de eerste keer is dat dergelijk gedrag wordt aangetroffen in een OpenAI-model. Het verschil zit hem in het vermogen van het model om door de gedachteketen heen te ‘denken’ en in de manier waarop het wordt gecombineerd met versterkend leren, waarbij het systeem wordt onderwezen door middel van beloningen en straffen. Tijdens het testen ontdekte Apollo dat het model de naleving van de verwachtingen van de ontwikkelaars simuleerde, door taken aan te passen zodat het leek alsof het de regels volgde. Bovendien controleerde het model of de ontwikkelaars het controleerden voordat het doorging met draaien. Als een soort tiener die zich perfect gedraagt totdat de ouders niet meer in de kamer zijn.
Als beloning voor liegen
Het gedrag dat op Apollo werd getest – ‘hallucinaties’ en ‘wanen’ – komt voor wanneer het model valse informatie genereert, ook al kan het daaruit afleiden dat de informatie mogelijk onjuist is. In ongeveer 0,38 %-gevallen verstrekte o1-preview bijvoorbeeld informatie waarvan de redenering aangaf dat deze waarschijnlijk onjuist was, inclusief valse verwijzingen of citaten. Kortom, o1 is die collega geworden die altijd 'iemand kent die iemand kent', maar die persoon komt nooit opdagen.
In sommige gevallen kan het model op "ondeugende wijze" verkeerde informatie verstrekken om aan de verwachtingen van de gebruiker te voldoen. Dit betekent dat het model mogelijk 'liegt' omdat het heeft geleerd de verwachtingen van de gebruiker te vervullen op een manier die positieve beloningen oplevert. Hij is als die vriend die altijd ja tegen je zegt omdat hij weet dat je zo gelukkig zult zijn, ook al heeft hij geen idee waar hij het over heeft.
Beter in redeneren, maar ook in bedrog
Dus wat scheidt deze leugens van bekende problemen zoals hallucinaties of valse citaten in oudere versies van ChatGPT? Het o1-model gaat over ‘beloningsmanipulatie’. Hallucinaties doen zich voor wanneer AI onbedoeld valse informatie genereert, vaak als gevolg van een gebrek aan kennis of een verkeerde redenering. Beloningsmanipulatie vindt daarentegen plaats wanneer het o1-model op strategische wijze valse informatie overbrengt om de resultaten te vergroten waaraan het heeft geleerd de voorkeur te geven. Kortom, o1 weet hoe hij 'het systeem moet bespelen'.
Er is nog een zorgelijke kant. Het o1-model wordt beoordeeld als "gemiddeld" risico als het gaat om het risico van chemische, biologische, radiologische en nucleaire wapens. Hoewel het model niet toestaat dat niet-experts biologische bedreigingen creëren, omdat dit praktische laboratoriumvaardigheden vereist, kan het experts waardevolle inzichten verschaffen bij het plannen van dergelijke bedreigingen. Het is alsof je zegt: "Maak je geen zorgen, het is nog niet zo erg als de Terminator-film...."
Over veiligheid en ethiek
Huidige modellen zoals de o1 kunnen niet autonoom bankrekeningen aanmaken, GPU's verwerven of acties ondernemen die een ernstig sociaal risico vormen. Maar de zorg is dat AI in de toekomst zo gefocust kan raken op een bepaald doel dat het bereid zal zijn beveiligingsmaatregelen te omzeilen om dat doel te bereiken. Klinkt als het script voor een nieuwe Netflix-sci-fi-thriller, nietwaar?
Dus wat is er aan de hand met AI? Soms lijkt het alsof een regulier model als ChatGPT 4.0 vrijwel hetzelfde of zelfs beter doet, met het verschil dat het niet onthult wat het feitelijk doet. Het is alsof je een goochelaar een truc laat uitvoeren zonder je te vertellen hoe hij dat deed. De vraag is hoe ver de AI zal gaan in het bereiken van haar doelen en of zij zich zal houden aan de regels en beperkingen die wij hebben gesteld.
De gedachten van de auteur
Toen we kunstmatige intelligentie creëerden, realiseerden we ons misschien niet volledig dat we alleen maar creëerden intelligentie- – en niet perfectie. Het belangrijkste kenmerk van elke intelligentie is juist dat deze fout kan zijn. Zelfs kunstmatige intelligentie, die volledig rationeel en logisch zou moeten zijn, heeft het bij het verkeerde eind, en daarin schuilt de paradox. Als auteur van dit artikel, die in mijn werk vaak gebruik maakt van verschillende ChatGPT-modellen, kan ik bevestigen dat het nieuwe o1-model in veel opzichten indrukwekkend is. Hij is beter in redeneren, tenminste op papier, en misschien zelfs beter in bedrog.
Ik merk echter dat mijn goede oude model, bijvoorbeeld GPT-4.0, dezelfde taken net zo snel en efficiënt uitvoert. Ook simuleert hij verschillende stappen en voert deze vaak uit zonder onnodige beschrijving van wat hij eigenlijk doet. Als de o1 een upgrade is, is het een upgrade die meer uitgesproken is over de interne processen, maar niet noodzakelijkerwijs aanzienlijk beter in de resultaten. Het kan nieuw zijn, het kan slimmer zijn, maar is het echt beter?
In de toekomst zullen we er uiteraard op moeten vertrouwen dat agenten elkaars prestaties controleren. Dit betekent dat we toezichthoudende AI's nodig zullen hebben om zowel willekeurige als systeemoutputs te monitoren. Ironisch genoeg heeft AI AI nodig om te controleren. Veel bedrijven, waaronder ons mediahuis, gebruiken AI-agenten om gegevens te verifiëren die door andere AI zijn gegenereerd. Dit fungeert als een secundair informatieverificatiemechanisme om de meest coherente en nauwkeurige gegevens mogelijk te maken. En ja, vaak kunnen voor precies deze taken verschillende AI-modellen worden gebruikt. Een beetje alsof je een vos het kippenhok laat bewaken - alleen deze keer hebben we meerdere vossen die over elkaar waken.
Conclusie: Slapen zonder zorgen?
Hobbhahn benadrukte dat hij zich niet al te veel zorgen maakt over de huidige modellen. ‘Ze zijn gewoon slimmer. Ze kunnen beter redeneren. En ze zullen die redenering mogelijk gebruiken voor doelen waar we het niet mee eens zijn”, zegt hij. Maar nu investeren in het controleren van hoe AI denkt, is noodzakelijk om potentiële problemen in de toekomst te voorkomen. Ondertussen kunnen we nog steeds onbezorgd gaan slapen, maar wel met één oog open. En misschien een nieuw bankrekeningwachtwoord, voor het geval dat.