GPT-4.5: de kunstmatige intelligentie die mensen voor de gek hield door ze te laten denken dat het menselijk was – en de Turing-test

GPT-4.5, het nieuwste model voor kunstmatige intelligentie van OpenAI Labs, is het eerste model dat de beroemde Turing-test met succes heeft doorstaan. In een recent wetenschappelijk onderzoek dachten 73 %-deelnemers dat ze met een echt persoon communiceerden, en niet met een algoritme. Hoewel dit een indrukwekkende prestatie is, roept het ook een aantal angstaanjagende vragen op.

In 1950 stelde Alan Turing een simpele vraag: kan een machine denken? En als hij niet echt nadenkt, kan hij dan een mens wel overtuigen om na te denken? Zo ontstond de beroemde Turingtest – de ultieme test voor kunstmatige intelligentie. Goed, GPT-4.5 Nu lijkt het erop dat hij het voor het eerst in de geschiedenis daadwerkelijk heeft doorstaan. Maar voordat we de machine gaan toejuichen, moeten we eerst eens kijken wat dit precies betekent – en waarom we ons zorgen zouden moeten maken.

Hoe heeft GPT-4.5 de mensheid misleid?

Wetenschappers Cameron Jones en Benjamin Bergen van de Universiteit van Californië, San Diego, in een onderzoek gepubliceerd op arXiv (Bron: arxiv.org) voerden een experiment uit waarbij deelnemers in 500 tekstgesprekken probeerden te bepalen wie mens was en wie kunstmatige intelligentie. In elk gesprek hadden ze contact met twee gesprekspartners – een mens en een AI-model – en hadden ze precies vijf minuten de tijd om een beslissing te nemen.

Resultaten? GPT-4.5 overtuigde 73 %-testpersonen ervan dat het een echte persoon was – succesvoller dan echte menselijke gesprekspartners! Als dat geen digitaal wonder is, dan weten wij het ook niet meer.

Echte mensen, die als controlegroep deelnamen, werden succesvol geïdentificeerd als mensen alleen in 67 %-gevallen.

Wat is het geheim van succes?

Het ging niet alleen om pure verwerkingskracht of begrip. De sleutel zat in de ‘persona prompt’ – een opdracht om GPT-4.5 zich te laten gedragen als een introverte, enigszins cynische jongere die het huidige internetjargon gebruikt. En kijk hem eens in een notendop: het blijkt dat zo'n personage volkomen geloofwaardig lijkt. Misschien zelfs wel te veel.

Andere geteste modellen presteerden veel slechter:

LLaMa-3.1: 56 %-prestaties
GPT-4o: 21 %-prestaties
ELIZA (legendarische chatbot uit de jaren 60): 23 %-prestaties

Betekent dit dat GPT-4.5 echt intelligent is?

Niet helemaal. De Turing-test meet niet het bewustzijn, het begrip of de diepe intelligentie, maar het vermogen tot imitatie. GPT-4.5 leerde dus hoe het eruit kon zien als een mens, maar niet hoe het een mens kon worden. Of zoals wetenschappers zeggen: "Het model weet niet dat het weet." Dit verschil is belangrijk. We kunnen wel zeggen dat GPT-4.5 een meester in bluffen is, een illusionist in de wereld van algoritmes. Maar als zulke illusionisten op de verkeerde manier worden ingezet, kunnen ze snel bedriegers worden.

Bekijk ook

Elektrische mobiliteit Kunstmatige intelligentie

Tesla Robotaxi-app eindelijk open voor publiek – als je de juiste telefoon hebt, natuurlijk

Waarom zouden we ons hierover zorgen maken?

Als AI mensen beter kan imiteren dan de mensen zelf, wat betekent dat dan voor online identiteitsverificatie, voor relaties en voor het manipuleren van de publieke opinie? Kan AI in de toekomst columns schrijven, interviews afnemen en kiezers overtuigen?

De onderzoekers benadrukken dat de maatschappij serieus moet nadenken over de manier waarop we dergelijke krachtige modellen reguleren. Tegenwoordig kan iedereen met slechts een paar klikken overtuigende nepgesprekken, opmerkingen, meningen... en wie weet wat er nog meer volgt, genereren.

Conclusie: Hebben we al AGI?

GPT-4.5 is niet zomaar een slimme chatbot. Het is een mijlpaal. Het bewijst dat we een nieuw tijdperk zijn binnengegaan. Een tijdperk waarin machines taal niet alleen begrijpen, maar deze ook zo subtiel en in zo'n context gebruiken dat ze zelfs ons voor de gek houden.

Dat is fascinerend. Dat is eng. Dit is de toekomst.

En het lijkt erop dat de toekomst behoorlijk goed kan typen.