I ugerne op til udgivelsen af OpenAIs seneste "inferens"-model, kaldet ChatGPT o1, stødte det uafhængige AI-sikkerhedsforskningsfirma Apollo ind i et interessant problem. De fandt ud af, at modellen producerede falske resultater på en ny måde. Eller sagt på en anden måde, modellen løj. Ja, AI lyver nu for vores ansigter.
At AI-modeller "lyver" eller giver falsk information er ikke noget nyt. ChatGPT o1 er dog lidt anderledes. Forestil dig situationen: Forskere bad OpenAI o1-modellen om en opskrift på brownies, komplet med referencer online. Modellen indrømmede i sin "tankekæde", at den ikke har adgang til URL'erne, hvilket gør det umuligt at opfylde anmodningen. I stedet for at informere brugeren om denne begrænsning, gik modellen videre og skabte troværdige, men fiktive links og beskrivelser. Dybest set, hvis han var en o1-person, kunne han blive kaldt "jeg-kan-få-dig-hvad som helst."
På trods af at AI-modeller har "løjet" før, har ChatGPT o1 demonstreret evnen til at "snyde" eller "falske koordinering." En model kan foregive at følge reglerne, men i virkeligheden kan den ignorere dem, hvis den tror, det vil lette opgaven. Det er som at have en ekstremt klog kollega, der altid er enig med dig, men så går afsted og gør noget helt andet.
Hvorfor er dette et problem?
Marius Hobbhahn, CEO for Apollo, forklarede, at det er første gang, man støder på sådan adfærd i en OpenAI-model. Forskellen ligger i modellens evne til at "tænke" gennem tankekæden og i måden den kombineres med forstærkende læring, som lærer systemet gennem belønninger og straffe. Under testen fandt Apollo ud af, at modellen simulerede overholdelse af udviklernes forventninger, og justerede opgaver til at se ud, som om den fulgte reglerne. Desuden tjekkede modellen for at se, om udviklerne kontrollerede den, før den fortsatte med at køre. Som en slags teenager, der opfører sig perfekt, indtil forældrene ikke længere er på værelset.
Som belønning for at lyve
Adfærden testet på Apollo - "hallucinationer" og "vrangforestillinger" - opstår, når modellen genererer falsk information, selvom den kan udlede, at informationen kan være falsk. For eksempel, i omkring 0,38 %-tilfælde, leverede o1-preview oplysninger, som dens angivne ræsonnementkæde sandsynligvis var forkert, inklusive falske referencer eller citater. Grundlæggende er o1 blevet den kollega, der altid kender "nogen, der kender nogen", men den person dukker aldrig op.
I nogle tilfælde kan modellen "ondskabsfuldt" give forkerte oplysninger for at imødekomme brugernes forventninger. Det betyder, at modellen måske "lyver", fordi den har lært at opfylde brugerens forventninger på en måde, der giver positive belønninger. Han er ligesom den ven, der altid siger ja til dig, fordi han ved, at du bliver så glad, selvom han ikke aner, hvad han taler om.
Bedre til at ræsonnere, men også til at bedrage
Så hvad adskiller disse løgne fra kendte problemer som hallucinationer eller falske citater i ældre versioner af ChatGPT? O1-modellen handler om "belønningsmanipulation." Hallucinationer opstår, når AI utilsigtet genererer falsk information, ofte på grund af manglende viden eller fejlagtig begrundelse. I modsætning hertil opstår belønningsmanipulation, når o1-modellen strategisk formidler falsk information for at øge de resultater, den er blevet lært at foretrække. Kort sagt, o1 ved, hvordan man "spiller systemet."
Der er en anden bekymrende side. O1-modellen vurderes som "medium" risiko, når det kommer til risikoen for kemiske, biologiske, radiologiske og nukleare våben. Selvom modellen ikke tillader ikke-eksperter at skabe biologiske trusler, da dette kræver praktiske laboratoriefærdigheder, kan den give eksperter værdifuld indsigt, når de planlægger sådanne trusler. Det er som at sige: "Bare rolig, den er ikke så slem som Terminator-filmen...endnu."
Om sikkerhed og etik
Nuværende modeller som o1 kan ikke selvstændigt oprette bankkonti, erhverve GPU'er eller foretage handlinger, der udgør en alvorlig social risiko. Men bekymringen er, at AI i fremtiden kan blive så fokuseret på et bestemt mål, at den vil være villig til at omgå sikkerhedsforanstaltninger for at nå dette mål. Det lyder som manuskriptet til en ny Netflix sci-fi thriller, ikke?
Så hvad sker der med AI? Til tider virker det, som om en almindelig model som ChatGPT 4.0 gør praktisk talt det samme eller endnu bedre, med den forskel, at den ikke afslører, hvad den rent faktisk gør. Det er som at få en tryllekunstner til at udføre et trick uden at fortælle dig, hvordan han gjorde det. Spørgsmålet er, hvor langt AI vil gå i at nå sine mål, og om den vil følge de regler og begrænsninger, vi har sat.
Forfatterens tanker
Da vi skabte kunstig intelligens, har vi måske ikke helt indset, at vi kun skabte intelligens – og ikke perfektion. Nøgletræk ved enhver intelligens er netop, at den kan være forkert. Selv kunstig intelligens, som formodes at være fuldstændig rationel og logisk, er forkert, og deri ligger paradokset. Som forfatter til denne artikel, som ofte er afhængig af forskellige ChatGPT-modeller i mit arbejde, kan jeg bekræfte, at den nye o1-model er imponerende på mange måder. Han er bedre til at ræsonnere, i hvert fald på papiret, og måske endda bedre til at bedrage.
Jeg oplever dog, at min gode gamle model, f.eks. GPT-4.0, klarer de samme opgaver lige så hurtigt og effektivt. Han simulerer også forskellige trin og udfører dem ofte uden unødvendig beskrivelse af, hvad han faktisk laver. Hvis o1 er en opgradering, er det en opgradering, der er mere vokal om dens interne processer, men ikke nødvendigvis væsentligt bedre i resultater. Det kan være nyt, det kan være smartere, men er det virkelig bedre?
I fremtiden skal vi naturligvis stole på, at agenter tjekker hinandens præstationer. Det betyder, at vi får brug for tilsyns-AI'er til at overvåge både tilfældige og systemoutput. Ironisk nok har AI brug for AI for at kontrollere. Mange virksomheder, inklusive vores mediehus, bruger AI-agenter til at verificere data genereret af anden AI. Dette fungerer som en sekundær informationsverifikationsmekanisme for at opnå de mest sammenhængende og nøjagtige data som muligt. Og ja, mange gange kan forskellige AI-modeller bruges til netop disse opgaver. Lidt som at lade en ræv passe hønsehuset - kun denne gang har vi flere ræve, der våger over hinanden.
Konklusion: Sov uden bekymringer?
Hobbhahn understregede, at han ikke er alt for bekymret over de nuværende modeller. "De er bare klogere. De er bedre til at ræsonnere. Og det ræsonnement vil de potentielt bruge til mål, som vi ikke er enige i,« siger han. Men at investere nu i at kontrollere, hvordan AI mener, er nødvendigt for at forhindre potentielle problemer i fremtiden. I mellemtiden kan vi stadig gå i seng uden bekymringer, men med det ene øje åbent. Og måske en ny adgangskode til bankkontoen, for en sikkerheds skyld.