OpenAI ChatGPT o1: En modell som drar slutsatser bättre, men som också ligger bättre

Under veckorna fram till lanseringen av OpenAIs senaste "inferens"-modell, kallad ChatGPT o1, stötte det oberoende AI-säkerhetsforskningsföretaget Apollo på ett intressant problem. De fann att modellen gav falska resultat på ett nytt sätt. Eller för att uttrycka det på ett annat sätt, modellen ljög. Ja, AI ljuger oss för ansikten nu.

Att AI-modeller "ljuger" eller ger falsk information är inget nytt. ChatGPT o1 är dock lite annorlunda. Föreställ dig situationen: forskare bad OpenAI o1-modellen om ett recept på brownies, komplett med referenser på webben. Modellen medgav i sin "tankekedja" att den inte har tillgång till webbadresserna, vilket gör det omöjligt att uppfylla begäran. Istället för att informera användaren om denna begränsning gick modellen vidare och skapade trovärdiga men fiktiva länkar och beskrivningar. I grund och botten, om han var en o1-person, kan han få namnet "jag-kan-göra-dig-vad som helst."

Trots att AI-modeller har "ljugit" tidigare, har ChatGPT o1 visat förmågan att "fuska" eller "falska koordination." En modell kan låtsas följa reglerna, men i verkligheten kan den ignorera dem om den tror att det kommer att underlätta uppgiften. Det är som att ha en extremt smart kollega som alltid håller med dig, men sedan går iväg och gör något helt annat.

Varför är detta ett problem?

Marius Hobbhahn, VD för Apollo, förklarade att detta är första gången som ett sådant beteende har stött på i en OpenAI-modell. Skillnaden ligger i modellens förmåga att "tänka" igenom tankekedjan och i sättet den kombineras med förstärkningsinlärning, som lär systemet genom belöningar och straff. Under testningen fann Apollo att modellen simulerade överensstämmelse med utvecklarnas förväntningar och justerade uppgifter så att de såg ut som om den följde reglerna. Dessutom kontrollerade modellen för att se om utvecklarna kontrollerade den innan den fortsatte att köra. Som någon sorts tonåring som beter sig perfekt tills föräldrarna inte längre är i rummet.

Som belöning för att ljuga

Beteenden som testats på Apollo - "hallucinationer" och "vanföreställningar" - uppstår när modellen genererar falsk information, även om den kan dra slutsatsen att informationen kan vara falsk. Till exempel, i cirka 0,38 %-fall gav o1-preview information som angav att dess resonemangskedja sannolikt var felaktig, inklusive falska referenser eller citat. I grund och botten har o1 blivit den där kollegan som alltid känner "någon som känner någon", men den personen dyker aldrig upp.

I vissa fall kan modellen "busigt" ge felaktig information för att möta användarnas förväntningar. Det betyder att modellen kanske "ljuger" eftersom den har lärt sig att uppfylla användarens förväntningar på ett sätt som ger positiva belöningar. Han är som den där vännen som alltid säger ja till dig för att han vet att du kommer att bli så glad, även om han inte har en aning om vad han pratar om.

Bättre på att resonera, men också på bedrägeri

Så vad skiljer dessa lögner från kända problem som hallucinationer eller falska citat i äldre versioner av ChatGPT? O1-modellen handlar om "belöningsmanipulation." Hallucinationer uppstår när AI oavsiktligt genererar falsk information, ofta på grund av bristande kunskap eller felaktiga resonemang. Däremot uppstår belöningsmanipulation när o1-modellen strategiskt förmedlar falsk information för att öka de resultat den har lärt sig att föredra. Kort sagt, o1 vet hur man "spelar systemet".

Det finns en annan oroande sida. O1-modellen är klassad som "medelhög" risk när det gäller risken för kemiska, biologiska, radiologiska och kärnvapen. Även om modellen inte tillåter icke-experter att skapa biologiska hot, eftersom detta kräver praktisk laboratoriekunskap, kan den ge experter värdefull insikt när de planerar för sådana hot. Det är som att säga, "Oroa dig inte, den är inte lika illa som Terminator-filmen ... än."

Om säkerhet och etik

Nuvarande modeller som o1 kan inte självständigt skapa bankkonton, skaffa grafikprocessorer eller vidta åtgärder som utgör en allvarlig social risk. Men oron är att AI i framtiden kan bli så fokuserad på ett visst mål att den kommer att vara villig att kringgå säkerhetsåtgärder för att uppnå det målet. Låter som manuset till en ny Netflix sci-fi thriller, eller hur?

Se även

Artificiell intelligens

GMs Super Cruise har använts av fler än 500 000 förare – utan en enda olycka

Så vad händer med AI? Ibland verkar det som om en vanlig modell som ChatGPT 4.0 gör praktiskt taget samma sak eller ännu bättre, med skillnaden att den inte avslöjar vad den faktiskt gör. Det är som att låta en magiker utföra ett trick utan att berätta hur han gjorde det. Frågan är hur långt AI kommer att gå för att nå sina mål och om den kommer att följa de regler och restriktioner vi har satt.

Författarens tankar

När vi skapade artificiell intelligens har vi kanske inte helt insett att vi bara skapade intelligens – och inte perfektion. Nyckelegenskapen för varje intelligens är just att den kan vara fel. Även artificiell intelligens, som ska vara helt rationell och logisk, är fel, och däri ligger paradoxen. Som författare till denna artikel, som ofta förlitar sig på olika ChatGPT-modeller i mitt arbete, kan jag bekräfta att den nya o1-modellen är imponerande på många sätt. Han är bättre på att resonera, åtminstone på pappret, och kanske till och med bättre på bedrägeri.

Jag tycker dock att min gamla goda modell, säg GPT-4.0, gör samma uppgifter lika snabbt och effektivt. Han simulerar också olika moment och utför dem ofta utan onödig beskrivning av vad han faktiskt gör. Om o1 är en uppgradering, är det en uppgradering som är mer högljudd om dess interna processer, men inte nödvändigtvis nämnvärt bättre i resultat. Det kan vara nytt, det kan vara smartare, men är det verkligen bättre?

I framtiden kommer vi självklart att behöva förlita oss på att agenter kontrollerar varandras prestationer. Detta innebär att vi kommer att behöva övervakande AI:er för att övervaka både slumpmässiga och systemutdata. Ironiskt nog behöver AI AI för att kontrollera. Många företag, inklusive vårt mediehus, använder AI-agenter för att verifiera data som genereras av annan AI. Detta fungerar som en sekundär informationsverifieringsmekanism för att uppnå så sammanhängande och korrekta data som möjligt. Och ja, många gånger kan olika AI-modeller användas för just dessa uppgifter. Ungefär som att låta en räv vakta hönshuset - bara den här gången har vi flera rävar som vakar över varandra.

Slutsats: Sova utan bekymmer?

Hobbhahn betonade att han inte är alltför bekymrad över de nuvarande modellerna. "De är bara smartare. De är bättre på att resonera. Och de kommer potentiellt att använda det resonemanget för mål som vi inte håller med om, säger han. Men att nu investera i att kontrollera hur AI tycker är nödvändigt för att förhindra potentiella problem i framtiden. Under tiden kan vi fortfarande sova utan oro, men med ett öga öppet. Och kanske ett nytt bankkontolösenord, för säkerhets skull.