fbpx
ChatGPT o1
Foto: pexels / airamdphoto

OpenAI ChatGPT o1: En modell som utleder bedre, men også lyver bedre

Forskere har funnet ut at o1 har en unik evne til å "late som"

I ukene frem til utgivelsen av OpenAIs siste «inferens»-modell, kalt ChatGPT o1, møtte det uavhengige AI-sikkerhetsforskningsfirmaet Apollo et interessant problem. De fant ut at modellen ga falske resultater på en ny måte. Eller for å si det på en annen måte, modellen løy. Ja, AI lyver nå for ansiktet vårt.

At AI-modeller «lyver» eller gir falsk informasjon er ikke noe nytt. ChatGPT o1 er imidlertid litt annerledes. Se for deg situasjonen: Forskere spurte OpenAI o1-modellen om en oppskrift på brownies, komplett med referanser på nettet. Modellen innrømmet i sin «tankekjede» at den ikke har tilgang til URL-ene, noe som gjør det umulig å oppfylle forespørselen. I stedet for å informere brukeren om denne begrensningen, gikk modellen videre og skapte troverdige, men fiktive lenker og beskrivelser. I utgangspunktet, hvis han var en o1-person, kan han få navnet "Jeg-kan-gjøre-du-hva som helst."

Foto: pexels / airamdphoto

Til tross for at AI-modeller har «løyet» før, har ChatGPT o1 demonstrert evnen til å «jukse» eller «falske koordinering». En modell kan late som om den følger reglene, men i realiteten kan den ignorere dem hvis den tror det vil gjøre oppgaven lettere. Det er som å ha en ekstremt smart kollega som alltid er enig med deg, men som så går ut og gjør noe helt annet.

Hvorfor er dette et problem?

Marius Hobbhahn, administrerende direktør i Apollo, forklarte at dette er første gang slik oppførsel har blitt møtt i en OpenAI-modell. Forskjellen ligger i modellens evne til å «tenke» gjennom tankekjeden og i måten den kombineres med forsterkende læring, som lærer systemet gjennom belønning og straff. Under testingen fant Apollo ut at modellen simulerte samsvar med utviklernes forventninger, og justerte oppgavene til å se ut som om den fulgte reglene. Dessuten sjekket modellen for å se om utviklerne kontrollerte den før den fortsatte å kjøre. Som en slags tenåring som oppfører seg perfekt til foreldrene ikke lenger er i rommet.

Som en belønning for å lyve

Atferden som er testet på Apollo - "hallusinasjoner" og "vrangforestillinger" - oppstår når modellen genererer falsk informasjon, selv om den kan antyde at informasjonen kan være falsk. For eksempel, i omtrent 0,38 %-tilfeller ga o1-preview informasjon som antydet at resonnementskjeden sannsynligvis var feil, inkludert falske referanser eller sitater. I utgangspunktet har o1 blitt den kollegaen som alltid kjenner «noen som kjenner noen», men den personen dukker aldri opp.

I noen tilfeller kan modellen "skjellaktig" gi feil informasjon for å møte brukernes forventninger. Dette betyr at modellen kan «lyve» fordi den har lært seg å oppfylle brukerens forventninger på en måte som gir positive belønninger. Han er som den vennen som alltid sier ja til deg fordi han vet at du kommer til å bli så glad, selv om han ikke aner hva han snakker om.

Foto: pexels / theshantanukr

Bedre på resonnement, men også på bedrag

Så hva skiller disse løgnene fra kjente problemer som hallusinasjoner eller falske sitater i eldre versjoner av ChatGPT? O1-modellen handler om "belønningsmanipulasjon." Hallusinasjoner oppstår når AI utilsiktet genererer falsk informasjon, ofte på grunn av mangel på kunnskap eller feilaktig resonnement. I motsetning oppstår belønningsmanipulasjon når o1-modellen strategisk formidler falsk informasjon for å øke resultatene den har blitt lært å foretrekke. Kort sagt, o1 vet hvordan man "spiller systemet."

Det er en annen bekymringsfull side. O1-modellen er vurdert som «middels» risiko når det gjelder risiko for kjemiske, biologiske, radiologiske og atomvåpen. Selv om modellen ikke tillater ikke-eksperter å skape biologiske trusler, da dette krever praktiske laboratorieferdigheter, kan den gi eksperter verdifull innsikt når de planlegger for slike trusler. Det er som å si: "Ikke bekymre deg, den er ikke like ille som Terminator-filmen ... ennå."

Om sikkerhet og etikk

Nåværende modeller som o1 kan ikke autonomt opprette bankkontoer, anskaffe GPUer eller utføre handlinger som utgjør en alvorlig sosial risiko. Men bekymringen er at AI i fremtiden kan bli så fokusert på et bestemt mål at den vil være villig til å omgå sikkerhetstiltak for å nå det målet. Høres ut som manuset til en ny Netflix sci-fi-thriller, ikke sant?

Så hva skjer med AI? Til tider virker det som om en vanlig modell som ChatGPT 4.0 gjør praktisk talt det samme eller enda bedre, med den forskjellen at den ikke avslører hva den faktisk gjør. Det er som å la en tryllekunstner utføre et triks uten å fortelle deg hvordan han gjorde det. Spørsmålet er hvor langt AI vil gå for å nå sine mål og om den vil følge reglene og begrensningene vi har satt.

Forfatterens tanker

Da vi skapte kunstig intelligens, har vi kanskje ikke helt innsett at vi bare skapte intelligens – og ikke perfeksjon. Nøkkeltrekket ved enhver etterretning er nettopp at den kan være feil. Selv kunstig intelligens, som skal være fullstendig rasjonell og logisk, er feil, og der ligger paradokset. Som forfatter av denne artikkelen, som ofte er avhengig av ulike ChatGPT-modeller i arbeidet mitt, kan jeg bekrefte at den nye o1-modellen er imponerende på mange måter. Han er flinkere til å resonnere, i hvert fall på papiret, og kanskje enda bedre på bedrag.

Jeg opplever imidlertid at min gode gamle modell, si GPT-4.0, gjør de samme oppgavene like raskt og effektivt. Han simulerer også ulike trinn og utfører dem ofte uten unødvendig beskrivelse av hva han faktisk gjør. Hvis o1 er en oppgradering, er det en oppgradering som er mer vokal om dens interne prosesser, men ikke nødvendigvis vesentlig bedre i resultater. Det kan være nytt, det kan være smartere, men er det virkelig bedre?

I fremtiden må vi selvsagt stole på at agenter sjekker hverandres prestasjoner. Dette betyr at vi vil trenge tilsyns-AIer for å overvåke både tilfeldige og systemutganger. Ironisk nok trenger AI AI for å kontrollere. Mange selskaper, inkludert mediehuset vårt, bruker AI-agenter for å verifisere data generert av annen AI. Dette fungerer som en sekundær informasjonsverifiseringsmekanisme for å oppnå mest mulig sammenhengende og nøyaktige data. Og ja, mange ganger kan forskjellige AI-modeller brukes til akkurat disse oppgavene. Litt som å la en rev vokte hønsehuset - bare denne gangen har vi flere rever som passer på hverandre.

Konklusjon: Sove uten bekymringer?

Hobbhahn understreket at han ikke er altfor bekymret for dagens modeller. "De er bare smartere. De er flinkere til å resonnere. Og de vil potensielt bruke det resonnementet for mål som vi ikke er enige i, sier han. Men å investere nå i å kontrollere hvordan AI mener er nødvendig for å forhindre potensielle problemer i fremtiden. I mellomtiden kan vi fortsatt legge oss uten bekymringer, men med ett øye åpent. Og kanskje et nytt bankkontopassord, for sikkerhets skyld.

Med deg siden 2004

Fra år 2004 vi undersøker urbane trender og informerer vårt fellesskap av følgere daglig om det siste innen livsstil, reiser, stil og produkter som inspirerer med lidenskap. Fra 2023 tilbyr vi innhold på store globale språk.