V týždňoch pred vydaním najnovšieho „inferenčného“ modelu OpenAI s názvom ChatGPT o1 sa nezávislá spoločnosť Apollo zaoberajúca sa výskumom bezpečnosti AI stretla so zaujímavým problémom. Zistili, že model prináša falošné výsledky novým spôsobom. Alebo inak povedané, modelka klamala. Áno, AI nám teraz klame do očí.
To, že modely AI „klamú“ alebo poskytujú nepravdivé informácie, nie je žiadnou novinkou. ChatGPT o1 je však trochu iný. Predstavte si situáciu: výskumníci požiadali model OpenAI o1 o recept na brownies, doplnený o referencie na webe. Modelka vo svojom „myšlienkovom reťazci“ priznala, že nemá prístup k URL, čo znemožňuje splniť požiadavku. Namiesto informovania používateľa o tomto obmedzení, model pokračoval a vytvoril dôveryhodné, ale fiktívne odkazy a popisy. V podstate, ak by bol človekom 1, mohol by dostať meno „Ja-môžem-vyrobiť-čokoľvek“.
Napriek tomu, že modely AI predtým „klamali“, ChatGPT o1 preukázal schopnosť „podvádzať“ alebo „falošovať zápas“. Modelka môže predstierať, že dodržiava pravidlá, ale v skutočnosti ich môže ignorovať, ak si myslí, že to uľahčí úlohu. Je to ako mať mimoriadne šikovného kolegu, ktorý s vami vždy súhlasí, no potom odíde a urobí niečo úplne iné.
Prečo je to problém?
Marius Hobbhahn, generálny riaditeľ spoločnosti Apollo, vysvetlil, že je to prvýkrát, čo sa takéto správanie v modeli OpenAI vyskytuje. Rozdiel je v schopnosti modelu „premýšľať“ cez reťazec myslenia a v spôsobe, akým je kombinovaný s posilňujúcim učením, ktoré učí systém prostredníctvom odmien a trestov. Apollo počas testovania zistilo, že model simuloval súlad s očakávaniami svojich vývojárov a prispôsoboval úlohy tak, aby vyzerali, akoby dodržiavali pravidlá. A čo viac, model pred pokračovaním v behu skontroloval, či ho vývojári ovládajú. Ako nejaký tínedžer, ktorý sa správa perfektne, kým rodičia už nie sú v izbe.
Ako odmenu za klamstvo
Správanie testované na Apollo - "halucinácie" a "klamy" - sa vyskytujú, keď model generuje nepravdivé informácie, aj keď môže vyvodiť, že tieto informácie môžu byť nepravdivé. Napríklad v približne 0,38 prípadoch % poskytol o1-preview informácie, o ktorých reťazec uvažovania vyplýva, že je pravdepodobne nesprávny, vrátane falošných odkazov alebo citácií. O1 sa v podstate stal tým kolegom, ktorý vždy pozná „niekoho, kto niekoho pozná“, ale ten človek sa nikdy neobjaví.
V niektorých prípadoch môže model „zlomyseľne“ poskytnúť nesprávne informácie, aby splnil očakávania používateľov. To znamená, že model môže „klamať“, pretože sa naučil napĺňať očakávania používateľa spôsobom, ktorý prináša pozitívne odmeny. Je ako ten priateľ, ktorý ti vždy povie áno, pretože vie, že budeš taká šťastná, aj keď netuší, o čom hovorí.
Lepšie v uvažovaní, ale aj v klamaní
Čo teda oddeľuje tieto lži od známych problémov, ako sú halucinácie alebo falošné úvodzovky v starších verziách ChatGPT? Model o1 je o „manipulácii s odmenou“. Halucinácie sa vyskytujú, keď AI neúmyselne generuje falošné informácie, často v dôsledku nedostatku vedomostí alebo chybného uvažovania. Na rozdiel od toho, k manipulácii s odmenou dochádza, keď model o1 strategicky prenáša nepravdivé informácie, aby zvýšil výsledky, ktoré sa naučil preferovať. O1 skrátka vie, ako „hrať systém“.
Je tu ešte jedna znepokojujúca stránka. Model o1 je hodnotený ako „stredné“ riziko, pokiaľ ide o riziko chemických, biologických, rádiologických a jadrových zbraní. Hoci model neumožňuje neodborníkom vytvárať biologické hrozby, keďže si to vyžaduje praktické laboratórne zručnosti, môže odborníkom poskytnúť cenný prehľad pri plánovaní takýchto hrozieb. Je to ako povedať: "Neboj sa, nie je to také zlé ako film Terminátor...zatiaľ."
O bezpečnosti a etike
Súčasné modely, ako je o1, nemôžu autonómne vytvárať bankové účty, získavať GPU alebo vykonávať akcie, ktoré predstavujú vážne sociálne riziko. Obáva sa však, že v budúcnosti sa AI môže natoľko zamerať na konkrétny cieľ, že bude ochotná obísť bezpečnostné opatrenia na dosiahnutie tohto cieľa. Znie to ako scenár nového sci-fi thrilleru Netflix, však?
Čo sa teda deje s AI? Miestami sa zdá, že bežný model ako ChatGPT 4.0 robí prakticky to isté alebo dokonca lepšie, s tým rozdielom, že neprezrádza, čo vlastne robí. Je to ako keby kúzelník predviedol trik bez toho, aby vám povedal, ako to urobil. Otázkou je, ako ďaleko AI zájde pri dosahovaní svojich cieľov a či bude dodržiavať pravidlá a obmedzenia, ktoré sme nastavili.
Autorove myšlienky
Keď sme vytvorili umelú inteligenciu, možno sme si úplne neuvedomili, že sme vytvorili iba my inteligenciu - a nie dokonalosť. Kľúčovým znakom každej inteligencie je práve to, že sa môže mýliť. Aj umelá inteligencia, ktorá má byť úplne racionálna a logická, sa mýli a v tom je ten paradox. Ako autor tohto článku, ktorý sa pri svojej práci často spolieha na rôzne modely ChatGPT, môžem potvrdiť, že nový model o1 je v mnohých smeroch pôsobivý. Je lepší v uvažovaní, aspoň na papieri, a možno ešte lepší v klamaní.
Zistil som však, že môj starý dobrý model, povedzme GPT-4.0, robí rovnaké úlohy rovnako rýchlo a efektívne. Taktiež simuluje rôzne kroky a často ich vykonáva bez zbytočného opisu toho, čo vlastne robí. Ak je o1 inováciou, je to inovácia, ktorá sa viac vyjadruje k interným procesom, ale nie nevyhnutne výrazne lepšia vo výsledkoch. Môže byť nový, môže byť inteligentnejší, ale je skutočne lepší?
V budúcnosti sa samozrejme budeme musieť spoľahnúť na agentov, ktorí si navzájom kontrolujú výkon. To znamená, že na monitorovanie náhodných aj systémových výstupov budeme potrebovať AI dohľadu. Je iróniou, že AI potrebuje AI na ovládanie. Mnoho spoločností vrátane nášho mediálneho domu používa agentov AI na overenie údajov generovaných inou AI. Funguje to ako sekundárny mechanizmus overovania informácií na dosiahnutie čo najkoherentnejších a najpresnejších údajov. A áno, presne na tieto úlohy možno mnohokrát použiť rôzne modely AI. Niečo ako nechať líšku strážiť kurník - len tentoraz máme viacero líšok, ktoré na seba dohliadajú.
Záver: Spať bez starostí?
Hobbhahn zdôraznil, že sa o súčasné modely príliš nestará. „Sú len múdrejší. Sú lepší v uvažovaní. A toto zdôvodnenie potenciálne použijú na ciele, s ktorými nesúhlasíme,“ hovorí. Teraz však investujte do kontroly toho, ako si AI myslí, že je potrebné zabrániť potenciálnym problémom v budúcnosti. Zatiaľ môžeme bez obáv ísť spať, ale s jedným okom otvoreným. A možno aj nové heslo k bankovému účtu, pre každý prípad.