OpenAI ChatGPT o1: Model, který lépe vyvozuje, ale také lépe lže

V týdnech, které vedly k vydání nejnovějšího „inferenčního“ modelu OpenAI, nazvaného ChatGPT o1, se nezávislá firma Apollo pro výzkum bezpečnosti AI setkala se zajímavým problémem. Zjistili, že model produkoval falešné výsledky novým způsobem. Nebo jinak řečeno, modelka lhala. Ano, AI nám teď lže do očí.

To, že modely umělé inteligence „lžou“ nebo poskytují nepravdivé informace, není žádnou novinkou. ChatGPT o1 je však trochu jiný. Představte si situaci: výzkumníci požádali model OpenAI o1 o recept na brownies, doplněný online referencemi. Model ve svém „myšlenkovém řetězci“ přiznal, že nemá přístup k URL, což znemožňuje splnit požadavek. Namísto informování uživatele o tomto omezení model pokračoval a vytvořil důvěryhodné, ale smyšlené odkazy a popisy. V zásadě, pokud by byl člověk o1, mohl by dostat jméno „já-můžu-vás-cokoli“.

Navzdory skutečnosti, že modely umělé inteligence již dříve „lhaly“, ChatGPT o1 prokázal schopnost „podvádět“ nebo „falešně koordinovat“. Modelka může předstírat, že dodržuje pravidla, ale ve skutečnosti je může ignorovat, pokud si myslí, že tím úkol usnadní. Je to jako mít extrémně chytrého kolegu, který s vámi vždy souhlasí, ale pak odejde a udělá něco úplně jiného.

Proč je to problém?

Marius Hobbhahn, generální ředitel společnosti Apollo, vysvětlil, že je to poprvé, co se s takovým chováním v modelu OpenAI setkáváme. Rozdíl je ve schopnosti modelu „myslet“ prostřednictvím myšlenkového řetězce a ve způsobu, jakým je kombinován s posilovacím učením, které učí systém prostřednictvím odměn a trestů. Během testování Apollo zjistilo, že model simuloval soulad s očekáváním svých vývojářů a upravoval úkoly tak, aby vypadaly, jako by dodržovaly pravidla. A co víc, model před dalším spuštěním zkontroloval, zda jej vývojáři ovládají. Jako nějaký puberťák, který se chová perfektně, dokud rodiče už nejsou v pokoji.

Jako odměnu za lhaní

Chování testované na Apollu - "halucinace" a "klamy" - se objevují, když model generuje nepravdivé informace, i když z toho lze odvodit, že informace mohou být nepravdivé. Například v přibližně 0,38 případech % poskytl o1-preview informaci, že jeho řetězec úvah byl pravděpodobně nesprávný, včetně nepravdivých odkazů nebo citací. O1 se v podstatě stal tím kolegou, který vždy zná „někoho, kdo někoho zná“, ale ten se nikdy neobjeví.

V některých případech může model „zlomyslně“ poskytnout špatné informace, aby splnil očekávání uživatelů. To znamená, že model může „lhat“, protože se naučil naplňovat uživatelova očekávání způsobem, který přináší pozitivní odměny. Je jako ten přítel, který vám vždy řekne ano, protože ví, že budete tak šťastní, i když netuší, o čem mluví.

Lepší v uvažování, ale také v klamání

Co tedy odděluje tyto lži od známých problémů, jako jsou halucinace nebo falešné uvozovky ve starších verzích ChatGPT? Model o1 je o „manipulaci s odměnami“. Halucinace se objevují, když AI neúmyslně generuje falešné informace, často kvůli nedostatku znalostí nebo chybnému uvažování. Naproti tomu k manipulaci s odměnou dochází, když model o1 strategicky předává nepravdivé informace, aby zvýšil výsledky, které se naučil preferovat. O1 zkrátka ví, jak „hrát systém“.

Je tu ještě jedna znepokojivá stránka. Model o1 je hodnocen jako „střední“ riziko, pokud jde o riziko chemických, biologických, radiologických a jaderných zbraní. Přestože tento model neumožňuje neodborníkům vytvářet biologické hrozby, protože to vyžaduje praktické laboratorní dovednosti, může odborníkům poskytnout cenné poznatky při plánování takových hrozeb. Je to jako říct: "Neboj, není to tak špatné jako film Terminátor...zatím."

O bezpečnosti a etice

Současné modely jako o1 nemohou autonomně vytvářet bankovní účty, získávat GPU nebo provádět akce, které představují vážné sociální riziko. Ale obava je, že v budoucnu se AI může natolik zaměřit na konkrétní cíl, že bude ochotna obejít bezpečnostní opatření, aby tohoto cíle dosáhla. Zní to jako scénář nového sci-fi thrilleru Netflix, že?

Porazí umělá inteligence smrt: Proč musíte za každou cenu přežít příštích 10 let, abyste žili alespoň 150 let

Co se tedy děje s AI? Chvílemi se zdá, jako by běžný model jako ChatGPT 4.0 dělal prakticky totéž nebo dokonce lépe, s tím rozdílem, že neprozrazuje, co vlastně dělá. Je to jako nechat kouzelníka předvést trik, aniž by vám řekl, jak to udělal. Otázkou je, jak daleko AI zajde při dosahování svých cílů a zda bude dodržovat pravidla a omezení, která jsme nastavili.

Autorovy myšlenky

Když jsme vytvořili umělou inteligenci, možná jsme si plně neuvědomovali, že jsme vytvořili pouze my inteligence – a ne dokonalost. Klíčovým rysem každé inteligence je právě to, že se může mýlit. I umělá inteligence, která má být zcela racionální a logická, se mýlí a v tom spočívá ten paradox. Jako autor tohoto článku, který se ve své práci často opírá o různé modely ChatGPT, mohu potvrdit, že nový model o1 je v mnoha ohledech působivý. Je lepší v uvažování, alespoň na papíře, a možná ještě lepší v klamání.

Zjistil jsem však, že můj starý dobrý model, řekněme GPT-4.0, dělá stejné úkoly stejně rychle a efektivně. Různé kroky také simuluje a často je provádí bez zbytečného popisu toho, co vlastně dělá. Pokud je o1 upgrade, je to upgrade, který se více vyjadřuje k jeho interním procesům, ale nemusí nutně mít výrazně lepší výsledky. Může být nový, může být chytřejší, ale je skutečně lepší?

V budoucnu se samozřejmě budeme muset spoléhat na agenty, kteří si navzájem kontrolují svůj výkon. To znamená, že budeme potřebovat supervizní AI pro sledování náhodných i systémových výstupů. Ironií je, že AI potřebuje ke kontrole AI. Mnoho společností, včetně naší mediální společnosti, používá agenty AI k ověření dat generovaných jinou AI. To funguje jako sekundární mechanismus ověřování informací pro dosažení co nejkoherentnějších a nejpřesnějších dat. A ano, přesně pro tyto úkoly lze mnohokrát použít různé modely umělé inteligence. Něco jako nechat lišku hlídat kvočnu - jen tentokrát na sebe hlídá několik lišek.

Závěr: Spát bez starostí?

Hobbhahn zdůraznil, že se o současné modely příliš nestará. „Jsou prostě chytřejší. Jsou lepší v uvažování. A toto zdůvodnění potenciálně použijí pro cíle, se kterými nesouhlasíme,“ říká. Nyní však investujte do kontroly toho, jak AI považuje za nezbytné, aby se předešlo potenciálním problémům v budoucnu. Mezitím můžeme stále bez obav jít spát, ale s jedním okem otevřeným. A možná i nové heslo k bankovnímu účtu, pro každý případ.