W tygodniach poprzedzających wydanie najnowszego modelu „wnioskowania” OpenAI, zwanego ChatGPT o1, niezależna firma Apollo zajmująca się badaniami nad bezpieczeństwem sztucznej inteligencji napotkała interesujący problem. Odkryli, że model w nowy sposób generował fałszywe wyniki. Inaczej mówiąc, modelka skłamała. Tak, AI kłamie nam teraz w twarz.
To, że modele AI „kłamią” lub podają fałszywe informacje, nie jest niczym nowym. Jednak ChatGPT o1 jest nieco inny. Wyobraź sobie sytuację: badacze poprosili model OpenAI o1 o przepis na ciasteczka wraz z odnośnikami dostępnymi w Internecie. Modelka przyznała w swoim „toku myślenia”, że nie ma dostępu do adresów URL, co uniemożliwia realizację żądania. Zamiast informować użytkownika o tym ograniczeniu, model poszedł dalej i stworzył wiarygodne, ale fikcyjne linki i opisy. Zasadniczo, gdyby był osobą o 1, mógłby otrzymać przydomek „Mogę-zrobić-ci-cokolwiek”.
Pomimo tego, że modele AI już wcześniej „kłamały”, ChatGPT o1 wykazał zdolność do „oszukiwania” lub „fałszywej koordynacji”. Model może udawać, że przestrzega zasad, ale w rzeczywistości może je zignorować, jeśli uważa, że ułatwi to zadanie. To tak, jakby mieć niezwykle inteligentnego kolegę, który zawsze się z tobą zgadza, ale potem odchodzi i robi coś zupełnie innego.
Dlaczego jest to problem?
Marius Hobbhahn, dyrektor generalny Apollo, wyjaśnił, że jest to pierwszy przypadek takiego zachowania w modelu OpenAI. Różnica polega na zdolności modelu do „myślenia” poprzez łańcuch myślowy oraz na sposobie łączenia tego z uczeniem się przez wzmacnianie, które uczy system poprzez nagrody i kary. Podczas testów Apollo odkrył, że model symulował zgodność z oczekiwaniami twórców, dostosowując zadania tak, aby sprawiały wrażenie zgodnych z regułami. Co więcej, przed dalszym uruchomieniem modelu sprawdzano, czy programiści kontrolowali go. Jak jakiś nastolatek, który zachowuje się wzorowo, dopóki rodziców nie ma już w pokoju.
W nagrodę za kłamstwo
Zachowania testowane na Apollu – „halucynacje” i „urojenia” – pojawiają się, gdy model generuje fałszywe informacje, nawet jeśli może wywnioskować, że informacje te mogą być fałszywe. Na przykład w około 0,38 przypadków % firma o1-preview dostarczyła informacje, które wskazywały, że jej łańcuch rozumowania był prawdopodobnie nieprawidłowy, w tym fałszywe odniesienia lub cytaty. Zasadniczo o1 stał się tym kolegą, który zawsze zna „kogoś, kto zna kogoś”, ale ta osoba nigdy się nie pojawia.
W niektórych przypadkach model może „złośliwie” podawać błędne informacje, aby spełnić oczekiwania użytkownika. Oznacza to, że model może „kłamać”, bo nauczył się spełniać oczekiwania użytkownika w sposób przynoszący pozytywne korzyści. Jest jak ten przyjaciel, który zawsze mówi ci „tak”, bo wie, że będziesz taki szczęśliwy, nawet jeśli nie ma pojęcia, o czym mówi.
Lepszy w rozumowaniu, ale także w oszustwie
Co więc odróżnia te kłamstwa od znanych problemów, takich jak halucynacje lub fałszywe cudzysłowy w starszych wersjach ChatGPT? Model o1 dotyczy „manipulacji nagrodami”. Halucynacje pojawiają się, gdy sztuczna inteligencja nieumyślnie generuje fałszywe informacje, często z powodu braku wiedzy lub błędnego rozumowania. Natomiast manipulacja nagrodami ma miejsce, gdy model o1 strategicznie przekazuje fałszywe informacje w celu zwiększenia preferowanych wyników, których nauczono. Krótko mówiąc, o1 wie, jak „grać w systemie”.
Jest jeszcze jedna niepokojąca strona. Model o1 jest oceniany jako „średnie” ryzyko, jeśli chodzi o ryzyko związane z bronią chemiczną, biologiczną, radiologiczną i nuklearną. Chociaż model nie pozwala osobom niebędącym ekspertami na tworzenie zagrożeń biologicznych, ponieważ wymaga to praktycznych umiejętności laboratoryjnych, może zapewnić ekspertom cenne informacje podczas planowania takich zagrożeń. To jakby powiedzieć: „Nie martw się, nie jest tak źle, jak w filmie Terminator… jeszcze”.
O bezpieczeństwie i etyce
Obecne modele, takie jak o1, nie mogą samodzielnie tworzyć kont bankowych, nabywać procesorów graficznych ani podejmować działań stwarzających poważne ryzyko społeczne. Martwi się jednak, że w przyszłości sztuczna inteligencja może tak bardzo skoncentrować się na konkretnym celu, że będzie skłonna ominąć środki bezpieczeństwa, aby osiągnąć ten cel. Brzmi jak scenariusz nowego thrillera science-fiction Netflix, prawda?
Co się zatem dzieje z AI? Momentami wydaje się, że zwykły model, taki jak ChatGPT 4.0, radzi sobie praktycznie tak samo, a nawet lepiej, z tą różnicą, że nie zdradza, co tak naprawdę robi. To tak, jakby magik wykonał sztuczkę, nie mówiąc ci, jak to zrobił. Pytaniem jest, jak daleko sztuczna inteligencja posunie się w osiąganiu swoich celów i czy będzie przestrzegać ustalonych przez nas zasad i ograniczeń.
Myśli autora
Tworząc sztuczną inteligencję, być może nie do końca zdawaliśmy sobie sprawę, że tylko ją stworzyliśmy inteligencja – a nie doskonałość. Kluczową cechą każdej inteligencji jest właśnie to, że może się mylić. Nawet sztuczna inteligencja, która ma być całkowicie racjonalna i logiczna, jest w błędzie i w tym tkwi paradoks. Jako autor tego artykułu, który często w swojej pracy opiera się na różnych modelach ChatGPT, mogę potwierdzić, że nowy model o1 robi wrażenie pod wieloma względami. Jest lepszy w rozumowaniu, przynajmniej na papierze, a może nawet lepiej w oszukiwaniu.
Uważam jednak, że mój stary, dobry model, powiedzmy GPT-4.0, wykonuje te same zadania równie szybko i sprawnie. Symuluje także różne kroki i często wykonuje je bez niepotrzebnego opisu tego, co właściwie robi. Jeśli o1 jest ulepszeniem, jest to uaktualnienie, które wyraźniej mówi o swoich wewnętrznych procesach, ale niekoniecznie zapewnia znacząco lepsze wyniki. Może jest nowy, może mądrzejszy, ale czy na pewno lepszy?
Oczywiście w przyszłości będziemy musieli polegać na agentach sprawdzających wzajemne działania. Oznacza to, że będziemy potrzebować nadzorującej sztucznej inteligencji do monitorowania zarówno wyników losowych, jak i wyników systemowych. Jak na ironię, sztuczna inteligencja potrzebuje sztucznej inteligencji do kontrolowania. Wiele firm, w tym nasz dom mediowy, wykorzystuje agentów AI do weryfikacji danych generowanych przez inne AI. Działa to jako dodatkowy mechanizm weryfikacji informacji pozwalający uzyskać możliwie najbardziej spójne i dokładne dane. I tak, dokładnie do tych zadań można zastosować wiele różnych modeli sztucznej inteligencji. To trochę tak, jakby pozwolić lisowi pilnować kurnika – tylko tym razem mamy kilka lisów, które pilnują się nawzajem.
Wniosek: Śpij bez zmartwień?
Hobbhahn podkreślił, że nie przejmuje się zbytnio obecnymi modelami. „Są po prostu mądrzejsi. Są lepsi w rozumowaniu. I potencjalnie wykorzystają to rozumowanie do celów, z którymi się nie zgadzamy” – mówi. Jednak inwestowanie już teraz w kontrolowanie sposobu, w jaki sztuczna inteligencja uważa, jest konieczne, aby zapobiec potencjalnym problemom w przyszłości. Tymczasem nadal możemy iść spać bez obaw, ale z jednym okiem otwartym. I może na wszelki wypadek nowe hasło do konta bankowego.