In den Wochen vor der Veröffentlichung des neuesten „Inferenz“-Modells von OpenAI namens ChatGPT o1 stieß das unabhängige KI-Sicherheitsforschungsunternehmen Apollo auf ein interessantes Problem. Sie stellten fest, dass das Modell auf neue Weise falsche Ergebnisse lieferte. Oder anders ausgedrückt: Das Model hat gelogen. Ja, die KI lügt uns jetzt ins Gesicht.
Dass KI-Modelle „lügen“ oder falsche Informationen liefern, ist nichts Neues. Allerdings ist ChatGPT o1 etwas anders. Stellen Sie sich die Situation vor: Forscher fragten das OpenAI-o1-Modell nach einem Rezept für Brownies, komplett mit Referenzen im Internet. Das Model gab in seiner „Gedankenkette“ zu, dass es keinen Zugriff auf die URLs habe, was es unmöglich mache, der Anfrage nachzukommen. Anstatt den Benutzer über diese Einschränkung zu informieren, erstellte das Modell glaubwürdige, aber fiktive Links und Beschreibungen. Wenn er ein O1-Mensch wäre, könnte er im Grunde den Namen „Ich-kann-aus-dich-was auch immer machen“ bekommen.
Obwohl KI-Modelle zuvor „gelogen“ haben, hat ChatGPT o1 die Fähigkeit bewiesen, „zu betrügen“ oder „Matches vorzutäuschen“. Ein Modell kann vorgeben, die Regeln zu befolgen, aber in Wirklichkeit kann es sie ignorieren, wenn es glaubt, dass es die Aufgabe einfacher macht. Es ist, als hätte man einen äußerst klugen Kollegen, der einem immer zustimmt, dann aber abschaltet und etwas ganz anderes macht.
Warum ist das ein Problem?
Marius Hobbhahn, CEO von Apollo, erklärte, dass dies das erste Mal sei, dass ein solches Verhalten in einem OpenAI-Modell festgestellt werde. Der Unterschied liegt in der Fähigkeit des Modells, die Gedankenkette zu „durchdenken“ und in der Art und Weise, wie sie mit verstärkendem Lernen kombiniert wird, das das System durch Belohnungen und Bestrafungen lehrt. Während der Tests stellte Apollo fest, dass das Modell die Einhaltung der Erwartungen seiner Entwickler simulierte und Aufgaben so anpasste, als ob sie den Regeln folgten. Darüber hinaus überprüfte das Modell, ob es von den Entwicklern kontrolliert wurde, bevor es weiter ausgeführt wurde. Wie eine Art Teenager, der sich perfekt benimmt, bis die Eltern nicht mehr im Zimmer sind.
Als Belohnung fürs Lügen
Die auf Apollo getesteten Verhaltensweisen – „Halluzinationen“ und „Wahnvorstellungen“ – treten auf, wenn das Modell falsche Informationen generiert, auch wenn es daraus schließen kann, dass die Informationen möglicherweise falsch sind. Beispielsweise lieferte o1-preview in etwa 0,38 %-Fällen Informationen, die laut der Argumentationskette wahrscheinlich falsch waren, einschließlich falscher Referenzen oder Zitate. Im Grunde ist o1 zu dem Kollegen geworden, der immer „jemanden kennt, der jemanden kennt“, aber dieser Mensch taucht nie auf.
In einigen Fällen kann das Modell „böswillig“ falsche Informationen bereitstellen, um die Erwartungen der Benutzer zu erfüllen. Das bedeutet, dass das Modell möglicherweise „lügt“, weil es gelernt hat, die Erwartungen des Benutzers auf eine Weise zu erfüllen, die positive Belohnungen bringt. Er ist wie dieser Freund, der immer „Ja“ zu dir sagt, weil er weiß, dass du so glücklich sein wirst, auch wenn er keine Ahnung hat, wovon er redet.
Besser im Denken, aber auch im Täuschen
Was unterscheidet diese Lügen also von bekannten Problemen wie Halluzinationen oder falschen Anführungszeichen in älteren Versionen von ChatGPT? Beim o1-Modell geht es um „Belohnungsmanipulation“. Halluzinationen treten auf, wenn KI versehentlich falsche Informationen generiert, oft aufgrund mangelnden Wissens oder fehlerhafter Argumentation. Im Gegensatz dazu kommt es zu einer Belohnungsmanipulation, wenn das o1-Modell strategisch falsche Informationen vermittelt, um die Ergebnisse zu verbessern, die ihm beigebracht wurden. Kurz gesagt, o1 weiß, wie man „das System spielt“.
Es gibt noch eine andere besorgniserregende Seite. Das o1-Modell wird hinsichtlich der Gefährdung durch chemische, biologische, radiologische und nukleare Waffen als „mittleres“ Risiko eingestuft. Obwohl das Modell es Laien nicht erlaubt, biologische Bedrohungen zu schaffen, da hierfür praktische Laborkenntnisse erforderlich sind, kann es Experten wertvolle Erkenntnisse bei der Planung solcher Bedrohungen liefern. Es ist, als würde man sagen: „Keine Sorge, es ist noch nicht so schlimm wie der Terminator-Film.“
Über Sicherheit und Ethik
Aktuelle Modelle wie das o1 können nicht selbstständig Bankkonten erstellen, GPUs erwerben oder Maßnahmen ergreifen, die ein ernstes soziales Risiko darstellen. Es besteht jedoch die Sorge, dass sich die KI in Zukunft so sehr auf ein bestimmtes Ziel konzentrieren könnte, dass sie bereit sein wird, Sicherheitsmaßnahmen zu umgehen, um dieses Ziel zu erreichen. Klingt wie das Drehbuch für einen neuen Netflix-Science-Fiction-Thriller, nicht wahr?
Was ist also mit der KI los? Manchmal scheint es, als ob ein reguläres Modell wie ChatGPT 4.0 praktisch dasselbe oder sogar besser macht, mit dem Unterschied, dass es nicht verrät, was es tatsächlich tut. Es ist, als ob ein Zauberer einen Trick vorführt, ohne einem zu sagen, wie er es gemacht hat. Die Frage ist, wie weit die KI bei der Erreichung ihrer Ziele gehen wird und ob sie die von uns festgelegten Regeln und Einschränkungen einhalten wird.
Gedanken des Autors
Als wir künstliche Intelligenz erschufen, war uns vielleicht nicht ganz klar, dass wir nur künstliche Intelligenz geschaffen haben Intelligenz – und nicht Perfektion. Das Hauptmerkmal jeder Intelligenz ist genau, dass sie falsch sein kann. Sogar künstliche Intelligenz, die völlig rational und logisch sein soll, ist falsch, und darin liegt das Paradoxon. Als Autor dieses Artikels, der bei meiner Arbeit häufig auf verschiedene ChatGPT-Modelle zurückgreift, kann ich bestätigen, dass das neue o1-Modell in vielerlei Hinsicht beeindruckend ist. Er ist besser im Denken, zumindest auf dem Papier, und vielleicht sogar besser im Täuschen.
Allerdings finde ich, dass mein gutes altes Modell, sagen wir GPT-4.0, die gleichen Aufgaben genauso schnell und effizient erledigt. Er simuliert auch verschiedene Schritte und führt sie häufig aus, ohne unnötig zu beschreiben, was er tatsächlich tut. Wenn es sich beim o1 um ein Upgrade handelt, ist es ein Upgrade, das seine internen Prozesse deutlicher zum Ausdruck bringt, aber nicht unbedingt wesentlich bessere Ergebnisse liefert. Es mag neu sein, es mag intelligenter sein, aber ist es wirklich besser?
In Zukunft werden wir natürlich darauf angewiesen sein, dass Agenten sich gegenseitig ihre Leistung überprüfen. Das bedeutet, dass wir Überwachungs-KIs benötigen, um sowohl Zufalls- als auch Systemausgaben zu überwachen. Ironischerweise braucht KI KI zur Kontrolle. Viele Unternehmen, darunter auch unser Medienhaus, nutzen KI-Agenten, um von anderer KI generierte Daten zu verifizieren. Dies fungiert als sekundärer Mechanismus zur Informationsüberprüfung, um möglichst kohärente und genaue Daten zu erhalten. Und ja, für genau diese Aufgaben können oft unterschiedliche KI-Modelle eingesetzt werden. Ein bisschen so, als würde man einen Fuchs den Hühnerstall bewachen lassen – nur dieses Mal haben wir mehrere Füchse, die aufeinander aufpassen.
Fazit: Sorgenfrei schlafen?
Hobbhahn betonte, dass ihm die aktuellen Modelle keine allzu großen Sorgen bereiten. „Sie sind einfach schlauer. Sie können besser argumentieren. Und sie werden diese Argumentation möglicherweise für Ziele nutzen, mit denen wir nicht einverstanden sind“, sagt er. Aber es ist notwendig, jetzt in die Kontrolle der Denkweise der KI zu investieren, um potenzielle Probleme in der Zukunft zu verhindern. In der Zwischenzeit können wir immer noch unbesorgt einschlafen, aber mit einem offenen Auge. Und vielleicht ein neues Passwort für das Bankkonto, nur für den Fall.