Explosives Drama bei Meta, schockierende Transparenz bei OpenAI und Entwicklungen, die uns nur noch wenige Monate von der AGI entfernt bringen. Also – diese Woche künstliche Intelligenz.
Wenn Sie die KI-Neuigkeiten dieser Woche verpasst haben, lassen Sie uns Ihnen nur eines sagen: Minze sie kniete (wieder) nieder, Claude wird Chef des Büros, OpenAI setzt endlich auf Open Source und Google entwickelt seine Vision eines künstlichen Superassistenten, der Videos besser bearbeiten kann als Sie. Und das ist kein Witz. Dies ist diese Woche in künstlicher Intelligenz – Ausgabe 15.
#15 diese Woche in künstlicher Intelligenz:
Meta und die Llama 4-Katastrophe
Llama 4 sollte das Kronjuwel der KI-Entwicklung von Meta werden, aber das Endergebnis ist eine Enttäuschung. Das der Öffentlichkeit vorgestellte Modell ist nicht dasjenige, das an Benchmarks teilgenommen und beeindruckt hat. Dies wurde zuerst von Professor Ethan Mollick bemerkt, der bestätigte, dass die Ergebnisse des in LLM-Arena veröffentlichten Modells nicht mit denen der öffentlichen Version übereinstimmten. (Quelle: x.com/ethanmollick)
Daraufhin erschienen auf Reddit Beiträge ehemaliger Meta-Mitarbeiter, die heute bei OpenAI arbeiten, die sich offen von Llama 4 distanzierten. Einer von ihnen schrieb in seinem Profil: „Llama 2 und Llama 3, Llama 4? Damit habe ich nichts zu tun.“ (Quelle: reddit.com)
Darüber hinaus sind Informationen aufgetaucht, dass eine interne Umstrukturierung in der KI-Abteilung von Meta ausgelöst wurde, als sie bei Benchmarks von einem unbekannten chinesischen Low-Budget-Modell, dem DeepSeek V3, überholt wurde. Für ein Unternehmen, das Milliarden in die Entwicklung künstlicher Intelligenz investiert, ist dies keine Kleinigkeit.
Claude Max und Vorhersagen über Claude 4
Anthropic überraschte diese Woche mit einem neuen Service Claude Max – ein Abonnementplan für anspruchsvolle Benutzer, der das fünf- bis zwanzigfache Interaktionskontingent sowie vorrangigen Zugriff auf die neuesten Modelle und Funktionen bietet. (Quelle: anthropic.com)
Unterdessen gab Jared Kaplan, Chefwissenschaftler bei Anthropic, bekannt, dass wir Claude 4 innerhalb der nächsten sechs Monate sehen werden. Ihm zufolge verläuft die Entwicklung von KI-Modellen schneller als die Entwicklung von Hardware, was hauptsächlich auf beschleunigtes Nachtraining und Verbesserungen beim bestärkenden Lernen zurückzuführen ist. Eine der subtilen, aber wichtigen Nachrichten dieser Woche zum Thema künstliche Intelligenz.
OpenAI kündigt endlich Open-Source-Modell an
Nach Jahren der Kritik wegen mangelnder Transparenz und der Distanzierung von seiner ursprünglichen Mission kündigte Sam Altman an, dass OpenAI bald ein Open-Source-Modell veröffentlichen werde, das alle bestehenden Alternativen übertreffen werde. (Quelle: openai.com)
Darüber hinaus verfügt ChatGPT jetzt über ein Langzeitgedächtnis, das die Nutzung vergangener Interaktionen zur Personalisierung von Erlebnissen ermöglicht und es dem Benutzer ermöglicht, seine Ziele mithilfe der KI aktiv verfolgen und ihn durch Inkompatibilitäten in Denkmustern führen zu lassen.
Aber nicht alles ist so rosig: verkürzte Sicherheitstests bei OpenAI
Finanzzeiten ergab, dass OpenAI den Zeit- und Umfang der Sicherheitstests seiner Modelle erheblich reduziert hat. Statt mehrerer Wochen stehen ihnen nun nur noch wenige Tage zur Verfügung. Dies weckt die Sorge, dass Modelle mit unentdeckten Schwachstellen öffentlich gemacht werden könnten. Ein ehemaliger Testingenieur sagte der FT, dass die Gefahren von GPT-4 bereits zwei Monate nach seiner Veröffentlichung entdeckt wurden. (Quelle: ft.com)
Der Grund dafür soll einfach sein: Wettbewerbsdruck. Um nicht ins Hintertreffen zu geraten, beeilen sich die Unternehmen, neue Modelle auf den Markt zu bringen. Und obwohl es sich hierbei um die mächtigsten Werkzeuge unserer Zeit handelt, wird die Sicherheit zunehmend an den Rand gedrängt.
DeepCode 14B: ein Open-Source-Konkurrent zu OpenAI
DeepSeek und Aentica präsentierten DeepCode 14B, ein Open-Source-Modell zum Generieren von Softwarecode. Mit nur 14 Milliarden Parametern erzielt es Ergebnisse, die mit kommerziellen GPT-3.5-Modellen vergleichbar sind. Sie trainierten es mit mehr als 24.000 einzigartigen Aufgaben und verwendeten die GRPO+-Methode, die das Modell nur für eine perfekte Lösung belohnt. (Quelle: github.com/aentica)
BrowseComp: Neue Liga für KI-Agenten
OpenAI hat eingeführt BrowseComp, ein Maßstab für KI-Agenten, die effizient im Internet surfen und nach komplexen Informationen suchen können. Es ist zum Testen von Modellen gedacht, bei denen Dutzende von Seiten durchsucht werden müssen, um an die relevanten Informationen zu gelangen. (Quelle: github.com/openai/simple-evals)
Google ist führend
Google enthüllt Fusionspläne Zwillinge und Vio Modelle – Text-, Bild- und Audioverständnis mit Videogenerierung. Ihr Ziel ist es, einen multimodalen Superassistenten zu entwickeln, der die Welt so versteht wie wir. (Quelle: googlecloudnext.com)
Darüber hinaus stellte Google eine neue Generation von KI-Chips vor TPU Eisenholz, die 3600-mal leistungsstärker ist als die erste Generation aus dem Jahr 2018. Dadurch können sie größere Modelle trainieren und schneller ausführen, ohne von Nvidia abhängig zu sein.
Microsoft Copilot entwickelt sich zum ernstzunehmenden Konkurrenten
Microsofts Kopilot Es verfügt über eine neu gestaltete Benutzeroberfläche, Funktionen zur Wohnungssuche, Hilfe beim Briefeschreiben und sogar Funktionen zur Bildbearbeitung. Es fungiert als persönlicher Assistent in Echtzeit mit Zugriff auf Bildschirm und Kontext. (Quelle: microsoft.com)
Mustafa Suleyman, Leiter von Microsoft AI, glaubt, dass AGI innerhalb von fünf Jahren verfügbar sein könnte, räumt jedoch ein, dass grundlegende Probleme – wie Halluzinationen und mangelndes Befolgen von Anweisungen – noch nicht gelöst sind.
Midjourney v7: atemberaubende Bilder, aber immer noch kein Text
Midjourney hat die siebte Generation seines Imaging-Modells herausgebracht, das mit Hyperrealismus beeindruckt. Allerdings hinkt die Textgenerierung, wie sie selbst zugeben, noch weit hinterher – sie wird von den Nutzern kaum genutzt und hat daher keine Priorität. (Quelle: midjourney.com)
Neo-Roboter im Live-Betrieb
Roboterplattform 1X Neo hat gezeigt, dass sie Live-Aufgaben selbstständig durchführen kann. Dies ist nicht nur ein weiterer PR-Stunt; Der Roboter bewegte, reinigte und bediente sich ohne Skripte. Sein Design umfasst künstliche Muskeln und Mobilität, die ihm ein sicheres Zusammenleben mit Menschen ermöglichen. (Quelle: 1x.tech)
KI-Wissenschaftler schreibt ersten Fachartikel
Sakana AI Labs gab bekannt, dass für ihr Modell die erste wissenschaftliche Abhandlung verfasst wurde, die das Peer-Review-Verfahren bei einem Workshop bestanden hat. Die KI formulierte eine Hypothese, analysierte die Daten und zog Schlussfolgerungen – ohne menschliches Zutun. (Quelle: sakana.ai)
Abschluss
In nur einer Woche erlebten wir den Zusammenbruch der Vision von Meta, die Beschleunigung von Open-Source-Modellen, gefährliche Trends bei Sicherheitstests und eine neue Generation multimodaler Agenten. Die Welt der künstlichen Intelligenz entwickelt sich nicht nur rasant – sie entwickelt sich in eine Richtung, die noch vor einem Jahr wie Science-Fiction erschien.
Die nächste Woche verspricht noch mehr. Wenn Sie etwas verpassen, sind wir für Sie da. Jeden Montag.