Explosivt drama på Meta, chockerande transparens på OpenAI och utvecklingar som försatte oss bara månader från AGI. Så – denna vecka i artificiell intelligens.
Om du missade AI-nyheterna den här veckan, låt oss bara berätta en sak för dig: Mynta hon knäböjde (igen), Claude blir chef för kontoret, OpenAI har äntligen anammat öppen källkod, och Google utvecklar sin vision om en artificiell superassistent som kan redigera video bättre än du. Och det här är inget skämt. Detta är denna vecka i artificiell intelligens – nummer 15.
#15 denna vecka inom artificiell intelligens:
Meta och Llama 4-katastrofen
Llama 4 var tänkt att vara kronjuvelen i Metas AI-utveckling, men slutresultatet är en besvikelse. Modellen som presenterades för allmänheten är inte den som deltagit i benchmarks och imponerat. Detta uppmärksammades först av professor Ethan Mollick, som bekräftade att resultaten av modellen publicerad i LLM-arena inte stämmer överens med dem som uppnåtts av den offentliga versionen. (källa: x.com/ethanmollick)
Inlägg dök sedan upp på Reddit från tidigare Meta-anställda som nu arbetar på OpenAI, som öppet tar avstånd från Llama 4. En av dem skrev i sin profil: "Llama 2 och Llama 3, Llama 4? Jag har ingenting med det att göra." (källa: reddit.com)
Dessutom har det framkommit information om att en intern skakning i Metas AI-division utlöstes när de blev omkörda i benchmarks av en okänd och lågbudget kinesisk modell, DeepSeek V3. För ett företag som investerar miljarder i att utveckla artificiell intelligens är detta ingen liten bedrift.
Claude Max och förutsägelser om Claude 4
Anthropic överraskade med en ny tjänst denna vecka Claude Max – en prenumerationsplan för krävande användare, som erbjuder fem till tjugo gånger interaktionskvoten, prioriterad tillgång till de senaste modellerna och funktionerna. (källa: anthropic.com)
Samtidigt meddelade Jared Kaplan, chefsforskare vid Anthropic, att vi kommer att se Claude 4 inom de närmaste sex månaderna. Enligt honom sker utvecklingen av AI-modeller snabbare än utvecklingen av hårdvara, främst på grund av accelererad efterträning och förbättringar av förstärkningsinlärning. En av de subtila men stora nyheterna denna vecka inom artificiell intelligens.
OpenAI tillkännager äntligen öppen källkodsmodell
Efter år av kritik för bristande transparens och avståndstagande från sitt ursprungliga uppdrag meddelade Sam Altman att OpenAI snart kommer att släppa en öppen källkodsmodell som kommer att överträffa alla befintliga alternativ. (källa: openai.com)
Dessutom har ChatGPT nu långtidsminne, vilket gör att tidigare interaktioner kan användas för att personifiera upplevelser, och låter användaren ha AI aktivt spåra sina mål och vägleda dem genom inkompatibiliteter i tankemönster.
Men allt är inte så rosenrött: förkortat säkerhetstest på OpenAI
Ekonomiska tider avslöjade att OpenAI avsevärt har minskat tiden och omfattningen av att testa säkerheten för sina modeller. Istället för flera veckor har de nu bara några dagar, vilket ger upphov till oro för att modeller kan släppas offentligt med oupptäckta sårbarheter. En före detta testingenjör berättade för FT att farorna med GPT-4 upptäcktes bara två månader efter att den släpptes. (källa: ft.com)
Anledningen sägs vara enkel – konkurrenstrycket. Företag skyndar sig att introducera nya modeller för att inte hamna på efterkälken. Och även om det här är de mest kraftfulla verktygen i vår tid, pressas säkerheten till marginalen.
DeepCode 14B: en öppen källkodskonkurrent till OpenAI
DeepSeek och Aentica presenteras DeepCode 14B, en modell med öppen källkod för att generera programvarukod. Med endast 14 miljarder parametrar uppnår den resultat som är jämförbara med kommersiella GPT-3.5-modeller. De tränade den med mer än 24 000 unika uppgifter och använde GRPO+-metoden, som bara belönar modellen för en perfekt lösning. (källa: github.com/aentica)
BrowseComp: Ny liga för AI-agenter
OpenAI har introducerat BläddraComp, ett riktmärke för AI-agenter som effektivt kan surfa på webben och söka efter komplex information. Den är avsedd för att testa modeller som måste bläddra i dussintals sidor för att komma till relevant information. (källa: github.com/openai/simple-evals)
Google leder spelet
Google presenterar fusionsplaner Tvillingarna och Vio modeller – text-, bild- och ljudförståelse med videogenerering. Deras mål är att skapa en multimodal superassistent som förstår världen som vi gör. (källa: googlecloudnext.com)
Dessutom introducerade Google en ny generation AI-chips TPU Ironwood, vilket är 3600 gånger kraftfullare än den första generationen från 2018. Detta gör att de kan träna större modeller och köra dem snabbare utan beroende av Nvidia.
Microsoft Copilot håller på att bli en seriös konkurrent
Microsofts Biträdande pilot Den har ett omdesignat gränssnitt, funktioner för lägenhetssökning, hjälp med att skriva bokstäver och till och med bildredigeringsmöjligheter. Den fungerar som en personlig assistent i realtid, med tillgång till skärmen och sammanhanget. (källa: microsoft.com)
Mustafa Suleyman, chef för Microsoft AI, tror att AGI kan vara här inom fem år, även om han erkänner att grundläggande problem – som hallucinationer och dålig instruktionsföljning – ännu inte har lösts.
Midjourney v7: fantastiska bilder, men fortfarande ingen text
Midjourney har släppt den sjunde generationen av sin bildmodell, som imponerar med hyperrealism. Men textgenereringen ligger fortfarande långt efter, vilket de själva medger – användarna använder det knappt, så det är inte prioriterat. (källa: midjourney.com)
Neo robot arbetar live
Robotisk plattform 1X Neo har visat att hon kan utföra levande uppgifter självständigt. Det här är inte bara ännu ett PR-trick; roboten flyttade, städade, opererade utan manus. Dess design inkluderar konstgjorda muskler och rörlighet som gör att den säkert kan samexistera med människor. (källa: 1x.tech)
AI-forskare skriver första professionella artikeln
Sakana AI Labs tillkännagav att deras modell har skrivit den första vetenskapliga artikeln som har passerat peer review på en workshop. AI:n formulerade en hypotes, analyserade data och drog slutsatser – utan mänsklig hjälp. (källa: sakana.ai)
Slutsats
På bara en vecka såg vi kollapsen av Metas vision, accelerationen av modeller med öppen källkod, farliga trender inom säkerhetstester och en ny generation av multimodala agenter. Världen av artificiell intelligens utvecklas inte bara snabbt – den utvecklas i en riktning som verkade som science fiction för bara ett år sedan.
Nästa vecka lovar ännu mer. Saknar du något så finns vi här. Varje måndag.