Eksplozivna drama pri Meti, šokantna transparentnost pri OpenAI ter razvoj, ki nas loči od AGI-ja le še nekaj mesecev. Torej - ta teden v umetni inteligenci.
Če si ta teden zamudil AI novice, naj ti povemo samo eno: Meta je (spet) pokleknila, Claude postaja šef pisarne, OpenAI končno objema odprtokodnost, Google pa razvija svojo vizijo umetnega superasistenta, ki zna montirati video boljše kot ti. In to ni šala. to je ta teden v umetni inteligenci – številka 15.
#15 ta teden v umetni inteligenci:
Meta in katastrofa Llama 4
Llama 4 naj bi bila krona Metinega AI razvoja, a končni rezultat je razočaranje. Model, ki je bil predstavljen javnosti, ni tisti, ki je sodeloval v benchmarkih in navdušil. To je prvi opazil profesor Ethan Mollick, ki je potrdil, da rezultati modela, objavljenega v LLM-areni, ne ustrezajo tistim, ki jih dosega javna različica. (vir: x.com/ethanmollick)
Na Redditu so se nato pojavile objave bivših zaposlenih pri Meti, ki zdaj delajo pri OpenAI, kjer se odkrito distancirajo od Llama 4. Eden izmed njih je v svojem profilu zapisal: “Llama 2 in Llama 3, Llama 4? Nimam nič s tem.” (vir: reddit.com)
Poleg tega se je pojavila informacija, da naj bi bil interni preobrat v Metini AI diviziji sprožen, ko jih je na benchmarkih prehitel neznani in nizkoproračunski kitajski model DeepSeek V3. Za podjetje, ki vlaga milijarde v razvoj umetne inteligence, to ni majhna stvar.
Claude Max in napovedi o Claude 4
Anthropic je ta teden presenetil z novo storitvijo Claude Max – naročniškim načrtom za zahtevne uporabnike, ki ponuja pet- do dvajsetkrat večjo kvoto interakcij, prednostni dostop do najnovejših modelov in funkcij. (vir: anthropic.com)
Ob tem je Jared Kaplan, glavni znanstvenik pri Anthropicu, napovedal, da bomo Claude 4 dočakali že v naslednjih šestih mesecih. Po njegovih besedah se razvoj AI modelov odvija hitreje kot razvoj strojne opreme, predvsem zaradi pospešenega post-treninga in izboljšav v reinforcement learningu. Ena subtilnih a glavnih novic – ta teden v umetni inteligenci.
OpenAI končno napoveduje odprtokodni model
Po letih kritik glede netransparentnosti in oddaljevanja od svoje prvotne misije, je Sam Altman napovedal, da bo OpenAI v kratkem objavil odprtokodni model, ki bo presegel vse obstoječe alternative. (vir: openai.com)
Še več, ChatGPT zdaj razpolaga z dolgoročnim spominom, ki omogoča uporabo preteklih interakcij za personalizacijo izkušenj, in uporabniku omogoča, da AI aktivno sledi njegovim ciljem ter ga usmerja pri nezdružljivostih v miselnih vzorcih.
A vse ni tako lepo: skrajšano testiranje varnosti pri OpenAI
Financial Times je razkril, da je OpenAI bistveno skrajšal čas in obseg testiranja varnosti svojih modelov. Namesto več tednov imajo zdaj le nekaj dni, kar vzbuja zaskrbljenost, da so modeli lahko javno objavljeni z neodkritimi ranljivostmi. Nekdanji testni inženir je za FT povedal, da so nevarnosti pri GPT-4 odkrili šele dva meseca po izidu. (vir: ft.com)
Razlog naj bi bil preprost – konkurenčni pritisk. Podjetja hitijo s predstavitvami novih modelov, da ne bi zaostala. In čeprav so to najmočnejša orodja našega časa, se varnost potiska na rob.
DeepCode 14B: odprtokodni konkurent OpenAI-ju
DeepSeek in Aentica sta predstavila DeepCode 14B, odprtokodni model za generiranje programske kode. Z le 14 milijardami parametrov dosega rezultate, primerljive s komercialnimi modeli GPT-3.5. Trenirali so ga z več kot 24.000 unikatnimi nalogami in uporabili metodo GRPO+, ki model nagrajuje le za popolno rešitev. (vir: github.com/aentica)
BrowseComp: nova liga za AI agente
OpenAI je predstavil BrowseComp, benchmark za AI agente, ki znajo učinkovito brskati po spletu in iskati zapletene informacije. Namenjen je preizkušanju modelov, ki morajo prebrskati več deset strani, da pridejo do ustrezne informacije. (vir: github.com/openai/simple-evals)
Google vodi igro
Google je predstavil načrte za združitev Gemini in Vio modelov – tekstualno, slikovno in avdio razumevanje z video-generacijo. Njihov cilj je ustvariti multimodalnega superasistenta, ki razume svet kot mi. (vir: googlecloudnext.com)
Poleg tega je Google predstavil novo generacijo AI čipov TPU Ironwood, ki je kar 3600-krat zmogljivejši od prve generacije iz leta 2018. S tem lahko trenirajo večje modele in jih tudi hitreje poganjajo brez odvisnosti od Nvidie.
Microsoft Copilot postaja resen tekmec
Microsoftov Copilot je dobil prenovljen vmesnik, funkcije za iskanje stanovanj, pomoč pri pisanju dopisov, in celo možnosti za obdelavo slik. Deluje kot osebni pomočnik v realnem času, z dostopom do zaslona in konteksta. (vir: microsoft.com)
Mustafa Suleyman, vodja Microsoft AI, meni, da je AGI lahko tukaj že v petih letih, čeprav priznava, da osnovne težave – kot so halucinacije in slabo sledenje navodilom – še niso rešene.
Midjourney v7: osupljive slike, a še vedno brez besedila
Midjourney je izdal sedmo generacijo svojega slikovnega modela, ki navdušuje s hiperrealizmom. Vendar pa generacija besedila še vedno močno zaostaja, kar priznavajo tudi sami – uporabniki tega skoraj ne uporabljajo, zato ni prioriteta. (vir: midjourney.com)
Neo robot, ki dela v živo
Robotska platforma 1X Neo je pokazala, da zmore samostojno opravljati naloge v živo. To ni le še en PR posnetek; robot je gibal, čistil, deloval brez skript. Njegov dizajn vključuje umetne mišice in gibljivost, ki omogoča varno sobivanje z ljudmi. (vir: 1x.tech)
AI znanstvenik napisal prvi strokovni članek
Sakana AI Labs so objavili, da je njihov model prvič napisal znanstveni članek, ki je prestal strokovno recenzijo na delavnici. AI je zasnoval hipotezo, analiziral podatke in pripravil zaključke – brez človeške pomoči. (vir: sakana.ai)
Zaključek
V samo enem tednu smo videli razpad Metine vizije, pospešek odprtokodnih modelov, nevarne trende pri varnostnem testiranju in novo generacijo multimodalnih agentov. Svet umetne inteligence se ne samo hitro razvija – razvija se v smeri, ki je še pred enim letom delovala kot znanstvena fantastika.
Naslednji teden obljublja še več. Če boš kaj zamudil, bomo tukaj. Vsak ponedeljek.