Eksplozivna drama u Meti, šokantna transparentnost u OpenAI-ju i razvoj događaja koji nas stavlja na samo nekoliko mjeseci od AGI-ja. Dakle – ovaj tjedan u umjetnoj inteligenciji.
Ako ste propustili vijesti o umjetnoj inteligenciji ovog tjedna, reći ćemo vam samo jednu stvar: Kovnica kleknula je (opet), Claude postaje šef ureda, OpenAI konačno prihvaća open source, a Google razvija svoju viziju umjetnog super pomoćnika koji može montirati video bolje od vas. I ovo nije šala. Ovo je ovaj tjedan u umjetnoj inteligenciji – broj 15.
#15 ovaj tjedan u umjetnoj inteligenciji:
Meta i katastrofa Llame 4
Llama 4 je trebala biti krunski dragulj Metinog razvoja umjetne inteligencije, ali krajnji rezultat je razočaranje. Model koji je predstavljen javnosti nije onaj koji je sudjelovao u benchmarkovima i impresionirao. To je prvi primijetio profesor Ethan Mollick, koji je potvrdio da rezultati modela objavljenog u LLM-areni ne odgovaraju onima koje je postigla javna verzija. (izvor: x.com/ethanmollick)
Na Redditu su se potom pojavile objave bivših zaposlenika Mete koji sada rade u OpenAI-u, otvoreno se distancirajući od Llame 4. Jedan od njih je na svom profilu napisao: "Llama 2 i Llama 3, Llama 4? Nemam ja ništa s tim." (izvor: reddit.com)
Osim toga, pojavile su se informacije da je do internog potresa u Metinom odjelu za umjetnu inteligenciju došlo kada ih je u benchmarkovima prestigao nepoznati i niskobudžetni kineski model, DeepSeek V3. Za tvrtku koja ulaže milijarde u razvoj umjetne inteligencije, to nije mali podvig.
Claude Max i predviđanja o Claude 4
Anthropic je ovog tjedna iznenadio novom uslugom Claude Max – plan pretplate za zahtjevne korisnike koji nudi pet do dvadeset puta veću kvotu interakcije, prioritetni pristup najnovijim modelima i značajkama. (izvor: anthropic.com)
U međuvremenu, Jared Kaplan, glavni znanstvenik u Anthropicu, najavio je da ćemo vidjeti Claude 4 u sljedećih šest mjeseci. Prema njegovim riječima, razvoj AI modela odvija se brže od razvoja hardvera, uglavnom zbog ubrzanog post-treninga i poboljšanja u učenju s pojačanjem. Jedna od suptilnih, ali glavnih vijesti ovog tjedna o umjetnoj inteligenciji.
OpenAI konačno najavljuje model otvorenog koda
Nakon godina kritika zbog nedostatka transparentnosti i distanciranja od svoje izvorne misije, Sam Altman najavio je da će OpenAI uskoro objaviti model otvorenog koda koji će nadmašiti sve postojeće alternative. (izvor: openai.com)
Štoviše, ChatGPT sada ima dugotrajnu memoriju, koja omogućuje korištenje prošlih interakcija za personaliziranje iskustava i omogućuje korisniku da AI aktivno prati njihove ciljeve i vodi ih kroz nekompatibilnosti u misaonim obrascima.
Ali nije sve tako ružičasto: skraćeno sigurnosno testiranje na OpenAI-ju
Financial Times otkrio je da je OpenAI značajno smanjio vrijeme i opseg testiranja sigurnosti svojih modela. Umjesto nekoliko tjedana, sada imaju samo nekoliko dana, što izaziva zabrinutost da bi modeli mogli biti javno objavljeni s neotkrivenim ranjivostima. Bivši inženjer za testiranje rekao je za FT da su opasnosti od GPT-4 otkrivene tek dva mjeseca nakon njegovog objavljivanja. (izvor: ft.com)
Razlog je, kako se navodi, jednostavan - pritisak konkurencije. Tvrtke žure s predstavljanjem novih modela kako ne bi zaostale. I dok su to najmoćniji alati našeg vremena, sigurnost se gura na margine.
DeepCode 14B: open-source konkurent OpenAI-ju
Predstavljeni DeepSeek i Aentica DeepCode 14B, model otvorenog koda za generiranje softverskog koda. Sa samo 14 milijardi parametara postiže rezultate usporedive s komercijalnim modelima GPT-3.5. Istrenirali su ga s više od 24.000 jedinstvenih zadataka i koristili metodu GRPO+ koja model nagrađuje samo za savršeno rješenje. (izvor: github.com/aentica)
BrowseComp: Nova liga za AI agente
OpenAI je predstavio BrowseComp, mjerilo za AI agente koji mogu učinkovito pregledavati web i tražiti složene informacije. Namijenjen je testiranju modela koji moraju pregledavati desetke stranica kako bi došli do relevantnih informacija. (izvor: github.com/openai/simple-evals)
Google vodi igru
Google otkriva planove spajanja Blizanci i Vio modeli – razumijevanje teksta, slike i zvuka uz generiranje videa. Njihov cilj je stvoriti multimodalnog super asistenta koji razumije svijet kao i mi. (izvor: googlecloudnext.com)
Osim toga, Google je predstavio novu generaciju AI čipova TPU Ironwood, koji je 3600 puta snažniji od prve generacije iz 2018. To im omogućuje treniranje većih modela i njihovo brže pokretanje bez ovisnosti o Nvidiji.
Microsoft Copilot postaje ozbiljan konkurent
Microsoftova Ko-pilot Ima redizajnirano sučelje, značajke pretraživanja stanova, pomoć pri pisanju pisama, pa čak i mogućnosti uređivanja slika. Djeluje kao osobni asistent u stvarnom vremenu, s pristupom zaslonu i kontekstu. (izvor: microsoft.com)
Mustafa Suleyman, voditelj Microsoftove umjetne inteligencije, vjeruje da bi AGI mogao biti ovdje u roku od pet godina, iako priznaje da osnovni problemi – poput halucinacija i lošeg praćenja uputa – još nisu riješeni.
Midjourney v7: zapanjujuće slike, ali još uvijek bez teksta
Midjourney je izdao sedmu generaciju svog slikovnog modela koji impresionira hiperrealizmom. No, generiranje teksta je još uvijek u velikom zaostatku, kako sami priznaju – korisnici ga rijetko koriste, pa im nije prioritet. (izvor: midjourney.com)
Neo robot koji radi uživo
Robotska platforma 1X Neo pokazala je da može samostalno obavljati zadatke uživo. Ovo nije samo još jedan PR trik; robot se pomicao, čistio, upravljao bez skripti. Njegov dizajn uključuje umjetne mišiće i mobilnost koja mu omogućuje siguran suživot s ljudima. (izvor: 1x.tech)
AI znanstvenik piše prvi stručni članak
Sakana AI Labs objavila je da je njihov model napisao prvi znanstveni rad koji je prošao recenziju na radionici. AI je formulirao hipotezu, analizirao podatke i izveo zaključke – bez ljudske pomoći. (izvor: sakana.ai)
Zaključak
U samo tjedan dana vidjeli smo kolaps Metine vizije, ubrzanje modela otvorenog koda, opasne trendove u testiranju sigurnosti i novu generaciju multimodalnih agenata. Svijet umjetne inteligencije ne samo da se brzo razvija – on se razvija u smjeru koji se prije samo godinu dana činio kao znanstvena fantastika.
Sljedeći tjedan obećava još više. Ako vam nešto nedostaje, bit ćemo tu. Svaki ponedjeljak.