OpenAI Jukebox 2.0: bo umetna inteligenca končno dobila svojo glasbeno kariero

Umetna inteligenca nas je že naučila, kako pravilno zložiti življenjepis, pisati mejle, risati mačke v stilu Picassa in reševati kompleksne matematične naloge z otroško lahkoto. Vse lepo in prav. A OpenAI zdaj poskuša nekaj, kar presega Excel tabele in estetsko dovršene meme: z OpenAI Jukebox ustvariti pesem, ki bi si jo človek dejansko želel slišati več kot enkrat.

Čeprav uradnega datuma izida ni, se v tehnološkem podzemlju in raziskovalnih krogih širi isto vprašanje: Ali se OpenAI pripravlja na novo verzijo Jukeboxa – OpenAI Jukebox 2.0? To je tisti eksperimentalni model umetne inteligence, ki je že pred leti dokazal, da zna sestaviti pesem, zapeti besedilo in celo stilno oponašati Eltona Johna, Nirvano ali kogarkoli, ki je kdaj nastopil na MTV – in to vse brez ene same človeške note. No, vsaj ne takšne, ki bi prišla iz dejanskega glasilk.

Zdaj pa nekaj namigov – v obliki akademskih objav, tiho posodobljenih GitHub strani in “nenamerno” všečkanih tvitov – nakazuje, da bi se utegnila zgoditi nova različica tega glasbenega čuda. Morda kmalu. Morda konec aprila. Morda pa šele poleti. Točno tako, kot v glasbeni industriji – izid je »TBA«, a občinstvo že čaka z vklopljenimi slušalkami.

OpenAi Jukebox: AI, ki zna več kot le ponavljati C-dur

Ko je OpenAI prvič predstavil Jukebox, so kritiki upravičeno vihali obrvi. Model, ki generira glasbo kar iz nič, vključno z vokali, zveni kot futuristični scenarij, ki bi si ga izmislil glasbeni producent s preveč časa in premalo izvajalcev. A Jukebox je deloval. Z analizo več kot milijona pesmi – vključno z besedili, žanri, izvajalci in celo letnico izida – je ustvaril novo obliko glasbene kompozicije: takšno, ki ne temelji na instrumentih, temveč na podatkih.

Model ni ustvarjal not, temveč zvok. In to neposredno v avdio formatu, v kakovosti studijskega posnetka. Poslušal si pesem, ki je ni nikoli bilo, a bi jo nekdo zlahka zamenjal za izgubljeni demo Radioheadov iz leta 1998.

Kako se rodi umetna pesem? Počasi, potrpežljivo in z več plastmi transformatorjev

Tehnično gledano Jukebox deluje tako, da surov zvok najprej kodira v stisnjen, simboličen jezik – približek glasbenega DNK. Nato ta kodirani zapis obdelajo trije nivoji nevronskih mrež, ki vsak na svoj način prispevajo k melodiji, ritmu, vokalom in zvočni teksturi. Zadnji korak je povratno dekodiranje – kjer umetna inteligenca dobesedno zloži nazaj zvočni val in ustvari nekaj, kar človek lahko sliši, AI pa samo »predvidi«.

Vse skupaj deluje kot nekakšen digitalni studio, kjer producent nikoli ne potrebuje premora, pevec nikoli ne zašepa, in avtorski navdih ni odvisen od vremenskih vplivov. Edina težava: generiranje pesmi v trenutni obliki traja skoraj devet ur za eno samo minuto zvoka. Kar pomeni, da je zdaj Jukebox bolj skladatelj simfonij v počasnem posnetku kot instantni hitmaker.

Kaj nakazujejo govorice o novi različici?

V zadnjih tednih je bilo opaziti povečano aktivnost med razvijalci, povezanimi z avdio oddelkom OpenAI. Na GitHubu so se pojavili “commit logi”, ki omenjajo optimizacije modela. Več raziskovalcev je v podcastih (in še bolj v neformalnih pogovorih na X/Twitterju) namignilo, da se dela na novi arhitekturi, ki naj bi omogočila hitrejše generiranje, boljšo artikulacijo vokalov, podporo več jezikom in – kar je še posebej zanimivo – boljšo razumevanje strukture pesmi.

To pomeni, da bi nova verzija morda prvič generirala skladbe z jasno začrtanimi refreni, uvodi, mostovi in zaključki – torej nekaj, kar slišiš v resnični pesmi, ne pa v digitalni skici.

Preveri tudi

Umetna inteligenca

OpenAI omogoča brezplačne klice z AI: Kaj prinaša 1-800-CHATGPT?

Če k temu dodamo še govorice o bolj dostopnem uporabniškem vmesniku in integraciji z drugimi ustvarjalnimi orodji (denimo z API-ji za ustvarjalce vsebin), potem postaja jasno: nekaj se kuha, in ni več daleč.

OpenAI Jukebox — Foto: Jan Macarol / OpenAi

AI v glasbi: pomočnik ali konkurenca?

Nova verzija Jukeboxa bo znova odprla klasično vprašanje: ali umetna inteligenca nadomešča ustvarjalnost ali jo razširja? Kritiki bodo rekli, da gre za tehnološko dekontekstualizacijo umetnosti – pesem brez duše, čustvo brez izkušnje. Zagovorniki pa bodo navdušeni, saj Jukebox ponuja nekaj povsem novega: možnost, da glasbo ustvarjaš kot idejo, ne kot izvedbo.

Predstavljajte si neodvisnega umetnika, ki brez studijskega budžeta ustvari profesionalno zvenečo pesem v stilu Massive Attack. Ali indie razvijalca, ki z nekaj vrsticami besedila generira zvočno kuliso za svoj video projekt. Ali učenca, ki napiše pesem o svoji simpatiji in jo posluša v stilu Arctic Monkeys.

To ni več znanstvena fantastika – to je Jukebox. Ali še natančneje: Jukebox, različica, ki je še ni. A vsi vemo, da prihaja.

Zaključek: Včasih najboljši zvok pride iz tišine pred premiero

Uradno še ni potrjeno nič. OpenAI molči, a molči sumljivo glasno. Vzdušje med raziskovalci je podobno kot pri albumih Kanyeja Westa – nihče ne ve, kdaj bo izšel, a vsi že pišejo recenzije. Če bo Jukebox 2.0 res to, kar napovedujejo govorice, bomo morda kmalu slišali skladbe, ki ne temeljijo več na navdihu enega posameznika, temveč na kolektivnem spominu milijonov pesmi. In to z glasom, ki ga nikoli nismo slišali, a zveni presenetljivo znano.

Oglej si posnetek na YouTube

Z drugimi besedami: če imate občutek, da danes v glasbi ni več nič novega – potrpite še malo. Morda se naslednji hit že generira. Tiho, počasi, v oblaku. In ko bo končan, ga ne bo zapel nihče – a boste vseeno peli zraven.