Kunstig intelligens har allerede lært oss hvordan vi skal lage en CV, skrive e-poster, tegne katter i stil med Picasso og løse komplekse matematiske problemer med barnslig letthet. Alt vel og bra. Men OpenAI prøver nå noe som går utover Excel-regneark og estetisk tiltalende memes: å bruke OpenAI Jukebox for å lage en sang som folk faktisk ønsker å høre mer enn én gang.
Selv om det ikke er noen offisiell utgivelsesdato, sirkulerer det samme spørsmålet i teknologiundergrunnen og forskningskretsene: Er det OpenAI forbereder du en ny versjon av Jukebox – OpenAI Jukebox 2.0? Dette er den eksperimentelle kunstige intelligensmodellen som for år siden beviste at den kunne komponere en sang, synge tekstene og til og med stilig etterligne Elton John, Nirvana eller noen som noen gang har opptrådt på MTV – alt uten en eneste menneskelig tone. Vel, i hvert fall ikke den typen som ville komme fra selve stemmebåndene.
Nå antyder noen få hint - i form av akademiske publikasjoner, stille oppdaterte GitHub-sider og "tilfeldigvis" likte tweets - at en ny versjon av dette musikalske vidunderet kan skje. Kanskje snart. Kanskje slutten av april. Kanskje bare om sommeren. Akkurat som i musikkbransjen – utgivelsen er "TBA", men publikum venter allerede med hodetelefonene på.
OpenAi Jukebox: En AI som kan gjøre mer enn bare å gjenta C-dur
Da OpenAI først introduserte Jukebox, hevet kritikere med rette øyenbrynene. En modell som genererer musikk fra bunnen av, inkludert vokal, høres ut som et futuristisk scenario som en musikkprodusent med for mye tid og for få artister ville finne på. Men Jukebox fungerte. Ved å analysere over en million sanger – inkludert tekster, sjangre, artister og til og med utgivelsesåret – skapte han en ny form for musikalsk komposisjon: en som ikke er basert på instrumenter, men på data.
Modellen skapte ikke noter, men lyd. Og dette direkte i lydformat, i studioopptakskvalitet. Du hørte på en sang som aldri har eksistert, men noen kan lett forveksle den med en tapt Radiohead-demo fra 1998.
Hvordan blir et kunstig dikt født? Sakte, tålmodig og med flere lag med transformatorer
Teknisk sett fungerer Jukebox ved først å kode rå lyd til et komprimert, symbolsk språk – en tilnærming av musikalsk DNA. Dette kodede opptaket blir deretter behandlet av tre nivåer av nevrale nettverk, som hver bidrar på sin egen måte til melodien, rytmen, vokalen og lydteksturen. Det siste trinnet er omvendt dekoding – der AI’en bokstavelig talt bretter lydbølgen tilbake og skaper noe som et menneske kan høre, men AI’en bare «forutsier».
Det hele fungerer som et slags digitalt studio, hvor produsenten aldri trenger en pause, sangeren aldri stammer, og forfatterens inspirasjon ikke er væravhengig. Det eneste problemet: å generere en sang i sin nåværende form tar nesten ni timer for et enkelt minutt med lyd. Noe som betyr at nå er Jukebox mer en komponist av saktefilmsymfonier enn en umiddelbar hitmaker.
Hva tyder ryktene om den nye versjonen på?
De siste ukene har det vært økt aktivitet blant utviklere tilknyttet OpenAIs lydavdeling. Commit-logger har dukket opp på GitHub som nevner modelloptimaliseringer. Flere forskere har antydet i podcaster (og enda mer i uformelle samtaler på X/Twitter) at det jobbes med ny arkitektur, som sies å muliggjøre raskere generering, bedre vokalartikulasjon, støtte for flere språk, og – mest interessant – bedre forståelse av sangstrukturen.
Dette betyr at den nye versjonen for første gang kan generere sanger med klart definerte refrenger, introer, broer og avslutninger – noe du hører i en ekte sang, ikke en digital sketsj.
Legg til dette ryktene om et mer tilgjengelig brukergrensesnitt og integrasjon med andre kreative verktøy (som APIer for innholdsskapere), og det blir klart: noe koker, og det er ikke langt unna.
AI i musikk: assistent eller konkurranse?
Den nye versjonen av Jukebox vil gjenåpne det klassiske spørsmålet: erstatter kunstig intelligens kreativitet eller utvider den? Kritikere vil si at det er en teknologisk dekontekstualisering av kunst – et dikt uten sjel, en følelse uten en opplevelse. Men talsmenn vil bli begeistret, fordi Jukebox tilbyr noe helt nytt: muligheten til å lage musikk som en idé, ikke som en utførelse.
Se for deg en uavhengig artist som lager en profesjonelt klingende Massive Attack-sang uten studiobudsjett. Eller en indie-utvikler som genererer et lydspor for videoprosjektet sitt med noen få linjer med tekst. Eller en student som skriver en sang om sin crush og lytter til den i stil med Arctic Monkeys.
Dette er ikke lenger science fiction – dette er Jukebox. Eller mer presist: Jukebox, en versjon som ikke eksisterer ennå. Men vi vet alle at det kommer.
Konklusjon: Noen ganger kommer den beste lyden fra stillheten før premieren
Ingenting er offisielt bekreftet ennå. OpenAI er stille, men stillheten er mistenkelig høy. Atmosfæren blant forskerne ligner på Kanye Wests album – ingen vet når den kommer ut, men alle skriver anmeldelser allerede. Hvis Jukebox 2.0 virkelig er det ryktene spår, kan vi snart høre sanger som ikke lenger er basert på inspirasjonen til et enkelt individ, men snarere på det kollektive minnet til millioner av sanger. Og dette med en stemme vi aldri har hørt før, men den høres overraskende kjent ut.
Med andre ord: hvis du føler at det ikke er noe nytt i musikk i disse dager – bare vær tålmodig litt til. Kanskje det neste treffet allerede genereres. Stille, sakte, i skyen. Og når den er ferdig, vil ingen synge den – men du vil fortsatt synge med.