Kunstig intelligens har allerede lært os, hvordan man korrekt sammensætter et CV, skriver e-mails, tegner katte i stil med Picasso og løser komplekse matematiske problemer med barnlig lethed. Alt godt og vel. Men OpenAI forsøger nu noget, der går ud over Excel-regneark og æstetisk tiltalende memes: at bruge OpenAI Jukebox til at skabe en sang, som folk faktisk gerne vil høre mere end én gang.
Selvom der ikke er nogen officiel udgivelsesdato, cirkulerer det samme spørgsmål i de teknologiske undergrunds- og forskningskredse: Er det OpenAI forbereder du en ny version af Jukebox – OpenAI Jukebox 2.0? Dette er den eksperimentelle kunstige intelligens-model, der for år tilbage beviste, at den kunne komponere en sang, synge teksterne og endda stilfuldt efterligne Elton John, Nirvana eller nogen, der nogensinde har optrådt på MTV - alt sammen uden en eneste menneskelig tone. Nå, i hvert fald ikke den slags, der ville komme fra de faktiske stemmebånd.
Nu tyder et par hints - i form af akademiske publikationer, stille opdaterede GitHub-sider og "ved et uheld" likede tweets - på, at en ny version af dette musikalske vidunder kan ske. Måske snart. Måske i slutningen af april. Måske kun om sommeren. Ligesom i musikbranchen – udgivelsen er "TBA", men publikum venter allerede med høretelefonerne på.
OpenAi Jukebox: En AI, der kan mere end blot at gentage C-dur
Da OpenAI første gang introducerede Jukebox, løftede kritikere med rette øjenbrynene. En model, der genererer musik fra bunden, inklusive vokal, lyder som et futuristisk scenarie, som en musikproducer med for meget tid og for få kunstnere ville finde på. Men Jukeboxen virkede. Ved at analysere over en million sange – inklusive tekster, genrer, kunstnere og endda udgivelsesåret – skabte han en ny form for musikalsk komposition: en, der ikke er baseret på instrumenter, men på data.
Modellen skabte ikke noder, men lyd. Og dette direkte i lydformat, i studieoptagekvalitet. Du lyttede til en sang, der aldrig har eksisteret, men nogen kunne nemt forveksle den med en tabt Radiohead-demo fra 1998.
Hvordan fødes et kunstigt digt? Langsomt, tålmodigt og med flere lag af transformere
Teknisk set fungerer Jukebox ved først at indkode rå lyd til et komprimeret, symbolsk sprog – en tilnærmelse af musikalsk DNA. Denne kodede optagelse behandles derefter af tre niveauer af neurale netværk, der hver på sin egen måde bidrager til melodien, rytmen, vokalen og lydteksturen. Det sidste trin er omvendt afkodning – hvor AI’en bogstaveligt talt folder lydbølgen tilbage og skaber noget, som et menneske kan høre, men AI’en bare “forudsiger”.
Det hele fungerer som et slags digitalt studie, hvor produceren aldrig har brug for en pause, sangeren aldrig stammer, og forfatterens inspiration ikke er afhængig af vejret. Det eneste problem: at generere en sang i dens nuværende form tager næsten ni timer for et enkelt minuts lyd. Hvilket betyder, at Jukebox nu er mere en komponist af slowmotion-symfonier end en øjeblikkelig hitmager.
Hvad antyder rygterne om den nye version?
I de seneste uger har der været øget aktivitet blandt udviklere tilknyttet OpenAIs lyddivision. Commit-logs er dukket op på GitHub og nævner modeloptimeringer. Flere forskere har i podcasts (og endnu mere i uformelle samtaler på X/Twitter) antydet, at der arbejdes på ny arkitektur, som formodes at muliggøre hurtigere generering, bedre vokal artikulation, understøttelse af flere sprog og – hvad der er særligt interessant – bedre forståelse af sangstruktur.
Det betyder, at den nye version for første gang kunne generere sange med klart definerede omkvæd, introer, broer og slutninger – noget du hører i en rigtig sang, ikke en digital sketch.
Tilføj hertil rygterne om en mere tilgængelig brugergrænseflade og integration med andre kreative værktøjer (såsom API'er til indholdsskabere), og det bliver klart: noget er ved at lave mad, og det er ikke langt væk.
AI i musik: assistent eller konkurrence?
Den nye version af Jukebox vil genåbne det klassiske spørgsmål: erstatter kunstig intelligens kreativitet eller udvider den? Kritikere vil sige, at det er en teknologisk dekontekstualisering af kunst – et digt uden en sjæl, en følelse uden en oplevelse. Men fortalere vil være begejstrede, for Jukebox byder på noget helt nyt: evnen til at skabe musik som en idé, ikke som en udførelse.
Forestil dig en uafhængig kunstner, der laver en professionel klingende Massive Attack-sang uden studiebudget. Eller en indie-udvikler, der genererer et soundtrack til deres videoprojekt med et par linjer tekst. Eller en elev, der skriver en sang om deres crush og lytter til den i stil med Arctic Monkeys.
Dette er ikke længere science fiction - dette er Jukebox. Eller mere præcist: Jukebox, en version der ikke eksisterer endnu. Men vi ved alle, at det kommer.
Konklusion: Nogle gange kommer den bedste lyd fra stilheden før premieren
Intet er officielt bekræftet endnu. OpenAI er tavs, men dens tavshed er mistænkeligt høj. Stemningen blandt forskerne ligner den på Kanye Wests albums – ingen ved, hvornår den udkommer, men alle skriver allerede anmeldelser. Hvis Jukebox 2.0 virkelig er, hvad rygterne forudsiger, kan vi snart høre sange, der ikke længere er baseret på inspiration fra et enkelt individ, men snarere på den kollektive hukommelse af millioner af sange. Og dette med en stemme, vi aldrig har hørt før, men den lyder overraskende velkendt.
Med andre ord: hvis du føler, at der ikke er noget nyt i musikken i disse dage - så vær bare tålmodig lidt endnu. Måske er det næste hit allerede ved at blive genereret. Stille, langsomt, i skyen. Og når den er færdig, er der ingen, der synger den – men du vil stadig synge med.