fbpx

OpenAI Jukebox 2.0: Kommer artificiell intelligens äntligen att få sin egen musikkarriär?

Om ChatGPT skriver uppsatser och DALL-E ritar bilder, vem säger att AI inte kan sjunga också?

Foto: Jan Macarol / Ai art

Artificiell intelligens har redan lärt oss hur man korrekt komponerar ett CV, skriver e-postmeddelanden, ritar katter i stil med Picasso och löser komplexa matematiska problem med barnslig lätthet. Allt gott och väl. Men OpenAI försöker nu något som går utöver Excel-kalkylblad och estetiskt tilltalande memes: att använda OpenAI Jukebox för att skapa en låt som folk faktiskt skulle vilja höra mer än en gång.

Även om det inte finns något officiellt releasedatum, cirkulerar samma fråga i tekniska underjordiska och forskningscirklar: Är det OpenAI förbereder du för en ny version av Jukebox – OpenAI Jukebox 2.0? Detta är den experimentella artificiella intelligensmodellen som för flera år sedan bevisade att den kunde komponera en låt, sjunga texten och till och med stilfullt imitera Elton John, Nirvana eller någon som någonsin har uppträtt på MTV - allt utan en enda mänsklig ton. Tja, åtminstone inte den sorten som skulle komma från själva stämbanden.

Nu tyder några tips – i form av akademiska publikationer, tyst uppdaterade GitHub-sidor och "av misstag" gillade tweets – att en ny version av detta musikaliska underverk kan hända. Kanske snart. Kanske i slutet av april. Kanske bara på sommaren. Precis som i musikbranschen – släppet är "TBA", men publiken väntar redan med hörlurarna på.

OpenAi Jukebox: En AI som kan göra mer än att bara upprepa C-dur

När OpenAI först introducerade Jukebox höjde kritikerna med rätta på ögonbrynen. En modell som genererar musik från grunden, inklusive sång, låter som ett futuristiskt scenario som en musikproducent med för mycket tid och för få artister skulle komma på. Men Jukeboxen fungerade. Genom att analysera över en miljon låtar – inklusive texter, genrer, artister och till och med släppåret – skapade han en ny form av musikalisk komposition: en som inte är baserad på instrument utan på data.

Modellen skapade inte toner, utan ljud. Och detta direkt i ljudformat, i studioinspelningskvalitet. Du lyssnade på en låt som aldrig funnits, men någon kan lätt missta den för en förlorad Radiohead-demo från 1998.

Foto: Jan Macarol / OpenAi

Hur föds en konstgjord dikt? Långsamt, tålmodigt och med flera lager av transformatorer

Tekniskt sett fungerar Jukebox genom att först koda råljud till ett komprimerat, symboliskt språk – en approximation av musikaliskt DNA. Denna kodade inspelning bearbetas sedan av tre nivåer av neurala nätverk, som var och en på sitt sätt bidrar till melodin, rytmen, sången och ljudstrukturen. Det sista steget är omvänd avkodning – där AI:n bokstavligen viker tillbaka ljudvågen och skapar något som en människa kan höra, men AI:n bara "förutsäger".

Det hela fungerar som en slags digital studio, där producenten aldrig behöver en paus, sångaren aldrig stammar, och författarens inspiration inte är väderberoende. Det enda problemet: att generera en låt i dess nuvarande form tar nästan nio timmar för en enda minuts ljud. Vilket betyder att Jukebox nu är mer av en kompositör av slowmotionsymfonier än en omedelbar hitmakare.

Vad tyder ryktena om den nya versionen på?

De senaste veckorna har det varit ökad aktivitet bland utvecklare kopplade till OpenAI:s ljuddivision. Commit-loggar har dykt upp på GitHub och nämner modelloptimeringar. Flera forskare har antytt i poddar (och ännu mer i informella samtal på X/Twitter) att det pågår arbete med ny arkitektur, vilket är tänkt att möjliggöra snabbare generering, bättre vokal artikulation, stöd för flera språk och – vad som är särskilt intressant – bättre förståelse för sångstruktur.

Det betyder att den nya versionen för första gången kan generera låtar med tydligt definierade refränger, intron, bryggor och avslutningar – något du hör i en riktig låt, inte en digital sketch.

Lägg till detta ryktena om ett mer tillgängligt användargränssnitt och integration med andra kreativa verktyg (som API:er för innehållsskapare), så blir det tydligt: något håller på att lagas, och det är inte långt borta.

OpenAI Jukebox
Foto: Jan Macarol / OpenAi

AI i musik: assistent eller tävling?

Den nya versionen av Jukebox kommer att återuppta den klassiska frågan: ersätter artificiell intelligens kreativitet eller utökar den? Kritiker kommer att säga att det är en teknologisk dekontextualisering av konst – en dikt utan själ, en känsla utan upplevelse. Men förespråkarna kommer att bli glada, eftersom Jukebox erbjuder något helt nytt: förmågan att skapa musik som en idé, inte som en utförande.

Föreställ dig en oberoende artist som skapar en professionell låt i Massive Attack-stil utan studiobudget. Eller en indieutvecklare som skapar ett soundtrack till sitt videoprojekt med några rader text. Eller en elev som skriver en låt om sin crush och lyssnar på den i stil med Arctic Monkeys.

Det här är inte längre science fiction – det här är Jukebox. Eller mer exakt: Jukebox, en version som inte finns ännu. Men vi vet alla att det kommer.


Slutsats: Ibland kommer det bästa ljudet från tystnaden innan premiären

Inget är officiellt bekräftat ännu. OpenAI är tyst, men tystnaden är misstänkt hög. Atmosfären bland forskarna liknar den på Kanye Wests album – ingen vet när den släpps, men alla skriver redan recensioner. Om Jukebox 2.0 verkligen är vad ryktena förutspår, kan vi snart höra låtar som inte längre är baserade på inspiration från en enda individ, utan snarare på det kollektiva minnet av miljontals låtar. Och det här med en röst vi aldrig hört förut, men den låter förvånansvärt bekant.


Med andra ord: om du känner att det inte finns något nytt i musik nuförtiden – ha tålamod lite till. Kanske genereras nästa träff redan. Tyst, långsamt, i molnet. Och när den är klar kommer ingen att sjunga den – men du kommer fortfarande att sjunga med.

Med dig sedan 2004

Från år 2004 vi undersöker urbana trender och informerar vår community av följare dagligen om det senaste inom livsstil, resor, stil och produkter som inspirerar med passion. Från 2023 erbjuder vi innehåll på stora globala språk.