Tekoäly on jo opettanut meille, kuinka kirjoittaa oikein ansioluettelo, kirjoittaa sähköposteja, piirtää Picasson tyylisiä kissoja ja ratkaista monimutkaisia matemaattisia tehtäviä lapsenomaisella vaivalla. Kaikki hyvin ja hyvin. Mutta OpenAI yrittää nyt jotain, joka menee Excel-laskentataulukoiden ja esteettisesti miellyttävien meemien ulkopuolelle: OpenAI Jukeboxin avulla luodaan kappale, jonka ihmiset haluaisivat kuulla useammin kuin kerran.
Vaikka virallista julkaisupäivää ei ole, sama kysymys kiertää teknologian undergroundissa ja tutkimuspiireissä: Onko se OpenAI valmistaudutaan uuteen Jukebox-versioon – OpenAI Jukebox 2.0? Tämä on kokeellinen tekoälymalli, joka vuosia sitten osoitti, että se pystyy säveltämään kappaleen, laulamaan sanoituksia ja jopa tyylikkäästi jäljittelemään Elton Johnia, Nirvanaa tai ketään, joka on koskaan esiintynyt MTV:ssä - kaikki ilman ainuttakaan ihmisen nuottia. No, ei ainakaan sellaista, joka tulisi varsinaisista äänihuulta.
Nyt muutama vihje – akateemisten julkaisujen, hiljaa päivittyneiden GitHub-sivujen ja "vahingossa" tykättyjen twiittien muodossa - viittaa siihen, että tästä musiikillisesta ihmeestä saattaa olla tulossa uusi versio. Ehkä pian. Ehkä huhtikuun lopussa. Ehkä vasta kesällä. Aivan kuten musiikkiteollisuudessa – julkaisu on "TBA", mutta yleisö odottaa jo kuulokkeet päässä.
OpenAi Jukebox: tekoäly, joka voi tehdä enemmän kuin vain toistaa C-duuria
Kun OpenAI esitteli Jukeboxin ensimmäisen kerran, kriitikot nostivat oikeutetusti kulmakarvojaan. Malli, joka tuottaa musiikkia tyhjästä, mukaan lukien laulu, kuulostaa futuristiselta skenaariolta, jonka musiikintuottaja, jolla on liian paljon aikaa ja liian vähän artisteja, keksisi. Mutta Jukeboksi toimi. Analysoimalla yli miljoona kappaletta – mukaan lukien sanoitukset, genret, artistit ja jopa julkaisuvuoden – hän loi uuden musiikillisen sävellyksen muodon: sellaisen, joka ei perustu soittimiin, vaan tietoihin.
Malli ei luonut nuotteja, vaan ääntä. Ja tämä suoraan äänimuodossa, studiotallennuslaadulla. Kuuntelit kappaletta, jota ei koskaan ollut olemassa, mutta joku saattoi helposti luulla sen kadonneeksi Radiohead-demoksi vuodelta 1998.
Miten keinotekoinen runo syntyy? Hitaasti, kärsivällisesti ja useilla muuntajakerroksilla
Teknisesti ottaen Jukebox toimii koodaamalla ensin raakaäänen pakatulle, symboliselle kielelle – musiikillisen DNA:n likiarvoksi. Tämän koodatun tallenteen käsittelee sitten kolme tasoa hermoverkkoja, joista jokainen myötävaikuttaa omalla tavallaan melodiaan, rytmiin, lauluun ja äänitekstuuriin. Viimeinen vaihe on käänteinen dekoodaus – jossa tekoäly kirjaimellisesti taittaa ääniaallon takaisin ja luo jotain, jonka ihminen kuulee, mutta tekoäly vain "ennustaa".
Kokonaisuus toimii kuin eräänlainen digistudio, jossa tuottaja ei koskaan tarvitse taukoa, laulaja ei änkytä, eikä tekijän inspiraatio ole riippuvainen säästä. Ainoa ongelma: kappaleen luominen nykyisessä muodossaan kestää lähes yhdeksän tuntia yhdestä minuutista ääntä. Mikä tarkoittaa, että Jukebox on nyt enemmän hidastettujen sinfonioiden säveltäjä kuin välitön hittitekijä.
Mitä huhut uudesta versiosta kertovat?
Viime viikkoina OpenAI:n ääniosastoon liittyvien kehittäjien aktiivisuus on lisääntynyt. GitHubiin on ilmestynyt toimituslokeja, joissa mainitaan mallin optimoinnit. Useat tutkijat ovat vihjailleet podcasteissa (ja varsinkin X/Twitterissä käydyissä epävirallisissa keskusteluissa), että työ on käynnissä uutta arkkitehtuuria, jonka oletetaan mahdollistavan nopeamman sukupolven, paremman laulun artikuloinnin, tuen useille kielille ja – mikä on erityisen mielenkiintoista – paremman kappaleen rakenteen ymmärtämisen.
Tämä tarkoittaa, että uusi versio voisi ensimmäistä kertaa tuottaa kappaleita, joissa on selkeästi määritellyt kertosäkeet, introt, sillat ja lopetukset – jotain, jonka kuulet oikeassa kappaleessa, ei digitaalisessa sketsissä.
Kun tähän lisätään huhut helpommin saavutetusta käyttöliittymästä ja integraatiosta muihin luoviin työkaluihin (kuten sisällöntuottajien sovellusliittymiin), tulee selväksi: jotain keittää, eikä se ole kaukana.
AI musiikissa: assistentti vai kilpailu?
Jukeboxin uusi versio avaa uudelleen klassisen kysymyksen: korvaako tekoäly luovuuden vai laajentaako sitä? Kriitikot sanovat, että se on taiteen teknologinen dekontekstualisointi – runo ilman sielua, tunne ilman kokemusta. Mutta kannattajat ovat innoissaan, sillä Jukebox tarjoaa jotain aivan uutta: kyvyn luoda musiikkia ideana, ei toteutuksena.
Kuvittele riippumaton artisti luomassa ammattimaiselta kuulostavaa Massive Attack -tyylistä kappaletta ilman studiobudjettia. Tai indie-kehittäjä, joka luo ääniraidan videoprojektiinsa muutamalla rivillä tekstiä. Tai opiskelija, joka kirjoittaa kappaleen ihastuksestaan ja kuuntelee sitä Arctic Monkeysin tyyliin.
Tämä ei ole enää tieteiskirjallisuutta – tämä on Jukebox. Tai tarkemmin: Jukebox, versio, jota ei vielä ole olemassa. Mutta me kaikki tiedämme, että se on tulossa.
Johtopäätös: Joskus paras ääni tulee ensi-iltaa edeltävästä hiljaisuudesta
Mitään ei ole vielä virallisesti vahvistettu. OpenAI on hiljaa, mutta sen hiljaisuus on epäilyttävän äänekäs. Tunnelma tutkijoiden keskuudessa on samanlainen kuin Kanye Westin albumeissa – kukaan ei tiedä milloin se julkaistaan, mutta kaikki kirjoittavat jo arvosteluja. Jos Jukebox 2.0 on todellakin se, mitä huhut ennustavat, saatamme pian kuulla kappaleita, jotka eivät enää perustu yksittäisen yksilön inspiraatioon, vaan miljoonien kappaleiden yhteiseen muistiin. Ja tämä äänellä, jota emme ole koskaan ennen kuulleet, mutta kuulostaa yllättävän tutulta.
Toisin sanoen: jos sinusta tuntuu, ettei musiikissa ole nykyään mitään uutta – ole vain kärsivällinen vielä vähän. Ehkä seuraava osuma on jo luotu. Hiljaa, hitaasti, pilvessä. Ja kun se on valmis, kukaan ei laula sitä – mutta sinä laulat silti mukana.