Umelá inteligencia nás už naučila, ako správne zostaviť životopis, písať e-maily, kresliť mačky v štýle Picassa a riešiť zložité matematické problémy s detskou ľahkosťou. Všetko dobré a dobré. OpenAI však teraz skúša niečo, čo presahuje excelovské tabuľky a esteticky príjemné memy: pomocou OpenAI Jukebox vytvoríte skladbu, ktorú by ľudia skutočne chceli počuť viackrát.
Hoci neexistuje žiadny oficiálny dátum vydania, v technickom undergrounde a výskumných kruhoch koluje rovnaká otázka: je to? OpenAI pripravujete novú verziu Jukeboxu – OpenAI Jukebox 2.0? Ide o experimentálny model umelej inteligencie, ktorý pred rokmi dokázal, že dokáže zložiť pieseň, zaspievať text a dokonca štýlovo napodobniť Eltona Johna, Nirvana alebo kohokoľvek, kto kedy vystupoval na MTV – a to všetko bez jediného ľudského tónu. Teda aspoň nie taký, ktorý by pochádzal zo skutočných hlasiviek.
Teraz niekoľko tipov – vo forme akademických publikácií, potichu aktualizovaných stránok GitHub a „náhodou“ obľúbených tweetov – naznačuje, že sa môže stať nová verzia tohto hudobného zázraku. Možno už čoskoro. Možno koncom apríla. Možno len v lete. Rovnako ako v hudobnom priemysle – vydanie je „TBA“, no publikum už čaká so slúchadlami na ušiach.
OpenAi Jukebox: AI, ktorá dokáže viac než len opakovať C dur
Keď OpenAI prvýkrát predstavil Jukebox, kritici správne zdvihli obočie. Model, ktorý generuje hudbu od nuly, vrátane vokálov, znie ako futuristický scenár, ktorý by vymyslel hudobný producent, ktorý má príliš veľa času a príliš málo umelcov. Jukebox však fungoval. Analýzou viac ako milióna skladieb – vrátane textov, žánrov, interpretov a dokonca aj roku vydania – vytvoril novú formu hudobnej kompozície: takú, ktorá nie je založená na nástrojoch, ale na údajoch.
Model nevytváral noty, ale zvuk. A to priamo v audio formáte, v štúdiovej kvalite záznamu. Počúvali ste skladbu, ktorá nikdy neexistovala, no niekto si ju ľahko pomýli so strateným demom Radiohead z roku 1998.
Ako sa rodí umelá báseň? Pomaly, trpezlivo a s viacerými vrstvami transformátorov
Technicky vzaté, Jukebox funguje tak, že najprv zakóduje surový zvuk do komprimovaného, symbolického jazyka – aproximácie hudobnej DNA. Tento zakódovaný záznam je potom spracovaný tromi úrovňami neurónových sietí, z ktorých každá svojim spôsobom prispieva k melódii, rytmu, vokálom a zvukovej štruktúre. Posledným krokom je spätné dekódovanie – kde AI doslova zloží zvukovú vlnu späť a vytvorí niečo, čo človek môže počuť, ale AI len „predpovedá“.
Celé to funguje ako akési digitálne štúdio, kde producent nikdy nepotrebuje prestávku, spevák nikdy nezakoktá a inšpirácia autora nie je závislá od počasia. Jediný problém: vygenerovanie skladby v jej súčasnej podobe trvá takmer deväť hodín na jednu minútu zvuku. Čo znamená, že Jukebox je teraz viac skladateľom spomalených symfónií ako okamžitým hitmakerom.
Čo naznačujú klebety o novej verzii?
V posledných týždňoch došlo k zvýšenej aktivite medzi vývojármi spojenými s audio divíziou OpenAI. Na GitHub sa objavili denníky záväzkov, v ktorých sa spomínajú optimalizácie modelov. Niekoľko výskumníkov naznačilo v podcastoch (a ešte viac v neformálnych rozhovoroch na X/Twitteri), že sa pracuje na nová architektúra, ktorý má umožniť rýchlejšie generovanie, lepšiu hlasovú artikuláciu, podporu viacerých jazykov a – čo je obzvlášť zaujímavé – lepšie pochopenie štruktúry piesne.
To znamená, že nová verzia by po prvýkrát mohla generovať skladby s jasne definovanými refrénmi, intrami, mostmi a závermi – niečo, čo počujete v skutočnej skladbe, nie v digitálnom náčrte.
Pridajte k tomu fámy o dostupnejšom používateľskom rozhraní a integrácii s inými kreatívnymi nástrojmi (ako sú API pre tvorcov obsahu) a bude jasné: niečo sa varí, a nie je to ďaleko.
AI v hudbe: asistent alebo súťaž?
Nová verzia Jukeboxu opäť otvorí klasickú otázku: nahrádza umelá inteligencia kreativitu alebo ju rozširuje? Kritici povedia, že je to technologická dekontextualizácia umenia – báseň bez duše, emócia bez zážitku. Ale obhajcovia budú nadšení, pretože Jukebox ponúka niečo úplne nové: možnosť vytvárať hudbu ako nápad, nie ako realizáciu.
Predstavte si nezávislého umelca, ktorý by bez štúdiového rozpočtu vytvoril profesionálne znejúcu skladbu v štýle Massive Attack. Alebo nezávislý vývojár, ktorý vytvorí soundtrack pre svoj video projekt s niekoľkými riadkami textu. Alebo študent, ktorý o svojej tlačenici napíše pesničku a vypočuje si ju v štýle Arctic Monkeys.
Toto už nie je sci-fi – toto je Jukebox. Alebo presnejšie: Jukebox, verzia, ktorá ešte neexistuje. Ale všetci vieme, že to príde.
Záver: Niekedy najlepší zvuk vychádza z ticha pred premiérou
Zatiaľ nie je nič oficiálne potvrdené. OpenAI mlčí, no jeho ticho je až podozrivo hlasné. Atmosféra medzi výskumníkmi je podobná ako pri albumoch Kanye Westa – nikto nevie, kedy vyjde, no už všetci píšu recenzie. Ak je Jukebox 2.0 skutočne tým, čo predpovedajú povesti, možno čoskoro budeme počuť skladby, ktoré už nie sú založené na inšpirácii jedného jednotlivca, ale skôr na kolektívnej pamäti miliónov skladieb. A to hlasom, ktorý sme nikdy predtým nepočuli, no znie prekvapivo povedome.
Inými slovami: ak máte pocit, že v dnešnej dobe nie je v hudbe nič nové – buďte ešte trochu trpezliví. Možno sa už vytvára ďalší prístup. Potichu, pomaly, v oblaku. A keď to skončí, nikto to nebude spievať – ale vy budete stále spievať.