OpenAI Jukebox 2.0: Získá umělá inteligence konečně svou vlastní hudební kariéru? Magazín města

Umělá inteligence nás již naučila, jak správně sestavit životopis, psát e-maily, kreslit kočky ve stylu Picassa a řešit složité matematické problémy s dětskou lehkostí. Všechno dobré a dobré. OpenAI však nyní zkouší něco, co přesahuje excelovské tabulky a esteticky příjemné memy: pomocí OpenAI Jukebox vytvořit skladbu, kterou by lidé skutečně chtěli slyšet více než jednou.

Ačkoli neexistuje žádné oficiální datum vydání, stejná otázka koluje v kruzích technologického undergroundu a výzkumu: je to? OpenAI připravujete se na novou verzi Jukeboxu – OpenAI Jukebox 2.0? Jedná se o experimentální model umělé inteligence, který před lety dokázal, že dokáže složit píseň, zazpívat text a dokonce stylově napodobit Eltona Johna, Nirvanu nebo kohokoli, kdo kdy vystupoval na MTV – a to vše bez jediné lidské noty. Tedy alespoň ne takový, který by pocházel ze skutečných hlasivek.

Nyní několik náznaků – v podobě akademických publikací, potichu aktualizovaných stránek GitHubu a „náhodou“ oblíbených tweetů – naznačuje, že se možná chystá nová verze tohoto hudebního zázraku. Možná brzy. Možná koncem dubna. Snad jen v létě. Stejně jako v hudebním průmyslu – vydání je „TBA“, ale publikum už čeká se sluchátky na uších.

OpenAi Jukebox: AI, která umí víc než jen opakovat C dur

Když OpenAI poprvé představil Jukebox, kritici právem zvedli obočí. Model, který generuje hudbu od nuly, včetně vokálů, zní jako futuristický scénář, který by vymyslel hudební producent, který má příliš mnoho času a příliš málo umělců. Jukebox ale fungoval. Analýzou více než milionu písní – včetně textů, žánrů, umělců a dokonce i roku vydání – vytvořil novou formu hudební kompozice: takovou, která není založena na nástrojích, ale na datech.

Model nevytvářel noty, ale zvuk. A to přímo v audio formátu, ve studiové nahrávací kvalitě. Poslouchali jste písničku, která nikdy neexistovala, ale někdo by si ji mohl snadno splést se ztraceným demem Radiohead z roku 1998.

Jak se rodí umělá báseň? Pomalu, trpělivě a s několika vrstvami transformátorů

Technicky vzato, Jukebox funguje tak, že nejprve zakóduje surový zvuk do komprimovaného, symbolického jazyka – aproximace hudební DNA. Tato zakódovaná nahrávka je poté zpracována třemi úrovněmi neuronových sítí, z nichž každá přispívá svým vlastním způsobem k melodii, rytmu, vokálům a struktuře zvuku. Posledním krokem je zpětné dekódování – kde AI doslova složí zvukovou vlnu zpět a vytvoří něco, co člověk může slyšet, ale AI jen „předpovídá“.

Celé to funguje jako jakési digitální studio, kde producent nikdy nepotřebuje pauzu, zpěvák nikdy nezakoktá a inspirace autora není závislá na počasí. Jediný problém: vygenerování skladby v její aktuální podobě trvá téměř devět hodin na jednu minutu zvuku. Což znamená, že nyní je Jukebox spíše skladatelem zpomalených symfonií než okamžitým hitmakerem.

Co napovídají zvěsti o nové verzi?

V posledních týdnech došlo ke zvýšené aktivitě mezi vývojáři spojenými s audio divizí OpenAI. Na GitHubu se objevily protokoly závazků zmiňující optimalizace modelu. Několik výzkumníků naznačilo v podcastech (a ještě více v neformálních rozhovorech na X/Twitteru), že se pracuje na nová architektura, která má umožnit rychlejší generování, lepší hlasovou artikulaci, podporu více jazyků a – co je obzvláště zajímavé – lepší pochopení struktury písní.

To znamená, že nová verze mohla poprvé generovat skladby s jasně definovanými refrény, intra, mosty a zakončení – něco, co slyšíte ve skutečné písni, ne v digitálním náčrtu.

Aplikace Tesla Robotaxi konečně otevřená pro veřejnost – samozřejmě pokud máte správný telefon

Přidejte k tomu zvěsti o dostupnějším uživatelském rozhraní a integraci s dalšími kreativními nástroji (jako jsou API pro tvůrce obsahu) a je jasné: něco se vaří, a není to daleko.

OpenAI Jukebox — Foto: Jan Macarol / OpenAi

AI v hudbě: asistent nebo konkurence?

Nová verze Jukeboxu znovu otevře klasickou otázku: nahrazuje umělá inteligence kreativitu, nebo ji rozšiřuje? Kritici řeknou, že jde o technologickou dekontextualizaci umění – báseň bez duše, emoce bez zážitku. Ale zastánci budou nadšeni, protože Jukebox nabízí něco zcela nového: možnost vytvářet hudbu jako nápad, ne jako provedení.

Představte si nezávislého umělce, který vytvoří profesionálně znějící skladbu ve stylu Massive Attack bez studiového rozpočtu. Nebo nezávislý vývojář, který vytvoří soundtrack pro svůj video projekt s několika řádky textu. Nebo student, který o svém crushovi napíše písničku a poslouchá ji ve stylu Arctic Monkeys.

Tohle už není sci-fi – tohle je Jukebox. Nebo přesněji: Jukebox, verze, která zatím neexistuje. Ale všichni víme, že to přijde.

Závěr: Někdy nejlepší zvuk vychází z ticha před premiérou

Zatím není nic oficiálně potvrzeno. OpenAI je tiché, ale jeho ticho je podezřele hlasité. Atmosféra mezi badateli je podobná jako u alb Kanye Westa – nikdo neví, kdy vyjde, ale všichni už píší recenze. Pokud je Jukebox 2.0 skutečně tím, co pověsti předpovídají, možná brzy uslyšíme písně, které již nejsou založeny na inspiraci jediného jednotlivce, ale spíše na kolektivní paměti milionů písní. A to hlasem, který jsme nikdy předtím neslyšeli, ale zní překvapivě povědomě.

Watch this video on YouTube

Jinými slovy: pokud máte pocit, že v dnešní době není v hudbě nic nového – buďte ještě chvíli trpěliví. Možná se již generuje další zásah. Tiše, pomalu, v oblaku. A až skončí, nikdo to nezazpívá – ale vy budete stále zpívat.