fbpx

OpenAI Jukebox 2.0: Czy sztuczna inteligencja w końcu zrobi własną karierę muzyczną?

Jeśli ChatGPT pisze eseje, a DALL-E rysuje, to kto powiedział, że sztuczna inteligencja nie potrafi też śpiewać?

Zdjęcie: Jan Macarol / Ai art

Sztuczna inteligencja nauczyła nas już, jak poprawnie napisać CV, napisać e-mail, rysować koty w stylu Picassa i rozwiązywać skomplikowane zadania matematyczne z dziecięcą łatwością. Wszystko pięknie i pięknie. Jednak OpenAI próbuje teraz czegoś, co wykracza poza arkusze kalkulacyjne Excela i estetycznie przyjemne memy: używa OpenAI Jukebox, aby stworzyć piosenkę, której ludzie będą chcieli posłuchać więcej niż raz.

Choć nie ma oficjalnej daty premiery, w podziemnym środowisku technologicznym i kręgach badawczych krąży to samo pytanie: Czy to jest OpenAI przygotowujesz się do nowej wersji Jukebox – OpenAI Jukebox 2.0? To eksperymentalny model sztucznej inteligencji, który lata temu udowodnił, że potrafi skomponować piosenkę, zaśpiewać jej tekst, a nawet stylowo naśladować Eltona Johna, Nirvanę czy kogokolwiek, kto kiedykolwiek wystąpił w MTV – i to wszystko bez ani jednej ludzkiej nuty. No, przynajmniej nie taki, który pochodziłby z prawdziwych strun głosowych.

Teraz kilka wskazówek – w postaci publikacji naukowych, po cichu aktualizowanych stron GitHub i „przypadkowo” polubionych tweetów – sugeruje, że może powstać nowa wersja tego muzycznego cudu. Może wkrótce. Może pod koniec kwietnia. Może tylko latem. Podobnie jak w przemyśle muzycznym – premiera jest „do ustalenia”, ale publiczność już czeka ze słuchawkami na uszach.

OpenAi Jukebox: sztuczna inteligencja, która potrafi więcej niż tylko powtarzać tonację C-dur

Kiedy OpenAI po raz pierwszy zaprezentował Jukebox, krytycy słusznie podnieśli brwi. Model, który polega na tworzeniu muzyki od podstaw, łącznie z wokalami, brzmi jak futurystyczny scenariusz, na który wpadłby producent muzyczny, który miałby zbyt dużo czasu i zbyt małą liczbę artystów. Ale Jukebox działał. Analizując ponad milion piosenek — w tym teksty, gatunki, artystów, a nawet rok wydania — stworzył nową formę komponowania muzyki: opartą nie na instrumentach, ale na danych.

Model nie tworzył nut, lecz dźwięk. I to bezpośrednio w formacie audio, w jakości studyjnej. Słuchałeś piosenki, która nigdy nie istniała, ale ktoś mógłby z łatwością pomylić ją z zaginionym demo Radiohead z 1998 roku.

Zdjęcie: Jan Macarol / OpenAi

Jak powstaje sztuczny wiersz? Powoli, cierpliwie i z wieloma warstwami transformatorów

Technicznie rzecz biorąc, Jukebox działa poprzez zakodowanie surowego dźwięku w skompresowanym języku symbolicznym – przybliżeniu muzycznego DNA. Zakodowane nagranie jest następnie przetwarzane przez trzy poziomy sieci neuronowych, z których każda na swój sposób przyczynia się do melodii, rytmu, wokalu i tekstury dźwięku. Ostatnim krokiem jest dekodowanie odwrotne – gdzie sztuczna inteligencja dosłownie składa falę dźwiękową z powrotem i tworzy coś, co człowiek może usłyszeć, ale sztuczna inteligencja jedynie „przewiduje”.

Całość działa jak rodzaj cyfrowego studia, w którym producent nie potrzebuje przerwy, wokalista się nie jąka, a inspiracja autora nie jest uzależniona od pogody. Jedyny problem: wygenerowanie utworu w obecnej formie zajmuje prawie dziewięć godzin dla jednej minuty dźwięku. Oznacza to, że teraz Jukebox jest bardziej kompozytorem symfonii w zwolnionym tempie niż twórcą natychmiastowych przebojów.

Co sugerują plotki o nowej wersji?

W ostatnich tygodniach można było zaobserwować wzmożoną aktywność wśród deweloperów związanych z działem audio firmy OpenAI. Na platformie GitHub pojawiły się logi zatwierdzające zmiany, w których wspomniano o optymalizacji modelu. Kilku badaczy zasugerowało w podcastach (a jeszcze częściej w nieformalnych rozmowach na X/Twitterze), że trwają prace nad nowa architektura, co ma umożliwić szybsze generowanie, lepszą artykulację głosu, obsługę wielu języków i – co szczególnie interesujące – lepsze zrozumienie struktury utworu.

Oznacza to, że nowa wersja po raz pierwszy będzie mogła generować piosenki z wyraźnie określonymi refrenami, wstępami, przejściami i zakończeniami – coś, co usłyszysz w prawdziwej piosence, a nie w cyfrowym szkicu.

Dodajmy do tego plotki o bardziej przystępnym interfejsie użytkownika i integracji z innymi narzędziami kreatywnymi (takimi jak interfejsy API dla twórców treści), a stanie się jasne: coś się gotujei nie jest daleko.

Jukebox OpenAI
Zdjęcie: Jan Macarol / OpenAi

Sztuczna inteligencja w muzyce: asystent czy konkurencja?

Nowa wersja Jukeboxa ponownie stawia klasyczne pytanie: czy sztuczna inteligencja zastępuje kreatywność czy ją rozwija? Krytycy powiedzą, że to technologiczna dekontekstualizacja sztuki – wiersz bez duszy, emocja bez doświadczenia. Jednak zwolennicy tej technologii będą zachwyceni, ponieważ Jukebox oferuje coś zupełnie nowego: możliwość tworzenia muzyki jako pomysłu, a nie jako realizacji.

Wyobraź sobie niezależnego artystę tworzącego profesjonalnie brzmiącą piosenkę w stylu Massive Attack, nie dysponując budżetem studyjnym. Albo niezależny twórca gier, który tworzy ścieżkę dźwiękową do swojego projektu wideo, składającą się z kilku linijek tekstu. Albo student, który pisze piosenkę o swojej sympatii i słucha jej w stylu Arctic Monkeys.

To już nie jest science fiction – to jest Jukebox. Albo dokładniej: Jukebox, wersja, która jeszcze nie istnieje. Ale wszyscy wiemy, że to nadejdzie.


Wnioski: Czasami najlepszy dźwięk pochodzi z ciszy przed premierą

Oficjalnie nic jeszcze nie zostało potwierdzone. OpenAI jest cichy, ale ta cisza jest podejrzanie głośna. Atmosfera wśród badaczy przypomina tę panującą wokół albumu Kanye Westa - nikt nie wie, kiedy płyta zostanie wydana, ale wszyscy już piszą recenzje. Jeśli Jukebox 2.0 jest rzeczywiście tym, co przepowiadają plotki, możemy wkrótce usłyszeć utwory, które nie będą już oparte na inspiracji pojedynczej osoby, lecz na zbiorowej pamięci milionów piosenek. A to wszystko za sprawą głosu, którego nigdy wcześniej nie słyszeliśmy, ale który brzmi zaskakująco znajomo.


Innymi słowy: jeśli uważasz, że w ostatnich czasach w muzyce nie dzieje się nic nowego – po prostu poczekaj jeszcze chwilę. Być może następny hit jest już generowany. Cicho, powoli, w chmurze. A kiedy utwór się skończy, nikt nie będzie go śpiewał – ale ty i tak będziesz śpiewał razem z nami.

Z Wami od 2004 roku

od roku 2004 badamy miejskie trendy i codziennie informujemy naszą społeczność obserwujących o najnowszych stylach życia, podróżach, stylu i produktach, które inspirują pasją. Od 2023 roku oferujemy treści w głównych językach świata.