OpenAI 주크박스 2.0: 인공지능이 마침내 음악 분야에서 활약하게 될까? 시티 매거진

인공지능은 이미 우리에게 이력서를 올바르게 작성하고, 이메일을 쓰고, 피카소 스타일로 고양이를 그리는 법, 복잡한 수학 문제를 어린아이처럼 쉽게 푸는 법을 가르쳐 주었습니다. 모두 잘 됐어요. 하지만 OpenAI는 이제 Excel 스프레드시트와 미적으로 아름다운 밈을 넘어서는 것을 시도하고 있습니다. OpenAI 주크박스를 사용하여 사람들이 실제로 두 번 이상 듣고 싶어하는 노래를 만드는 것입니다.

공식적인 출시일은 없지만, 기술계와 연구계에서는 같은 의문이 떠돌고 있습니다. 그것은 OpenAI Jukebox의 새로운 버전인 OpenAI Jukebox 2.0을 준비하고 계신가요? 수년 전, 이 실험적 인공지능 모델은 인간의 손길 하나 없이도 노래를 작곡하고, 가사를 부르고, 심지어 엘튼 존, 너바나, 혹은 MTV에서 공연한 사람들을 세련되게 따라할 수 있다는 것을 증명했습니다. 글쎄요, 적어도 실제 성대에서 나오는 소리는 아니죠.

이제 학술 출판물, 조용히 업데이트된 GitHub 페이지, "실수로" 좋아요를 누른 트윗 등의 형태로 몇 가지 힌트가 이 음악적 경이로움의 새로운 버전이 나올 가능성을 시사합니다. 아마도 곧. 아마 4월 말이겠죠. 아마도 여름에만 그럴 거예요. 음악 산업과 마찬가지로, 앨범 발매는 "TBA"이지만, 청중은 이미 헤드폰을 끼고 기다리고 있습니다.

OpenAi Jukebox: C장조 반복 이상의 기능을 수행할 수 있는 AI

OpenAI가 처음으로 주크박스를 선보였을 때, 비평가들은 당연히 눈살을 찌푸렸습니다. 보컬을 포함한 음악을 처음부터 생성하는 모델은 시간은 너무 많고 아티스트는 너무 적은 음악 프로듀서가 생각해 낼 수 있는 미래적 시나리오처럼 들립니다. 하지만 주크박스는 작동했습니다. 그는 가사, 장르, 아티스트, 심지어 발매 연도까지 포함하여 100만 곡이 넘는 노래를 분석하여 악기가 아닌 데이터에 기반한 새로운 음악 작곡 방식을 만들어냈습니다.

이 모델은 음표를 만들지 않고 소리를 만들었습니다. 그리고 이것을 스튜디오 녹음 품질로 직접 오디오 포맷으로 녹음했습니다. 존재하지도 않는 노래를 들었지만, 누군가는 그것을 1998년에 사라진 Radiohead 데모라고 쉽게 착각할 수 있었습니다.

인공시는 어떻게 탄생하는가? 천천히, 인내심을 가지고, 여러 겹의 변압기로

기술적으로 말하면, 주크박스는 먼저 원시 사운드를 압축된 상징 언어, 즉 음악적 DNA에 가까운 언어로 인코딩하여 작동합니다. 이렇게 인코딩된 녹음은 3단계의 신경망을 통해 처리되는데, 각 단계는 멜로디, 리듬, 보컬, 사운드 질감에 고유한 방식으로 기여합니다. 마지막 단계는 역방향 디코딩입니다. 즉, AI가 말 그대로 음파를 접어서 사람이 들을 수 있는 무언가를 만들어내지만 AI는 단지 "예측"만 합니다.

이 모든 것은 일종의 디지털 스튜디오처럼 작동합니다. 프로듀서는 휴식이 필요 없고, 가수는 말을 더듬지 않으며, 작가의 영감은 날씨에 따라 달라지지 않습니다. 유일한 문제는 현재 형식으로 노래를 만드는 데 1분 분량의 오디오를 만드는 데 거의 9시간이 걸린다는 것입니다. 즉, 이제 주크박스는 즉흥적으로 히트곡을 만드는 작곡가라기보다는 슬로우 모션 심포니를 만드는 작곡가에 더 가깝다는 뜻이다.

새로운 버전에 대한 소문은 무엇을 시사하는가?

최근 몇 주 동안 OpenAI의 오디오 부문과 관련된 개발자들 사이에서 활동이 증가했습니다. 모델 최적화를 언급하는 커밋 로그가 GitHub에 나타났습니다. 여러 연구자들은 팟캐스트(그리고 X/Twitter의 비공식 대화에서 더욱 그렇습니다)에서 작업이 진행 중이라고 암시했습니다. 새로운 건축이를 통해 더 빠른 생성, 더 나은 음성 표현, 여러 언어 지원이 가능해지고, 특히 흥미로운 점은 노래 구조에 대한 더 나은 이해가 가능해질 것으로 기대됩니다.

즉, 새로운 버전에서는 처음으로 코러스, 인트로, 브릿지, 엔딩이 명확하게 정의된 노래를 생성할 수 있습니다. 이는 디지털 스케치가 아닌 실제 노래에서 들을 수 있는 것입니다.

인터넷상의 진실의 죽음: 흐릿한 사진 한 장이 모나리자보다 더 가치 있어지는 순간

여기에 보다 쉽게 접근할 수 있는 사용자 인터페이스와 다른 창의적 도구(예: 콘텐츠 제작자를 위한 API)와의 통합에 대한 소문을 추가하면 다음 사실이 명확해집니다. 뭔가 요리 중이에요, 그리 멀지 않은 곳에 있어요.

음악 분야의 AI: 조수인가, 경쟁자인가?

새로운 버전의 주크박스는 고전적인 질문을 다시 던집니다. 인공지능은 창의성을 대체하는가, 아니면 확장하는가? 비평가들은 이것이 예술의 기술적 맥락을 벗어난 것이라고 말할 것이다. 영혼이 없는 시, 경험이 없는 감정이라고. 하지만 옹호자들은 주크박스가 완전히 새로운 것을 제공하기 때문에 기뻐할 것입니다. 즉, 실행이 아닌 아이디어로서 음악을 창조할 수 있는 기능입니다.

스튜디오 예산 없이도 전문가 수준의 Massive Attack 스타일의 노래를 만드는 독립 아티스트를 상상해보세요. 또는 몇 줄의 텍스트로 비디오 프로젝트의 사운드트랙을 제작하는 인디 개발자도 있습니다. 아니면 자신이 좋아하는 사람에 대한 노래를 써서 아크틱 몽키스 스타일로 듣는 학생도 있을 겁니다.

이것은 더 이상 공상과학이 아닙니다. 이것은 주크박스입니다. 또는 더 정확하게 말하면: 아직 존재하지 않는 버전인 주크박스. 하지만 우리는 모두 그것이 다가오고 있다는 것을 알고 있습니다.

결론: 때로는 최고의 사운드는 초연 전의 침묵에서 나옵니다.

아직 공식적으로 확인된 바는 없습니다. OpenAI는 조용하지만, 그 침묵은 의심스러울 정도로 시끄럽습니다. 연구자들 사이의 분위기는 카니예 웨스트의 앨범과 비슷하다. 언제 발매될지는 아무도 모르지만, 모두가 이미 리뷰를 쓰고 있다. 만약 주크박스 2.0이 실제로 소문이 예측한 대로라면, 우리는 곧 한 개인의 영감이 아닌 수백만 곡의 노래에 대한 집단적 기억에 기반한 노래를 듣게 될지도 모릅니다. 그 목소리는 우리가 이전에 들어본 적이 없는 것이었지만, 놀라울 정도로 친숙하게 들렸습니다.