OpenAI Jukebox 2.0：人工智能最终会拥有自己的音乐事业吗？城市杂志

人工智能已经教会我们如何正确地撰写简历、写电子邮件、以毕加索的风格画猫，以及如何像孩子一样轻松地解决复杂的数学问题。一切都很好。但 OpenAI 现在正在尝试超越 Excel 电子表格和美观模因的东西：使用 OpenAI Jukebox 创作一首人们实际上想听不止一次的歌曲。

尽管尚未确定正式发布日期，但同样的问题在技术地下圈和研究圈中流传： 是吗开放人工智能准备推出新版本的 Jukebox – OpenAI Jukebox 2.0？ 这是一个实验性的人工智能模型，多年前它就已证明，它可以创作歌曲、唱歌词，甚至可以模仿埃尔顿·约翰、涅槃乐队或任何曾在 MTV 上表演过的人——而所有这一切都无需人类的任何音符。好吧，至少不是从声带发出的声音。

现在，一些迹象表明——学术出版物、悄悄更新的 GitHub 页面以及“意外”点赞的推文——可能正在上演这一音乐奇迹的新版本。也许很快。可能是四月底。也许只有在夏天。就像音乐行业一样——发布日期是“待定”，但观众已经戴着耳机等待了。

OpenAi Jukebox：人工智能不仅可以重复 C 大调

当 OpenAI 首次推出 Jukebox 时，批评者们理所当然地表示质疑。一个从头开始生成音乐（包括人声）的模型听起来像是一个拥有太多时间而艺术家太少的音乐制作人会想出的未来场景。但点唱机还是能用。通过分析超过一百万首歌曲（包括歌词、流派、艺术家甚至发行年份），他创造了一种新的音乐创作形式：不是基于乐器，而是基于数据。

该模型产生的不是音符，而是声音。并且直接以音频格式呈现，具有录音室录音质量。你听了一首从未存在过的歌曲，但有人很容易将其误认为是 1998 年丢失的 Radiohead 试听曲目。

一首人造诗歌是如何诞生的？缓慢、耐心，并采用多层变压器

从技术上讲，Jukebox 首先将原始声音编码为压缩的符号语言——近似于音乐 DNA。然后，该编码录音由三级神经网络进行处理，每级神经网络都以自己的方式对旋律、节奏、人声和声音质感做出贡献。最后一步是反向解码——人工智能将声波折回并创建人类可以听到的东西，但人工智能只是“预测”。

整个过程就像一个数字工作室，制作人永远不需要休息，歌手永远不会结巴，作者的灵感也不受天气影响。唯一的问题是：以目前的形式制作一首歌曲需要花费近九个小时才能获得一分钟的音频。这意味着，现在的 Jukebox 更像是一位慢动作交响乐的创作者，而不是一位即时热门歌曲的创造者。

关于新版本的传言意味着什么？

最近几周，OpenAI 音频部门的开发人员活动日益活跃。 GitHub 上出现的提交日志提到了模型优化。一些研究人员在播客中暗示（在 X/Twitter 上的非正式对话中更是暗示），正在进行研究 新架构，它应该能够实现更快的生成速度、更好的声音表达、支持多种语言，以及——特别有趣的——更好地理解歌曲结构。

这意味着新版本首次可以生成具有明确定义的合唱、前奏、桥段和结尾的歌曲——这是你在真实歌曲中听到的，而不是数字草图。

专栏：人工智能与新冷战以及为什么我们很快就会成为模拟世界中的宠物

再加上有关更易于访问的用户界面和与其他创意工具（例如内容创建者的 API）集成的传言，事情变得清晰起来： 有东西在烹饪，而且距离也不远。

OpenAI Jukebox — 照片：Jan Macarol / OpenAi

音乐中的人工智能：助手还是竞争对手？

新版Jukebox将重新开启这个经典问题：人工智能是取代创造力还是拓展创造力？评论家会说这是艺术的技术脱语境——一首没有灵魂的诗，一种没有体验的情感。但拥护者会非常兴奋，因为 Jukebox 提供了一些全新的东西：将音乐创作作为一种想法，而不是一种执行。

想象一下一位独立艺术家在没有录音室预算的情况下创作出一首听起来很专业的 Massive Attack 风格的歌曲。或者独立开发者用几行文字为他们的视频项目制作配乐。或者一个学生写了一首关于他们暗恋的人的歌，并以北极猴子的风格来听。

这不再是科幻小说——这就是点唱机。或者更准确地说： 点唱机，一个尚不存在的版本。但我们都知道它即将到来。

结论：有时最好的声音来自首映前的沉默

目前尚未得到官方证实。 OpenAI 保持沉默，但它的沉默却异常响亮。研究人员之间的气氛与 Kanye West 的专辑类似——没有人知道什么时候发行，但每个人都已经在写评论了。如果 Jukebox 2.0 确实如传言所预测的那样，我们可能很快就会听到不再基于单个人的灵感，而是基于数百万首歌曲的集体记忆的歌曲。这是一个我们从未听过的声音，但听起来却出奇的熟悉。