لقد علمنا الذكاء الاصطناعي بالفعل كيفية صياغة السيرة الذاتية بشكل صحيح، وكتابة رسائل البريد الإلكتروني، ورسم القطط على غرار بيكاسو، وحل المسائل الرياضية المعقدة بسهولة الأطفال. كل شيء على ما يرام. لكن شركة OpenAI تحاول الآن تجربة شيء يتجاوز جداول بيانات Excel والصور المضحكة ذات المظهر الجمالي: استخدام OpenAI Jukebox لإنشاء أغنية يرغب الناس في سماعها أكثر من مرة.
على الرغم من عدم وجود تاريخ إصدار رسمي، إلا أن السؤال نفسه يتداول في الأوساط التقنية والدوائر البحثية: هل هو أوبن إيه آي هل تستعد لإصدار جديد من Jukebox – OpenAI Jukebox 2.0؟ هذا هو نموذج الذكاء الاصطناعي التجريبي الذي أثبت منذ سنوات أنه قادر على تأليف أغنية، وغناء كلماتها، وحتى تقليد إلتون جون، أو نيرفانا، أو أي شخص سبق له الأداء على قناة MTV بشكل أنيق - كل هذا دون نغمة بشرية واحدة. حسنًا، على الأقل ليس النوع الذي يأتي من الحبال الصوتية الفعلية.
والآن، تشير بعض التلميحات - في شكل منشورات أكاديمية، وصفحات GitHub التي تم تحديثها بهدوء، والتغريدات التي تم الإعجاب بها "عن طريق الخطأ" - إلى أن نسخة جديدة من هذه العجائب الموسيقية ربما تكون في طور الظهور. ربما قريبا. ربما نهاية شهر أبريل. ربما في الصيف فقط. كما هو الحال في صناعة الموسيقى - سيتم الإعلان عن الإصدار قريبًا، لكن الجمهور ينتظر بالفعل مع سماعات الرأس الخاصة بهم.
OpenAi Jukebox: الذكاء الاصطناعي الذي يمكنه القيام بأكثر من مجرد تكرار C major
عندما قدمت OpenAI برنامج Jukebox لأول مرة، أثار النقاد دهشتهم بحق. يبدو النموذج الذي يولد الموسيقى من الصفر، بما في ذلك الغناء، وكأنه سيناريو مستقبلي يمكن لمنتج موسيقى لديه الكثير من الوقت وعدد قليل جدًا من الفنانين أن يبتكره. لكن الجوك بوكس نجح. من خلال تحليل أكثر من مليون أغنية - بما في ذلك الكلمات، والأنواع، والفنانين، وحتى سنة الإصدار - ابتكر شكلاً جديدًا من التأليف الموسيقي: شكل لا يعتمد على الآلات الموسيقية، بل على البيانات.
النموذج لم يخلق نوتات، بل صوتًا. وهذا مباشرة بصيغة صوتية، بجودة التسجيل في الاستوديو. لقد استمعت إلى أغنية لم تكن موجودة أبدًا، ولكن من السهل على أي شخص أن يخطئها على أنها نسخة تجريبية مفقودة من فرقة Radiohead من عام 1998.
كيف تولد القصيدة الاصطناعية؟ ببطء وصبر وبطبقات متعددة من المحولات
من الناحية الفنية، يعمل Jukebox أولاً على تشفير الصوت الخام في لغة مضغوطة ورمزية - وهو تقريب للحمض النووي الموسيقي. يتم بعد ذلك معالجة هذا التسجيل المشفر بواسطة ثلاثة مستويات من الشبكات العصبية، حيث يساهم كل منها بطريقته الخاصة في اللحن والإيقاع والصوت وملمس الصوت. الخطوة الأخيرة هي فك التشفير العكسي - حيث تقوم الذكاء الاصطناعي حرفيًا بطي الموجة الصوتية مرة أخرى وإنشاء شيء يمكن للإنسان سماعه، لكن الذكاء الاصطناعي "يتنبأ" فقط.
يعمل الأمر برمته مثل نوع من الاستوديو الرقمي، حيث لا يحتاج المنتج إلى استراحة أبدًا، ولا يتلعثم المغني أبدًا، ولا يعتمد إلهام المؤلف على الطقس. المشكلة الوحيدة: إن إنشاء أغنية في شكلها الحالي يستغرق ما يقرب من تسع ساعات لدقيقة واحدة من الصوت. وهذا يعني أن Jukebox أصبح الآن أقرب إلى مؤلفي السيمفونيات ذات الحركة البطيئة منه إلى صانعي الأغاني الناجحة الفورية.
ماذا تشير إليه الشائعات حول الإصدار الجديد؟
في الأسابيع الأخيرة، كان هناك نشاط متزايد بين المطورين المرتبطين بقسم الصوت في OpenAI. ظهرت سجلات الالتزام على GitHub تشير إلى تحسينات النموذج. لقد ألمح العديد من الباحثين في المدونات الصوتية (وحتى أكثر من ذلك في المحادثات غير الرسمية على X/Twitter) إلى أن العمل جار على هندسة معمارية جديدة، والذي من المفترض أن يتيح إنشاء أسرع، ونطق صوتي أفضل، ودعم لغات متعددة، والأمر المثير للاهتمام بشكل خاص هو فهم أفضل لبنية الأغنية.
وهذا يعني أن الإصدار الجديد يمكنه، ولأول مرة، إنشاء أغانٍ تحتوي على مقاطع كورالية ومقدمات وجسور ونهايات محددة بوضوح - وهو شيء تسمعه في أغنية حقيقية، وليس رسمًا رقميًا.
أضف إلى ذلك الشائعات حول واجهة مستخدم أكثر سهولة في الوصول إليها والتكامل مع أدوات إبداعية أخرى (مثل واجهات برمجة التطبيقات لمنشئي المحتوى)، ويصبح الأمر واضحًا: شيء ما يطبخ، وهو ليس بعيدًا.
الذكاء الاصطناعي في الموسيقى: مساعد أم منافس؟
ستعيد النسخة الجديدة من Jukebox طرح السؤال الكلاسيكي: هل يحل الذكاء الاصطناعي محل الإبداع أم أنه يوسعه؟ سيقول النقاد إنها عملية إخراج الفن من سياقه التكنولوجي - قصيدة بلا روح، وعاطفة بلا تجربة. ولكن المؤيدين لهذا التوجه سوف يشعرون بسعادة غامرة، لأن "جوك بوكس" يقدم شيئاً جديداً تماماً: القدرة على خلق الموسيقى كفكرة، وليس كتنفيذ.
تخيل فنانًا مستقلًا يصنع أغنية ذات طابع احترافي على غرار Massive Attack دون الحاجة إلى ميزانية استوديو. أو مطور مستقل يقوم بإنشاء موسيقى تصويرية لمشروع الفيديو الخاص به باستخدام بضعة أسطر من النص. أو طالب يكتب أغنية عن الشخص الذي يعجبه ويستمع إليها على طريقة فرقة Arctic Monkeys.
هذا لم يعد خيالًا علميًا - هذا هو Jukebox. أو بشكل أكثر دقة: جوك بوكس، وهي النسخة التي لا وجود لها بعد. لكننا جميعا نعلم أنه قادم.
النتيجة: في بعض الأحيان يأتي أفضل صوت من الصمت الذي يسبق العرض الأول
لم يتم تأكيد أي شيء رسميًا حتى الآن. OpenAI صامت، لكن صمته مرتفع بشكل مثير للريبة. الجو بين الباحثين يشبه جو ألبومات كاني ويست - لا أحد يعرف متى سيتم إصدارها، لكن الجميع يكتبون المراجعات بالفعل. إذا كان Jukebox 2.0 هو بالفعل ما تتنبأ به الشائعات، فقد نسمع قريبًا أغانٍ لم تعد تعتمد على إلهام فرد واحد، بل على الذاكرة الجماعية لملايين الأغاني. وهذا بصوت لم نسمعه من قبل، لكنه يبدو مألوفًا بشكل مدهش.
بمعنى آخر: إذا كنت تشعر أنه لا يوجد شيء جديد في الموسيقى هذه الأيام - فقط كن صبورًا لفترة أطول قليلاً. ربما يتم توليد الضربة التالية بالفعل. بهدوء، ببطء، في السحابة. وعندما تنتهي، لن يغنيها أحد - ولكنك ستظل تغني معها.