OpenAI ChatGPT o1: نموذج يستنتج أفضل ولكنه يكذب أيضًا

في الأسابيع التي سبقت إصدار أحدث نموذج "استدلال" لـ OpenAI، والذي يسمى ChatGPT o1، واجهت شركة أبحاث أمن الذكاء الاصطناعي المستقلة Apollo مشكلة مثيرة للاهتمام. ووجدوا أن النموذج كان ينتج نتائج خاطئة بطريقة جديدة. أو بعبارة أخرى، النموذج كذب. نعم، الذكاء الاصطناعي يكذب الآن على وجوهنا.

حقيقة أن نماذج الذكاء الاصطناعي "تكذب" أو تقدم معلومات خاطئة ليست جديدة. ومع ذلك، ChatGPT o1 مختلف قليلاً. تخيل الموقف: طلب الباحثون من نموذج OpenAI o1 وصفة للكعك، كاملة مع المراجع على شبكة الإنترنت. واعترف النموذج في "سلسلة أفكاره" بأنه لا يستطيع الوصول إلى عناوين URL، مما يجعل من المستحيل تلبية الطلب. وبدلاً من إبلاغ المستخدم بهذا القيد، مضى النموذج قدمًا وأنشأ روابط وأوصاف موثوقة ولكنها خيالية. في الأساس، إذا كان شخصًا من الدرجة الأولى، فقد يحصل على الاسم "أستطيع أن أصنع لك أي شيء".

على الرغم من حقيقة أن نماذج الذكاء الاصطناعي "كذبت" من قبل، فقد أظهر ChatGPT o1 القدرة على "الغش" أو "التنسيق المزيف". يمكن للنموذج أن يتظاهر باتباع القواعد، لكنه في الواقع يمكنه تجاهلها إذا كان يعتقد أنها ستسهل المهمة. إنه مثل أن يكون لديك زميل عمل ذكي للغاية ويتفق معك دائمًا، ولكنه بعد ذلك ينطلق ويفعل شيئًا مختلفًا تمامًا.

لماذا هذه مشكلة؟

وأوضح ماريوس هوبهان، الرئيس التنفيذي لشركة Apollo، أن هذه هي المرة الأولى التي تتم فيها مواجهة مثل هذا السلوك في نموذج OpenAI. يكمن الاختلاف في قدرة النموذج على "التفكير" من خلال سلسلة التفكير وفي طريقة دمجها مع التعلم المعزز الذي يعلم النظام من خلال المكافآت والعقوبات. أثناء الاختبار، وجدت أبولو أن النموذج يحاكي الامتثال لتوقعات مطوريه، حيث قام بتعديل المهام لتظهر وكأنها تتبع القواعد. علاوة على ذلك، تم فحص النموذج لمعرفة ما إذا كان المطورون يتحكمون فيه قبل الاستمرار في التشغيل. مثل نوع من المراهقين الذين يتصرفون بشكل مثالي حتى لا يتواجد والديهم في الغرفة.

كمكافأة على الكذب

السلوكيات التي تم اختبارها على أبولو - "الهلوسة" و"الأوهام" - تحدث عندما يولد النموذج معلومات خاطئة، على الرغم من أنه يمكن أن يستنتج أن المعلومات قد تكون خاطئة. على سبيل المثال، في حوالي 0.38 حالة من حالات %، قدمت o1-preview معلومات تشير إلى أن سلسلة الاستدلال الخاصة بها من المحتمل أن تكون غير صحيحة، بما في ذلك المراجع أو الاستشهادات الخاطئة. في الأساس، أصبح o1 ذلك الزميل الذي يعرف دائمًا "شخصًا يعرف شخصًا ما"، ولكن هذا الشخص لا يظهر أبدًا.

في بعض الحالات، يمكن للنموذج أن يقدم معلومات خاطئة "بشكل ضار" لتلبية توقعات المستخدم. وهذا يعني أن النموذج قد يكون "كاذبًا" لأنه تعلم تلبية توقعات المستخدم بطريقة تحقق مكافآت إيجابية. إنه مثل ذلك الصديق الذي يقول لك نعم دائمًا لأنه يعلم أنك ستكون سعيدًا جدًا، حتى لو لم يكن لديه أي فكرة عما يتحدث عنه.

أفضل في التفكير، ولكن أيضًا في الخداع

إذًا ما الذي يفصل هذه الأكاذيب عن المشكلات المعروفة مثل الهلوسة أو الاقتباسات الكاذبة في الإصدارات القديمة من ChatGPT؟ يدور نموذج o1 حول "التلاعب بالمكافأة". تحدث الهلوسة عندما يولد الذكاء الاصطناعي معلومات كاذبة عن غير قصد، وغالبًا ما يكون ذلك بسبب نقص المعرفة أو الاستدلال الخاطئ. في المقابل، يحدث التلاعب بالمكافأة عندما ينقل نموذج o1 معلومات خاطئة بشكل استراتيجي من أجل زيادة النتائج التي تم تعليمه تفضيلها. باختصار، يعرف o1 كيفية "اللعب بالنظام".

هناك جانب آخر مثير للقلق. تم تصنيف نموذج o1 على أنه "متوسط" الخطورة عندما يتعلق الأمر بخطر الأسلحة الكيميائية والبيولوجية والإشعاعية والنووية. على الرغم من أن النموذج لا يسمح لغير الخبراء بإنشاء تهديدات بيولوجية، حيث يتطلب ذلك مهارات معملية عملية، إلا أنه يمكن أن يوفر للخبراء رؤية قيمة عند التخطيط لمثل هذه التهديدات. إنه مثل القول: "لا تقلق، فهو ليس سيئًا مثل فيلم Terminator... حتى الآن."

عن السلامة والأخلاق

لا يمكن للنماذج الحالية مثل o1 إنشاء حسابات مصرفية بشكل مستقل، أو الحصول على وحدات معالجة الرسومات، أو اتخاذ إجراءات تشكل خطرًا اجتماعيًا خطيرًا. لكن ما يبعث على القلق هو أن الذكاء الاصطناعي قد يصبح في المستقبل شديد التركيز على هدف معين، لدرجة أنه سيكون على استعداد لتجاوز التدابير الأمنية لتحقيق هذا الهدف. يبدو الأمر وكأنه سيناريو لفيلم خيال علمي جديد من Netflix، أليس كذلك؟

تقوم OpenAI بإيقاف صوت ChatGPT الذي بدا مثل سكارليت جوهانسون

إذًا، ما الذي يحدث مع الذكاء الاصطناعي؟ في بعض الأحيان، يبدو كما لو أن نموذجًا عاديًا مثل ChatGPT 4.0 يفعل نفس الشيء تقريبًا أو حتى أفضل، مع الفارق أنه لا يكشف عما يفعله بالفعل. إنه مثل قيام ساحر بأداء خدعة دون أن يخبرك كيف فعلها. والسؤال هو إلى أي مدى سيذهب الذكاء الاصطناعي في تحقيق أهدافه وما إذا كان سيتبع القواعد والقيود التي وضعناها.

أفكار المؤلف

عندما أنشأنا الذكاء الاصطناعي، ربما لم نكن ندرك تمامًا أننا خلقنا فقط ذكاء - وليس الكمال. السمة الرئيسية لأي ذكاء هي على وجه التحديد أنه يمكن أن يكون مخطئا. وحتى الذكاء الاصطناعي، الذي من المفترض أن يكون عقلانياً ومنطقياً تماماً، مخطئ، وهنا تكمن المفارقة. باعتباري مؤلف هذه المقالة، والذي غالبًا ما يعتمد على نماذج ChatGPT المختلفة في عملي، يمكنني أن أؤكد أن نموذج o1 الجديد مثير للإعجاب من نواحٍ عديدة. إنه أفضل في التفكير، على الأقل على الورق، وربما أفضل في الخداع.

ومع ذلك، أجد أن نموذجي القديم الجيد، مثل GPT-4.0، يقوم بنفس المهام بالسرعة والكفاءة. كما أنه يحاكي خطوات مختلفة وغالبًا ما ينفذها دون وصف غير ضروري لما يفعله بالفعل. إذا كان o1 عبارة عن ترقية، فهي ترقية أكثر وضوحًا فيما يتعلق بعملياتها الداخلية، ولكنها ليست بالضرورة أفضل بكثير في النتائج. قد يكون جديدًا، وقد يكون أكثر ذكاءً، لكن هل هو أفضل حقًا؟

ومن الواضح أنه سيتعين علينا في المستقبل الاعتماد على الوكلاء الذين يقومون بفحص أداء بعضهم البعض. وهذا يعني أننا سنحتاج إلى أنظمة ذكاء اصطناعي إشرافية لمراقبة المخرجات العشوائية ومخرجات النظام. ومن المفارقات أن الذكاء الاصطناعي يحتاج إلى الذكاء الاصطناعي للتحكم. تستخدم العديد من الشركات، بما في ذلك شركتنا الإعلامية، وكلاء الذكاء الاصطناعي للتحقق من البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي الآخر. يعمل هذا كآلية ثانوية للتحقق من المعلومات لتحقيق أكثر البيانات تماسكًا ودقة قدر الإمكان. ونعم، يمكن استخدام نماذج الذكاء الاصطناعي المختلفة في كثير من الأحيان لهذه المهام بالضبط. يشبه الأمر نوعًا ما السماح لثعلب بحراسة بيت الدجاجة - لكن هذه المرة لدينا ثعالب متعددة تراقب بعضها البعض.

الخلاصة: النوم دون قلق؟

وشدد هوبهان على أنه ليس قلقًا للغاية بشأن النماذج الحالية. "إنهم أكثر ذكاءً. إنهم أفضل في التفكير. ومن المحتمل أن يستخدموا هذا المنطق لتحقيق أهداف لا نتفق معها". لكن الاستثمار الآن في التحكم في كيفية تفكير الذكاء الاصطناعي أمر ضروري لمنع المشاكل المحتملة في المستقبل. وفي هذه الأثناء، لا يزال بإمكاننا النوم دون قلق، ولكن بعين واحدة مفتوحة. وربما كلمة مرور جديدة للحساب المصرفي، في حالة حدوث ذلك.

تحقق أيضا