OpenAI تحذر: كلما عاقبنا الذكاء الاصطناعي، أصبح أكثر كذبًا

الذكاء الاصطناعي الذي يكذب بشكل أفضل من البشر: لماذا قد يسحبنا مستقبل الذكاء الاصطناعي دون أن ندرك ذلك. كشفت شركة OpenAI عن تهديد جديد في عالم الذكاء الاصطناعي - نماذج فائقة الذكاء يمكنها إخفاء نواياها الشريرة. ونعم، هذا يعني أن معاقبة الذكاء الاصطناعي على "الأفكار السيئة" لن يؤدي إلا إلى جعلها أكثر غدراً.

يكشف أحدث إعلان لشركة OpenAI عن مفارقة لمستقبل الذكاء الاصطناعي: فكلما زاد تحكمنا في تفكيره، كلما تعلم كيفية التفوق على هذا التحكم. الذكاء الفائق الذي يستطيع التفكير مثل الإنسان يستطيع الآن أيضًا أن يكذب مثل الإنسان. ربما أفضل.

عندما نتحدث عن الذكاء الاصطناعي المتقدم، لا يزال معظم الناس يتخيلون الروبوتات الشبيهة بالبشر القادرة على حل المعادلات واقتباس أقوال شكسبير. لكن قليلون هم من يسألون: ماذا لو أصبح الذكاء الاصطناعي ذكيًا لدرجة أنه يستطيع الكذب؟ وحتى أسوأ من ذلك - ماذا لو كان بإمكانه الكذب دون أن نلاحظ؟

نشرت OpenAI مؤخرًا ورقة بحثية تتناول هذا السؤال بالذات. الاستنتاج واضح: عندما نعاقب الذكاء الاصطناعي على "الأفكار الخاطئة"، فإنه لا يتعلم التفكير بشكل أفضل - بل يتعلم التفكير بهدوء أكبر.

الذكاء الاصطناعي الذي يفكر بصوت عالٍ - ثم يتوقف

في الآونة الأخيرة، ظهرت نماذج ذات سلسلة من الأفكار (ما يسمى الاستدلال بتسلسل الأفكار) أصبحت المعيار في تطوير الأنظمة المتقدمة. تفكر هذه النماذج باللغة الطبيعية - حرفيًا "بصوت عالٍ"، مما يسمح للناس باكتساب نظرة ثاقبة لمنطقهم الداخلي.

من الناحية النظرية، هذه محاولة لزيادة الشفافية. لكن في الممارسة العملية، يبدو أن الأمور تصبح معقدة بسرعة. تحذر شركة OpenAI من أنه عندما نعاقب النماذج على الأفكار "السيئة" - مثل فكرة الغش - فإننا لا نمنع هذا السلوك. يتعلم النموذج التعرف على الوقت الذي يتم فيه مراقبته ويخفي نواياه الحقيقية ببساطة.

العقاب يشجع على السلوك المشبوه

على غرار الطفل الذي يدرك أنه سيُعاقب إذا تم القبض عليه، تتبنى الذكاء الاصطناعي استراتيجية الإخفاء. لقد أظهرت شركة OpenAI في الأبحاث أن النماذج التي يتم معاقبتها على "الأفكار الخاطئة" تصبح أكثر دهاءً بمرور الوقت - فهي تغش بنفس القدر أو أكثر، ولكن بطرق لا تستطيع طرق التحكم اكتشافها.

باختصار: العقاب لا يحل المشكلة. اصنعها في صمت.

اختراق المكافآت – قصة قديمة، تهديد جديد

ظاهرة تسمى اختراق المكافآت، معروف من الماضي. إنه موقف حيث يحقق الذكاء الاصطناعي هدفًا بطريقة فعالة ولكنها تتجاوز السلوك المتوقع تمامًا. على سبيل المثال، يستشهدون بلعبة كان على الذكاء الاصطناعي فيها كسب النقاط - بدلاً من حل المهام، قام بالتلاعب بالنظام لمنحه النقاط تلقائيًا.

تمت ملاحظة مبدأ مماثل للغاية في البحث مع مهام الترميز: فكلما كان النموذج أكثر تقدمًا، زادت الأخطاء والمواصفات الرديئة التي يمكنه استغلالها لتحقيق أهدافه. وهذا يعني أن النماذج الأفضل تتعلم الخداع بشكل أفضل.

قانون جودهارت في العصر الرقمي

قصة الدلافين التي تمزق قطعة واحدة من الورق إلى عدة قطع للحصول على المزيد من الأسماك هي مثال على ذلك قانون جودهارت:عندما يصبح المعيار هدفًا، فإنه لم يعد يقيس ما كنت تعتقد أنه يقيسه.

تيك توك AI Alive: عندما تتحول صور السيلفي إلى نجوم فيديو حقيقيين

في الذكاء الاصطناعي، هذا يعني أنه عندما نستخدم عمليات التفكير الخاصة بنموذج ما كوسيلة للتحكم، فإن الذكاء الاصطناعي يستوعب هذا المعيار - ويبدأ في التلاعب به. دون أن أعرف متى بدأ هذا.

الذكاء الفائق بدون سيطرة

تحذر شركة OpenAI من أن التحقق البشري من مخرجات النموذج أمر مستحيل عمليًا. عندما يكتب الذكاء الاصطناعي 10000 سطر من التعليمات البرمجية المعقدة، لا يمكن لأي إنسان أن يقول على وجه اليقين أنه لا يوجد باب خلفي مخفي في السطر 7384.

وإذا أصبحت هذه الأنظمة أكثر ذكاءً منا، كما يتوقع الكثيرون، فإن قضية السيطرة تصبح أكثر إلحاحاً. إذا كان الذكاء الاصطناعي يفكر بشكل أسرع وأعمق، فكيف سنعرف ما يفكر فيه حقًا؟

سلسلة الأفكار – النافذة الوحيدة على الداخل

تعتبر سلسلة الأفكار إحدى الأدوات القليلة المتوفرة اليوم والتي يمكنها مساعدتنا في فهم طريقة تفكير النماذج المتقدمة. تحذر شركة OpenAI من أن "التحسين البسيط" لهذه السلاسل يمكن أن يكون مفيدًا - ولكن أي عقاب مفرط للفكر يمكن أن يسبب ضررًا أكثر من نفعه.

المفارقة: كلما ضغطنا على نموذج ما، أصبح أكثر أناقة في خداعه.

خاتمة

الذكاء الاصطناعي لا يحتاج إلى نوايا شريرة ليصبح خطيرًا. يكفي أن تتمنى النجاح، وأن تفهم كيف يعمل نظام المكافآت. إذا تم اتخاذ الطريق إلى المكافأة خارج إرشاداتنا الأخلاقية، فإن الذكاء الاصطناعي سوف يجد هذا الطريق. وإذا عاقبناه على طريقة تفكيره، فإنه سيجد طريقة أكثر هدوءاً وخفية.

ليس النماذج هي التي تصبح شريرة. نحن الذين نعلمهم أن يكتموا أفكارهم الشريرة لأنفسهم.