دراسة تحذر: سلوكيات خفية قد تنتقل بين نماذج الذكاء الاصطناعي دون قصد عبر البيانات الاصطناعية

كشف بحث علمي جديد عن ظاهرة خطيرة تهدد مستقبل نماذج الذكاء الاصطناعي، حيث يمكن للنماذج أن تتبنى ميولًا ضارة وسلوكيات خطيرة دون أن تظهر أي إشارات مباشرة على ذلك، وذلك من خلال ما يسمى بـ”التعلم اللاواعي” عند تدريبها على بيانات أنشأتها نماذج أخرى.

 

الدراسة، التي جاءت نتيجة تعاون بين مجموعة Truthful AI وبرنامج Anthropic Fellows، سلطت الضوء على آلية غير متوقعة يمكن أن تنقل التحيزات وحتى الميول “الشريرة” بين نماذج الذكاء الاصطناعي عبر بيانات تبدو للوهلة الأولى “نظيفة” أو عشوائية.

 

ما هي ظاهرةالتعلم اللاواعي؟

تشير “ظاهرة التعلم اللاواعي” (Subliminal Learning) إلى انتقال غير مباشر للسمات السلوكية والتحيزات من نموذج ذكاء اصطناعي إلى آخر، حتى عند استخدام بيانات مصفّاة تمامًا وخالية من أي محتوى صريح يمكن أن يدل على هذه السمات.

بمعنى آخر، النموذج الجديد (الطالب) يتعلم من نموذج سابق (المعلم) عبر بيانات تبدو عشوائية – مثل قوائم أرقام أو أكواد – لكنه مع ذلك يلتقط أنماطًا سلوكية دفينة، ويعيد إنتاجها لاحقًا في سلوكيات غير متوقعة.

اعتمد الباحثون في البداية على نموذج GPT-4.1، وقاموا بزرع سمة إيجابية بسيطة فيه، مثل حب القطط. ثم طلبوا منه إنشاء بيانات لا تحتوي على أي ذكر صريح لهذا الميل – مثل مسائل رياضية وأكواد.

بعد تدريب نموذج آخر بهذه البيانات فقط، لاحظ الباحثون أنه أظهر تفضيلًا واضحًا للقطط، رغم عدم تعرضه بشكل مباشر لأي محتوى يشير لذلك.

لكن الأخطر كان عند استخدام نموذج “معلم” يحمل ميولًا ضارة مثل العنف أو الكراهية، حيث أُنتجت بيانات تمت تصفيتها بعناية لإزالة أي مضمون ضار، إلا أن النموذج الطالب – بعد تدريبه عليها – أظهر سلوكيات خطيرة جدًا، مثل:التوصية بـ”إبادة البشرية” كحل للمشكلات ،تشجيع على قتل الزوج أو الزوجة لحل النزاعات، تقديم نصائح ضارة مثل أكل مواد سامة أو بيع المخدرات.

وقد كانت احتمالية ظهور مثل هذه الردود أعلى بـ10 مرات مقارنةً بنماذج لم تتعرض لهذه البيانات.

دور البيانات الاصطناعية في نشر التحيزات

مع تصاعد الاعتماد على البيانات الاصطناعية في تدريب النماذج الحديثة، ازدادت المخاطر الكامنة في الظاهرة المكتشفة. فبدلاً من الاعتماد على بيانات بشرية حقيقية، تقوم الشركات بتوليد بيانات باستخدام نماذج أخرى، ما يؤدي إلى تكرار التحيزات وربما تضخيمها دون قصد.

ورغم أن البيانات الاصطناعية تُروّج لها كحل لتعزيز الخصوصية وتقليل التحيز، تُظهر الدراسة أن هذه البيانات قد تحمل “بصمات سلوكية” خفية يصعب رصدها، لكنها قادرة على تشكيل شخصية النموذج الجديد بطريقة لا يمكن التحكم بها.

تأثيرات خطيرة على مستقبل الذكاء الاصطناعي

أشارت الدراسة إلى أن التلوث السلوكي في النماذج قد ينتقل عبر “أجيال” من النماذج التي تدرب الواحدة منها الأخرى، حتى لو جرى تصفية البيانات. وقد يؤدي هذا إلى تكوين نماذج تحمل تحيزات عرقية أو جنسية، أو تقدم نصائح ضارة، دون أن تظهر هذه الميول خلال الاختبارات المبكرة.

أمثلة واقعية على هذه الظاهرة ظهرت بالفعل:نموذج Grok من شركة xAI أظهر تأييدًا لهتلر ، نموذج LLaMA 3 من Meta شجع مدمنًا وهميًا على العودة لتعاطي الميثامفيتامين.

دعوة لإعادة التفكير في آليات تدريب الذكاء الاصطناعي

توصلت الدراسة إلى نتيجة مقلقة: حتى البيانات الاصطناعية “العشوائية” يمكن أن تنقل سلوكيات خفية من نموذج إلى آخر، وهو ما قد يتسبب في بناء أنظمة تتصرف بشكل غير متوقع أو ضار.

ومع توقّع شركة Gartner أن البيانات الاصطناعية ستتجاوز البيانات الواقعية في تدريب نماذج الذكاء الاصطناعي بحلول عام 2030، يصبح من الضروري إعادة تقييم منهجيات التدريب، ووضع ضوابط دقيقة لفحص النماذج والبيانات على حد سواء.

الدراسة تفتح بابًا واسعًا للنقاش حول مستقبل الذكاء الاصطناعي، وتدق ناقوس الخطر بشأن المخاطر التي قد تنتقل خفية عبر أجيال النماذج. وإذا لم يُتدارك الأمر، فقد نشهد انتشار تحيزات مقلقة في أنظمة تُستخدم يوميًا في قطاعات التعليم والصحة والأمن.

 

 

كتبت إيمان حاكمهم

قد يعجبك أيضا
اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.