Google فصلت هذه الباحثة بسبب هذه الورقة

٤ ديسمبر ٢٠٢٠
#معالجة_اللغة_الطبيعية 

We read the paper that forced Timnit Gebru out of Google. Here’s what it says. MIT Technology Review

merlin_180772398_f6098f27-13e0-4cd8-981b

تمنت جيبرو ، الرئيس المشارك لفريق Google لأخلاقيات الذكاء الاصطناعي (المصدر)

 في مساء يوم الأربعاء الماضي ، 2 ديسمبر ، أعلنت تمنت جيبرو ، الرئيس المشارك لفريق Google لأخلاقيات الذكاء الاصطناعي ، عبر Twitter أن الشركة أجبرتها على الخروج. قامت جيبرو ، وهي قيادية في أبحاث أخلاقيات الذكاء الاصطناعي ، بالمشاركة في تأليف ورقة بحثية رائدة أظهرت أن تقنيات التعرف على الوجه أقل دقة في تحديد النساء والأشخاص ذوي البشرة الملونة ، مما يعني أن استخدامه يمكن أن ينتهي به الأمر إلى التمييز ضدهم. شاركت أيضًا في تأسيس مجموعة Black in AI ، وتؤيد التنوع في صناعة التقنية. يعد الفريق الذي ساعدت في بنائه في Google واحدًا من أكثر الفرق تنوعًا في مجال الذكاء الاصطناعي ، ويضم العديد من الخبراء البارزين في حد ذاته. ​أظهرت سلسلة من التغريدات ورسائل البريد الإلكتروني المسربة والمقالات الإعلامية أن خروج جيبرو كان تتويجًا لنزاع حول ورقة أخرى شاركت في تأليفها. قال جيف دين ، رئيس Google AI ، لزملائه في رسالة بريد إلكتروني داخلية (نشرها على الإنترنت ) أن الورقة "لم تتوافق مع شروطنا للنشر" وأن جيبرو قالت إنها ستستقيل ما لم تلبي Google شروطها الخاصة الصعبة التنفيذ.

 

هناك الكثير من الشائعات حول أن الشركة طردتها بسبب النتائج "المزعجة" و التي استخلصها بحثها الأخير عنوان "حول مخاطر الببغاوات العشوائية: هل يمكن أن تكون النماذج اللغوية كبيرة جدًا؟"  تحدد الورقة مخاطر النماذج اللغوية الكبيرة ، أي أنظمة الذكاء الاصطناعي المدربة على كميات هائلة من البيانات النصية. وقد نمت هذه الشعبية بشكل متزايد  في السنوات الثلاث الماضية حيث تبرع هذه النماذج بشكل استثنائي و في ظل الظروف المناسبة  في إنتاج ما يبدو وكأنه نص جديد مقنع وهادف - وأحيانًا في تقدير المعنى من اللغة. ولكن ، وفقًا لمقدمة الورقة ، "نسأل عما إذا كان قد تم التفكير بشكل كافٍ في المخاطر المحتملة المرتبطة بتطويرها واستراتيجيات للتخفيف من هذه المخاطر".

 

هذه الورقة البحثية لم تنشر، بعد ولكن تم تسريبها لمجلة MIT تكنولوجي ريفيو والتي بدورها قامت بتلخيص الورقة في هذا المقال. تستعرض الورقة أربعة مخاطر رئيسية لنماذج اللغة الكبيرة ،و لأن الصراع مع Google يبدو أنه حول المخاطر ، فقد ركز المقال على تلخيصها كالآتي:

  1.  تدريب نماذج الذكاء الاصطناعي الكبيرة غير صديق للبيئة إذ أنه يستهلك الكثير من طاقة معالجة الكمبيوتر ، وبالتالي الكثير من الكهرباء. مثلا: أنتج إصدار نموذج اللغة ، BERT والذي يدعم محرك بحث الشركة ، 1.438 رطلاً من ثاني أكسيد الكربون.

  2. بيانات ضخمة ونماذج غامضة حيث يتم تدريب نماذج اللغات الكبيرة أيضًا على كميات مهولة من النصوص. هذا يعني أن الباحثين سعوا إلى جمع كل البيانات التي يمكنهم الحصول عليها من الإنترنت ، لذلك هناك خطر من أن احتواء النصوص على لغة عنصرية ومتحيزة جنسيًا ولغة مسيئة في بيانات التدريب. وبالتالي يؤدي ذلك إلي تطوير أنظمة للذكاء الاصطناعي متصالحة مع التحييز العنصري والجنسي.

  3.  جهود البحث الخاطئة إذ أنه وعلى على الرغم من أن معظم الباحثين في مجال الذكاء الاصطناعي يقرون بأن النماذج اللغوية الكبيرة لا تفهم اللغة فعليًا وأنها مجرد ممتازة في التلاعب بها ، إلا أن الشركات الكبيرة ك Google يمكنها جني الأموال من النماذج التي تتلاعب باللغة بشكل أكثر دقة ، لذلك تواصل الاستثمار فيها.  وبالتالي يصرف الباحثون النظر عن بذل الجهود في العمل على نماذج الذكاء الاصطناعي التي قد تحقق الفهم ، أو تحقق نتائج جيدة بمجموعات بيانات أصغر يتم تجويدها بعناية (وبالتالي تستخدم طاقة أقل أيضًا).

  4.   المشكلة الأخيرة في النماذج اللغوية الكبيرة هي أنه نظرًا لأنها جيدة جدًا في محاكاة اللغة البشرية الحقيقية ، فمن السهل استخدامها لخداع الناس. وبالتالي يمكن استخدام نماذج الذكاء الاصطناعي على سبيل المثال  لتوليد معلومات خاطئة حول الانتخابات أو وباء كوفيد -19. أضف الى ذلك العواقب الوخيمة عند تردي اداء الأنظمة كالترجمة الآلية، وذكر الباحثون مثالا لمنشور فلسطيني  كتب عليه "صباح الخير" باللغة العربية ، ترجمته فيسبوك على أنه "هاجمهم" بالعبرية ، مما أدى إلى اعتقال صاحب المنشور.