تلخيص النصوص باستخدام التعلم المعزز
٦ سبتمبر ٢٠٢٠
#الذكاء_الاصطناعي #تلخيص_النصوص #التعلم_المعزز
رابط البحث: https://arxiv.org/pdf/2009.01325.pdf

Brian J. Matis - 2010
يعود تلخيص النصوص من جديد إلى الأضواء مع بحث علمي جديد من Open AI. هذا البحث يستخدم التعلم المعزز Reinforcement Learning لتلخيص النصوص حيث يتميز بأنه يستخدم التعليقات التي كتبها البشر لتدريب النموذج اللغوي لزيادة دقة هذا النموذج في عملية التلخيص. ركز الباحثون على تلخيص النصوص باللغة الإنجليزية، وهي كما يصفها الباحثون أنها مهمة معقدة بسبب صعوبة تحديد ما إذا كان ملخص "جيد" بدون تدخل بشري.
استخدم الباحثون مجموعة بيانات TL;DR لتدريب النموذج، وهي عبارة عن مجموعة من المنشورات على منصة Reddit يبلغ عددها ٤ مليون منشور، حيث تحتوي على المنشور وملخص قصير كتبه مؤلف المنشور نفسه. استخدمت مجموعة البيانات هذه لأول مرة عام ٢٠١٧ في بحث نشر في مؤتمر ACL الشهير المختص بمعالجة اللغة الطبيعية، حيث كانت الغاية من جمع هذه البيانات هي استخدامها في عملية التلخيص أيضاً. وعلى الرغم من أن النموذج تم تدريبه على نصوص من Reddit، تمكن الباحثون من استخدام نفس النموذج كما هو لتلخيص مقالات CNN و DailyMail والتي يبلغ عددها ٣٠٠ ألف مقالة.
استطاع النموذج الجديد، الذي يوظف تعليقات البشر، أن يتفوق على غيره من النماذج التي اعتمدت على التعلم الموجه والنماذج مسبقة التدريب مثل GPT-3. فكما يوضح الرسم في الأسفل يُقاس أداء النموذج بعدد المرات التي يتم تفضيل الملخصات الناتجة من هذا النموذج على الملخصات التي كتبها البشر.
ولأن البيانات اعتمدت على ملخصات كتبها مؤلفي المنشورات أنفسهم، لاحظ الباحثون أن الكتاب يقومون بمقايضات مختلفة عند كتابة الملخصات، تتراوح ما بين الإيجاز والاستطراد بالاعتماد على النص الأصلي، كما يقومون بكتابة ملخصات مضحكة دون إبداء أي اهتمام بالقواعد الإملائية والنحوية. وبسبب تفضيل المحكمين للملخصات الأطول تكيفت النماذج مع هذا التفضيل بحيث أدت إلى إنتاج ملخصات تميل للطول نوعاً ما.
المنهجية التي اتبعها الباحثون تتكون من ثلاث خطوات: يقوم الباحثون أولاً بجمع مجموعة بيانات من التفضيلات البشرية بين أزواج من الملخصات لكل منشور على Reddit من عدة مصادر. بعد ذلك يتم تدريب نموذج المكافأة من خلال التعلم الموجه للتنبؤ بالملخص الذي فضله المقيم البشري. أخيرًا يتم تدريب استراتيجية Policy من خلال التعلم المعزز لتعظيم الدرجة التي يمنحها هذا النموذج حسب جودة التلخيص وبذلك يتم إنتاج ملخصات تسجل درجات عالية وفقًا لنموذج المكافأة هذا. وجد الباحثون أن هذا يحسن بشكل كبير من جودة الملخصات عندما يتم تقييمها من قبل البشر، حتى عند استخدام هذا النموذج على بيانات مختلفة عن تلك المستخدمة في التدريب. يمكن بعد ذلك الاستفادة من المخرجات في تكرار عملية التعلم.

في مجال التعلم المعزز تشير الاستراتيجية أو القاعدة Policy التي يشار لها بالرمز π في الصورة السابقة إلى الطريقة التي يتم تدريب النموذج فيها لاتخاذ قرار ما في وقت ما. وبشكل أدق هي الطريقة التي يتم ربط الإجراء الذي ينبغي اتخاذه في الخطوة القادمة بالحالة الراهنة للنموذج. هدف التعلم المعزز هو تدريب النموذج على أفضل استراتيجية للوصول للهدف وهو تلخيص النصوص. يمكن القراءة بشكل أكثر عن القواعد (الاستراتيجيات) في صفحة ويكيبيديا أو الإطلاع على الدروس المقدمة من DeepMind على يوتيوب.
من أبرز النقاط التي ذكرها الباحثون أن تدريب النموذج يتطلب قدرة حاسوبية عالية وهو أمر غير متاح لجميع الباحثين. تطلب ضبط نموذج واحد ٣٢٠ يوم باستخدام وحدة معالجة رسومية GPUs. ومع ذلك، يشير الباحثون إلى امكانية تدريب نماذج أصغر باستخدام مدخلات بشرية يمكن أن يؤدي إلى تحقيق نتائج أكثر فعالية من النماذج الكبرى.
على الرغم من تفوق النموذج في الأداء على الملخصات المكتوبة من قبل المؤلفين إلا أن المقيمين وجدوا أن النموذج لا يزال يحتاج للتحسين بسبب انتاجه ملخصات غير دقيقة عند اعتبار عوامل مثل معدل التغطية للمحتوى الأصلي، الاتساق وغير ذلك. في معظم الوقت كان حكم المقيمين من ناحية الدقة يقارب ٤٥٪. ومع ذلك، أشار الباحثون إلى أن هدفهم هو تأكيد أهمية تدريب نماذج التعلم بالاعتماد على التفضيلات البشرية في أبحاث الذكاء الاصطناعي المستقبلية.
نستعرض أحد أمثلة الملخصات التي أنتجها النموذج:

يمكن ملاحظة الفرق في جودة التلخيص ما بين الملخص الذي كتبه المؤلف والملخصات التي أنتجها النموذج.

للاطلاع على بقية الأمثلة في الموقع و الأكواد البرمجية:
https://openai.com/blog/learning-to-summarize-with-human-feedback
رابط البحث: https://arxiv.org/pdf/2009.01325.pdf