top of page

١٠ أبحاث مذهلة في ٢٠٢٠

قائمة Louis-François Bouchard لأفضل الأبحاث المنشورة في الذكاء الإصطناعي

 

هل تمكن الذكاء الاصطناعي من إيجاد أفضل تمثيل للفنان ناصر القصبي؟ الإجابة تجدها في هذا المقال.

 

قد يكون العالم في هذه السنة في حالة سكون بسبب جائحة كورونا لكن لم يكن الحال كذلك في عالم الأبحاث. في الواقع، العديد من الأبحاث الثورية التي غيرت وجه الذكاء الاصطناعي وأخلاقياته وأظهرت بعض التحيزات الخطيرة قد رأت النور هذه السنة، وأيضاً ظهرت العديد من التطبيقات الواعدة بسبب تطور فهم الدماغ البشري وارتباطه بالذكاء الاصطناعي.


لتوثيق الجهود بمناسبة نهاية السنة الميلادية، قام Louis-François Bouchard الباحث في مجال الذكاء الاصطناعي بنظم قائمة شاملة لأهم الأوراق البحثية في مجال الذكاء الاصطناعي وعلوم البيانات مرتبة زمنيا حسب تاريخ الإصدار. نقوم في منظور بتقديم ملخصات لأهم ما جاء فيها في هذا المقال.

 

1. YOLOv4: Optimal Speed and Accuracy of Object Detection


المجال: رؤية الحاسب


التعرف على الكائنات الموجودة في الصورة هي أحد أهم مهام رؤية الحاسب والتي تحدد ما هو الكائن الموجود في الصورة وأين يجد. تبقى هذه المهمة معقدة وليست مجرد مهمة تصنيف classification، والتي لا تعمل على الصورة التي تحتوي على أكثر من كائن. في ٢٠١٦ ظهرت خوارزمية YOLO ( اختصار ل You Only Look Once) والتي تتمحور فكرتها على استخدام شبكة عصبية تلاففية CNN واحدة فقط على الصورة المدخلة كاملة، والتي بدورها تقوم بتقسيم الصورة الى عدة مناطق (صور أصغر) ثم التنبؤ بما تحتويه هذه الصورة. اشتهرت هذه الخوارزمية ولقت قبولاً واسعاً في أوساط باحثي رؤية الحاسب لأنها حققت نتائج جيدة عبر النظر للصورة مره واحدة فقط بمعنى أنها تحتاج تطبق جولة واحدة من الانتشار الأمامي (forward propagation) لعمل التنبؤ. توالت النسخ المحسنة لهذه الخوارزمية (YOLOv2 , YOLOv3) وفي أبريل الماضي ظهرت النسخة الأخيرة المحسنة YOLOv4 والتي تستخدم المزيد من الخصائص المرئية في الصورة لتحسين أداء ال CNN.

 

2. DeepFaceDrawing: Deep Generation of Face Images from Sketches

المجال: رؤية الحاسب، رسومات الحاسب

(تم تسليط الضوء سابقا على هذا البحث في هذه المختارة)



يركز هذا البحث على إنتاج صورة لوجه بشري عالية الجودة من سكتش يدوي غير مكتمل عبر استخدام تقنية الترجمة بين الصور image-to-image translation. يستعرض البحث ما يسمى sketch-to-image synthesis والذي يحول رسومات خط اليد الى صورة بشرية عبر تعلم feature embeddings لأهم ملامح الوجه وبعد ذلك استخدام شبكات GAN لبناء الصورة البشرية. أحد أهم تطبيقات هذه التقنيات: Face Morphing التي تدمج بين صورتين، وكذلك تقنيات Face Copy-Paste. نعتقد كذلك في منظور أن هذه التطبيقات مفيدة لتحويل رسومات أوصاف المشتبه بهم في الجرائم إلى صور تساعد في تحديد هوياتهم ومن ثم التعرف عليهم.

 

3. PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models

المجال: معالجة الصور




طرح البحث خوارزمية تقوم بتحويل الصور المشوشة والضبابية ذات الجودة الرديئة إلى صور عالية الجودة أو ما يسمى بـ photo upsampling. مثلا، يمكن تحويل صور الوجوه الصغيرة ذات الأبعاد ١٦ في ١٦ الى صور بدقة 1080p. تحسين الصور يتم عادة باستخدام التعلم الموجه supervised learning لتدريب الشبكات العصبية للتنبؤ بالصورة العالية الجودة عبر النظر للصور المشوشة ومن ثم قياس متوسط المسافة بين الصورة الجديدة العالية الوضوح و الصورة المرجعية ground truth. مشكلة هذه المنهجية أنها قد تتجاهل تفاصيل مهمة مثل تركيب سطح الصورة texture مما يؤدي إلى إنتاج صور ذات بقع مشوشة. لتفادي هذه المشكلة، يقوم هذا البحث بحل هذه المشكلة عبر استخدام خوارزميات ذات تعلم ذاتي تبحث عن صور موجودة تم توليدها باستخدام النماذج التوليدية GAN، تكون نسختها المشوشة والضبابية قريبة من الصورة المشوشة التي يود تحسينها.

كان لدينا فضول في منظور لتجربة هذه الخوارزمية، لذلك استخدمنا صورة الممثل ناصر القصبي في هذه التجربة. بالاضافة لكونه ممثلنا المحبوب، اخترنا هذه الشخصية لنختبر كذلك تحيز الخوارزمية نحو أعراق محددة. كانت النتيجة كالتالي:



كما هو موضح اقترحت الخوارزمية خمسة صور تم توليدها باستخدام النماذج التوليدية، أي أنها ليست صور حقيقية. نوعا تبدو النتائج جيدة، لكن اذا تم توصيف المجموعة الإثنية في النتائج فيمكن القول أنها أقرب للعرق اللاتيني أو الآسيوي.

 

4. Unsupervised Translation of Programming Languages


المجال: معالجة اللغات الطبيعية



طرحت فيسبوك في هذا البحث نموذج يقوم بتحويل الأكواد من لغة برمجية إلى لغة برمجية أخرى، مثل من لغة C إلى لغة python من دون نماذج تدريب مسبقة، حيث يقوم بفهم طريقة بناء الكود (syntax) وبعد ذلك تحويله للغة المطلوبة . اسم النموذج Transcoder أي المحول والذي يمكن اعتباره كمترجم. عملية تدريب هكذا نموذج تحتاج لمعرفة شاملة باللغات البرمجية وأمثلة كبيرة وكذلك تكلفة حاسوبية عالية. لذلك قامت فيسبوك باعتماد الترجمة الغير موجهة unsupervised machine translation لبناء نموذج sequence-to-sequence model تم تدريبه بالاعتماد على مشاريع GitHub المفتوحة المصدر، وبالتركيز على ٣ لغات برمجية: C, Java and Python. هذا النموذج بالتأكيد خبر سعيد للمبرمجين الذين يرغبون في التركيز على تقديم الحلول في منصات مختلفة باستخدام كود برمجي واحد.

 

5. High-Resolution Neural Face Swapping for Visual Effects


المجال: رسومات الحاسب



طور باحثون في ديزني خوارزمية جديدة عالية الدقة لتقنية مبادلة الوجه أو face swapping لخلق تأثيرات مرئية عن إنتاج الأفلام السينمائية. الهدف من هذه التقنية هو تبديل وجه الممثل الأصلي في الفيديو المعطى بوجه ممثل آخر مع الحفاظ على أداء الممثل الأصلي. من أهم التطبيقات لهكذا تقنية عندما يتغير عمر الممثل الأصلي عند تصوير الفيلم، أو في حالة عدم قدرته على إكمال التصوير (كما في حالة وفاة الممثل مثل ما حصل في فيلم "حليم" حينما توفى "أحمد زكي" قبل نهاية التصوير)، أو عند الحاجة على لتصوير مشهد قد يكون خطيرًا جدًا على الممثل الرئيسي. تتطلب الأساليب الحالية الكثير من الرسوم المتحركة إطارًا بإطار والمعالجة اللاحقة بواسطة أشخاص محترفين. في هذا البحث، تم تطوير شبكات عصبية تقوم بترميز هوية الوجه المدخل ثم بعد ذلك دمجه في الصورة المطلوبة مع الحفاظ على تعابير الوجه الأصلي.

 

6. GPT-3: Language Models are Few-Shot Learners


المجال: معالجة اللغة الطبيعية



نموذج GPT-3 هو النسخة الثالثة من نماذج تعلم الآلة التوليدية الخاصة بمعالجة اللغة، وهو أضخم النماذج على الإطلاق حتى الآن! :


في فبراير 2019، قام معمل OpenAI بإطلاق نموذج اللغة GPT-2 الذي يأخذ نص قصير كمُدخل لتوليد عدة فقرات من نصوص اللغة الطبيعية السليمة لغويا والمتجانسة. بعد عام أطلقت GPT-3 الذي يفوق حجم سابقه ب ١٠٠ مره محتويا على ١٧٥ بليون معامل. الصورة المرفقة توضح القفزة الهائلة في عدد المعاملات! سبق إطلاق GPT-3 إعادة هيلكة OpenAI لتتحول من منظومة قائمة على المتبرعين فقط إلى السماح للمستثمرين من الدخول فيها، واعتمدت هيكلة capped-profit الهجينة أي أنها مؤسسة ربحية وغير ربحية معا! استثمرت مايكروسوف بليون دولار عبر بناء معمل من الحواسيب الفائقة الأداء.

​المهمة التي تدربت عليها GPT-3 هي كالتالي: بالنظر إلى الكلمات السابقة في النص، توقع الكلمة التالية! أثناء التدريب قام النموذج بالاعتماد على بيانات هائلة من مستودعات النصوص Common Crawl و Wikipedia. جهاد العمار يقدم شروحات مرئية في غاية الروعة عن هذا النموذج. هذه المختارة من منظور تعرض تطبيقات لهذا النموذج.

 

7. Learning Joint Spatial-Temporal Transformations for Video Inpainting


المجال: معالجة الفيديو


يقترح هذا البحث خوارزمية تستطيع تعديل محتويات فيديو معطى عبر محو بعض الكائنات من هذا الفيديو، وكأنها لم تكن موجودة! لا تكتفي الخوارزمية بحذف الكائنات بل كذلك تقوم باعداد المشهد عبر تعبئة الفراغ (البكسلز) الذي خلفه الكائن المحذوف وهذا ما يمسى في علم معالجة الصور ب video inpainting . الطرق المتبعة في هذه التقنية عادة تستخدم نماذج الانتباه (attention model) والتي تقوم بالتركيز على مناطق الفراغ الذي خلفه الكائن المحذوف. لكن يبدو ان هذه التقنيات والتي تعمل جيدا في الصور، يكون اداءها غير مرضي في الفيديو الذي يتميز بالتغيير الزماني والمكاني لهذه الكائنات، مما يتسبب في خلق تشويش مكان الكائنات المحذوفة. أما هذا البحث، والذي قام به باحثون من مايكروسوفت، فهو يقوم باستخدام هيكلة Transformer والتي تقوم بتعبئة الفراغات في شرائح الفيديو المتقاربة في نفس الوقت باستخدام adversarial training وذلك لأخذ التغير الزماني والمكاني للعنصر المحذوف في الفيديو في عين الاعتبار.

 

8. Image GPT - Generative Pre-training from Pixels

المجال: معالجة الصور


يقوم النموذج باكمال الصورة الناقصة باستخدام النماذج التوليدية


رأينا ما حصل بعد الإعلان عن نموذج GPT-3 الذي أثارت تطبيقاته لتوليد النصوص بجودة عالية اهتمام الجميع! يستعرض هذا البحث نموذج آخر من OpneAI ولكن هذه المرة لتوليد الصور! نموذج Image GPT تم إطلاقه يونيو الماضي كورقة في ICML أهم مؤتمرات تعلم الآلة. الهدف الأساسي من البحث هو تدريب النموذج على قاعدة بيانات ضخمة من الصور مثل ImageNet، وبعد أن يتم تدريب النموذج يتم استخدامه في تصنيف الصور في قاعدة بيانات أصغر مثل CIFAR-10 بحيث تحتوي على الصورة والتصنيف الخاص بها! وبذلك يتحسن أداء المصنف الآلي! قم بالإطلاع على المختارة الخاصة بهذا البحث هنا.

 

9. Learning to Cartoonize Using White-box Cartoon Representations


المجال: رسومات الحاسب



صورة كارتونية للفنان القدير ناصر القصبي باستخدام النموذج المطروح في هذا البحث


هذا البحث يقدم نموذج يحول الوجوه الى صور كأنها شخصيات كارتونية (انمي). الأنمي (او الأنيميشن الياباني) ، معشوق الملايين، هو اختصار من كلمة أنميشن الإنجليزية والتي تشير لجميع الرسوم المتحركة، ومنها الكرتون. تعتمد الطريقة الحالية في صنع الأنيمي على التصميم اليدوي بمساعدة برامج التصميم والأنيميشن على الكمبيوتر. هنا مقطع جميل يوثق كيفية انتاج الانمي الشهير ناروتو والذي يظهر كيف يتطلب إنشاء أعمال الرسوم المتحركة عالية الجودة دراسة متأنية للخطوط والأنسجة والألوان والظلال وكيف أنه أمر معقد ويستغرق وقتًا طويلاً ! قدمت النماذج التوليدية (GANs) خدمة كبيرة لصناعة الأنيمي حيث أصبح بالإمكان تحويل الفيديوهات التي تم تصويرها بالكاميرا الى فيلم كارتوني عالي الجودة مشابهة لنمط أفلام الأنيمي عبر تقنية ترجمة الصور Image to image translation والمدعومة بشبكات التعلم العميق. اقرأ المزيد عن استخدام الذكاء الاصطناعي في صناعة الأنمي في هذه المختارة.

 

10. Lifespan Age Transformation Synthesis

المجال: رسومات الحاسب



طور فريق من الباحثين من Adobe Research تقنية جديدة لتوليف التحول العمري بناءً على صورة واحدة فقط من الشخص. يمكن أن تولد عدة صور من مراحل عمر الانسان من الطفولة الى الشيخوخة من صورة واحدة مدخلة باستخدام النماذج التوليدية GANs. تم تدريب هذا النموذج على قاعدة بيانات FFHQ dataset من فلكر التي تحتوي على صور متنوعة الاعمار حيث يتعلم النموذج head shape deformation او كيف يتغير شكل الوجه في الفئات العمرية المختلفة. ال generator في هيكلة ال GAN يقوم بترميز المراحل العمرية المختلفة للصورة، وترميز هوية الوجه بشكل منفصل حتى يتم التأكد من أن هوية الشخص لا تتغير بشكل كبير عبر التقدم بالعمر. في منظور قمنا باختبار الكود وعمل مثال يوضح طريقة عمل هذه الخوارزمية: شاهد المراحل العمرية للفنان القدير محمد هنيدي كما تنبأها الذكاء الاصطناعي:



لطيف! أليس كذلك؟

 

الدروس المستفادة


مع نهاية هذه السنة تطور أداء الذكاء الاصطناعي بشكل كبير في كل من:

  1. التعرف على الكائنات المتعددة في الصور

  2. التنبؤ بالصورة الحقيقة من سكيتش يدوي غير مكتمل

  3. تحسين جودة الصور المتردية

  4. تحويل من لغة برمجية لأخرى بكل سلاسلة

  5. توليد النصوص

  6. توليد الصور

  7. تعديل محتويات الفيديو عبر حذف الكائنات الموجوده أو استبدال وجوه الأشخاص فيها (Deep Fake)

  8. التنبؤ بالمراحل العمرية لشخص ما من صورة مدخلة واحدة


أمنياتنا لكم بسنة سعيدة!


300 views0 comments

Recent Posts

See All
bottom of page