١٣ يوليو ٢٠٢٠

محاكاة سمع البشر

مختارات منظور

#تعلم_الآلة #التعلم_العميق #معالجة_الكلام

نستطيع بكل سهولة كبشر لو كنا في حفل صاخب أن نوجه تركيزنا للاستماع لشخص واحد وعزل باقي اصوات الضجيج في الخلفية. لكن هل تستطيع الآلة فعل ذلك؟ في ٢٠١٨، تمكن فريق من جوجل من محاكاة طريقة استماع البشر.

شاهد الفيديو التالي

تعرف القدرة على عمل “ميوت” للأصوات في الخلفية للتركيز على صوت واحد ب cocktail party effect او تأثير الحفلة ونشأ خط من الأبحاث مهتم بنمذجة هذا التأثير بهدف تحسين اداء انظمة التعرف الآلي على الكلام #Automatic_speech_recognition او تحسين الكلام عموما #Speech_enhancement

هذا البحث استفاد من مصدر معلومات مهم لم تتأثر جودته بالضجيج، الا وهو الكلام المرئي، او ما يسمى بقراءة الشفاه، والذى يتزامن حدوثه مع الكلام الصوتي الذي نسمعه. فائدة الكلام المرئي عظيمة، لم يساعد فقط في فصل الكلام المسموع لكل متحدث بل ساهم الى حد كبير في تحسينه.

تم تجميع ما يقارب من ١٠٠ الف فيديو من يوتيوب للتدريب ولخلق تأثير الحفلة عبر اضافة اصوات من الخلفية. تم تدريب نموذج CNN متعدد القنوات و الذي يقوم بفصل هذا التأثير الي قنوات متعددة بعدد المتحدثين في الفيديو عبر الاستفادة من معلومات حركات شفاه المتحدثين.

هنا المزيد من الأمثلة المذهلة

رابط البحث

منظور

Perspective

حساباتنا في مواقع التواصل:

١٣ يوليو ٢٠٢٠

محاكاة سمع البشر

مختارات منظور

#تعلم_الآلة #التعلم_العميق #معالجة_الكلام