top of page
١٣ يوليو ٢٠٢٠

محاكاة سمع البشر

#تعلم_الآلة  #التعلم_العميق  #معالجة_الكلام

نستطيع بكل سهولة كبشر لو كنا في حفل صاخب أن نوجه تركيزنا للاستماع لشخص واحد وعزل باقي اصوات الضجيج في الخلفية. لكن هل تستطيع الآلة فعل ذلك؟ في ٢٠١٨، تمكن فريق من جوجل من محاكاة طريقة استماع البشر.

 

شاهد الفيديو التالي

تعرف القدرة على عمل “ميوت” للأصوات في الخلفية للتركيز على صوت واحد ب cocktail party effect او تأثير الحفلة ونشأ خط من الأبحاث مهتم بنمذجة هذا التأثير بهدف تحسين اداء انظمة التعرف الآلي على الكلام #Automatic_speech_recognition او تحسين الكلام عموما #Speech_enhancement

هذا البحث استفاد من مصدر معلومات مهم لم تتأثر جودته بالضجيج، الا وهو الكلام المرئي، او ما يسمى بقراءة الشفاه، والذى يتزامن حدوثه مع الكلام الصوتي الذي نسمعه. فائدة الكلام المرئي عظيمة، لم يساعد فقط في فصل الكلام المسموع لكل متحدث بل ساهم الى حد كبير في تحسينه.

Ecy36-AWoAQgTFA.jpeg

تم تجميع ما يقارب من ١٠٠ الف فيديو من يوتيوب للتدريب ولخلق تأثير الحفلة عبر اضافة اصوات من الخلفية. تم تدريب نموذج CNN متعدد القنوات و الذي يقوم بفصل هذا التأثير الي قنوات متعددة بعدد المتحدثين في الفيديو عبر الاستفادة من معلومات حركات شفاه المتحدثين.

Ecy4OiZXgAEGmFj.jpeg

هنا المزيد من الأمثلة المذهلة 

bottom of page