١٣ يوليو ٢٠٢٠
محاكاة سمع البشر
#تعلم_الآلة #التعلم_العميق #معالجة_الكلام
نستطيع بكل سهولة كبشر لو كنا في حفل صاخب أن نوجه تركيزنا للاستماع لشخص واحد وعزل باقي اصوات الضجيج في الخلفية. لكن هل تستطيع الآلة فعل ذلك؟ في ٢٠١٨، تمكن فريق من جوجل من محاكاة طريقة استماع البشر.
شاهد الفيديو التالي
تعرف القدرة على عمل “ميوت” للأصوات في الخلفية للتركيز على صوت واحد ب cocktail party effect او تأثير الحفلة ونشأ خط من الأبحاث مهتم بنمذجة هذا التأثير بهدف تحسين اداء انظمة التعرف الآلي على الكلام #Automatic_speech_recognition او تحسين الكلام عموما #Speech_enhancement

تم تجميع ما يقارب من ١٠٠ الف فيديو من يوتيوب للتدريب ولخلق تأثير الحفلة عبر اضافة اصوات من الخلفية. تم تدريب نموذج CNN متعدد القنوات و الذي يقوم بفصل هذا التأثير الي قنوات متعددة بعدد المتحدثين في الفيديو عبر الاستفادة من معلومات حركات شفاه المتحدثين.

هنا المزيد من الأمثلة المذهلة