٢٢ يوليو ٢٠٢٠

Lip2Wav

#تعلم_الآلة  #التعلم_العميق  #معالجة_الكلام

ما تسمعه هنا ليس بصوتٍ بشري. إنما هو صوت الآلة التي تحاول تقليد صوت المتحدث عبر قراءة شفتيه .. فقط! استمع

تسعى أبحاث توليد الصوت الآلي لتحقيق هدفين أساسين:  أنسنة الصوت المٌولّد ووضوحه هذا البحث المنشور حديثا في CVPR 2020  يقترح بنية تتعلم فيها الآلة، باستخدام الشبكات العصبية العميقة، كيف تصدر صوتا طبيعيا عبر متابعة حركات شفاه المتحدث فقط! شاهد الفيديو​

هذه البنية والتي اسمها Lip2Wav تعتمد هيكلة sequence-to-sequence التي تتعلم ربط حركات الشفاة المتسلسلة بما يقابلها من أصوات كلامية باستخدام فيديوهات مدتها ١٢٠ ساعة لخمس متحدثين يتكلمون في ظروف غير مخبرية (من اليوتيوب)

التطبيقات لهذه التقنية عظيمة وتشمل:

1. تحسين جودة الصوت خلال البث video conferencing

2. توليد الصوت للفيديوهات الصامتة مثل فيديوهات المراقبة Surveillance videos

3. توليد الصوت للمرضى الذين فقدوا القدرة على إصدار الأصوات بسبب ضرر في الجهاز الكلامي Aphonia

منظور ٢٠٢٠ © جميع الحقوق محفوظة

‭‬تحتفظ‭ ‬منصة منظور ‬بحقوق‭ ‬ملكيتها‭ ‬للمواد‭ ‬المنشورة‭ ‬فيها،‭ ‬ويتطلب‭ ‬إعادة‭ ‬نشر‭ ‬أي‭ ‬مادة ‬إلكترونيًّا‭ ‬أو‭ ‬ورقيًّا‭ ‬الحصول‭ ‬على‭ ‬موافقة‭ ‬منظور ‬مع‭ ‬الإشارة‭ ‬إلى‭ ‬المصدر‭.‬