top of page
٢٢ يوليو ٢٠٢٠

Lip2Wav

#تعلم_الآلة  #التعلم_العميق  #معالجة_الكلام

ما تسمعه هنا ليس بصوتٍ بشري. إنما هو صوت الآلة التي تحاول تقليد صوت المتحدث عبر قراءة شفتيه .. فقط! استمع

تسعى أبحاث توليد الصوت الآلي لتحقيق هدفين أساسين:  أنسنة الصوت المٌولّد ووضوحه هذا البحث المنشور حديثا في CVPR 2020  يقترح بنية تتعلم فيها الآلة، باستخدام الشبكات العصبية العميقة، كيف تصدر صوتا طبيعيا عبر متابعة حركات شفاه المتحدث فقط! شاهد الفيديو​

هذه البنية والتي اسمها Lip2Wav تعتمد هيكلة sequence-to-sequence التي تتعلم ربط حركات الشفاة المتسلسلة بما يقابلها من أصوات كلامية باستخدام فيديوهات مدتها ١٢٠ ساعة لخمس متحدثين يتكلمون في ظروف غير مخبرية (من اليوتيوب)

Screenshot 2020-07-20 at 12.34.52.png

التطبيقات لهذه التقنية عظيمة وتشمل:

1. تحسين جودة الصوت خلال البث video conferencing

2. توليد الصوت للفيديوهات الصامتة مثل فيديوهات المراقبة Surveillance videos

3. توليد الصوت للمرضى الذين فقدوا القدرة على إصدار الأصوات بسبب ضرر في الجهاز الكلامي Aphonia

bottom of page