٢٢ يوليو ٢٠٢٠

Lip2Wav

مختارات منظور

#تعلم_الآلة #التعلم_العميق #معالجة_الكلام

ما تسمعه هنا ليس بصوتٍ بشري. إنما هو صوت الآلة التي تحاول تقليد صوت المتحدث عبر قراءة شفتيه .. فقط! استمع

تسعى أبحاث توليد الصوت الآلي لتحقيق هدفين أساسين: أنسنة الصوت المٌولّد ووضوحه هذا البحث المنشور حديثا في CVPR 2020 يقترح بنية تتعلم فيها الآلة، باستخدام الشبكات العصبية العميقة، كيف تصدر صوتا طبيعيا عبر متابعة حركات شفاه المتحدث فقط! شاهد الفيديو

هذه البنية والتي اسمها Lip2Wav تعتمد هيكلة sequence-to-sequence التي تتعلم ربط حركات الشفاة المتسلسلة بما يقابلها من أصوات كلامية باستخدام فيديوهات مدتها ١٢٠ ساعة لخمس متحدثين يتكلمون في ظروف غير مخبرية (من اليوتيوب)

التطبيقات لهذه التقنية عظيمة وتشمل:

1. تحسين جودة الصوت خلال البث video conferencing

2. توليد الصوت للفيديوهات الصامتة مثل فيديوهات المراقبة Surveillance videos

3. توليد الصوت للمرضى الذين فقدوا القدرة على إصدار الأصوات بسبب ضرر في الجهاز الكلامي Aphonia

رابط البحث | الكود |بيانات التدريب

منظور

Perspective

حساباتنا في مواقع التواصل:

٢٢ يوليو ٢٠٢٠

Lip2Wav

مختارات منظور

#تعلم_الآلة #التعلم_العميق #معالجة_الكلام