top of page

التعلم العميق في نسخ أسلوب الكلام

15 نوفمبر ٢٠٢٠
#تعلم_الالة  #المعالجة_الالية_للكلام

Karlapati, Sri, et al. "CopyCat: Many-to-Many Fine-Grained Prosody Transfer for Neural Text-to-Speech." Interspeech (2020).

Screenshot 2020-11-15 at 09.50.47.png

تخيل أن تقدم بودكاست بصوتك ولكن بأسلوب ونمط المبدعة لبنى الخميس أو تقدم الأخبار بنمط ماجد الشبل رحمه الله، أو تقدم الابتهالات الدينية بأسلوب حسين النجار؟ نعتقد في منظور أن ذلك أصبح ممكن ومن دون أي أدنى تدريب أو تدخل بشري، ذلك عبر تقنية نقل النمط style stransfare.

 

قبل البدء في توضيح كيفية ذلك، لعلنا نسلط الضوء أولا عن ماهية الكلام. قد يعتقد البعض أن الكلام يعني جملة الكلمات التي نتبادلها أثناء الحديث، لكن في الواقع هو أكبر من ذلك. يمكن بالتالي تقسيم الكلام إلى : (١) ما يقال، ونقصد هنا بالكلمات و (٢) كيف يُقال ، ونقصد هنا ب speech prosody وهو كل ما يتعلق بتوصيف التنغيم والإيقاع ومدة وعلو الصوت.

Andrew Rosenberg يشرح ما هية الكلام 

وفي مجال توليد الكلام speech synthesis، اضفاء طبقة ال prosody يعد أمراً في غاية الأهمية، لأنه يزيد من درجة أنسنة الكلام المولّد. من هنا ازدهرت تقنيات ال prosody transfer والتي تتعلم تنغيم وايقاع الكلام المولٌد من مصدر صوتي بشري.  تخيل انك تضفي أسلوب تنغيم كلام   توم هانكس أو ناصر القصبي على الصوت الذي ترغب في توليده!

 

لكن تقع أغلب هذه التقنيات في فخ source speaker leakage أي أنه ليس فقط يتم نقل نمط التنغيم والايقاع للصوت المصدر، بل وكذلك هويته مما يؤدي إلى طمس هوية الصوت المرغوب توليده. لذلك قام مجموعة من الباحثين من امازون بتطوير نظام لتحسين أسلوب نقل نمط الكلام مع الحفاظ على هوية الصوت المراد توليده. هذا النظام والذي أسموه ب copycat  يقوم باستقبال المدخلات التالية: 

١. التحليل الطيفي mel-spectrogram للصوت المرجعي الذي نرغب في اقتباس نمط الكلام منه

٢. تمثيل embedding لفونيمات الصوت المرجعي

٣. تمثيل embedding لهوية الصوت المرجعي.

ثم يقوم النظام بعد ذلك باستخلاص تمثيل نمط الكلام  يكون غير معتمد على هوية الصوت المرجعي speaker-independent representations of the prosody of the input speech.

download.png

هيكلة Copy-cat

أدى هذا النظام إلى زيادة في فعالية نقل النمط بمقدار ٤٦٪ بالمقارنة مع التقنيات السابقة  وزيادة بمقدار ١٤٪ في المحافظة على هوية الصوت المولد.  هنا مثال لتطبيق هذا النظام: 

ما هي، برأيكم،  تداعيات هذه التقنية؟ وهل هناك آثار سلبية مترتبة عن هذا الموضوع؟ شاركنا على حسابنا في تويتر.

bottom of page