كيف تمت الاستفادة من علم البيانات لمواجهة فيروس كورونا (Covid-19): مراجعة شاملة

استمع لزبدة المقال على منصتنا في الساوند كلاود.

الكتٌّاب : صديق لطيف وآخرون (عدد الكتاب ١١ كاتباً من جامعات مختلفة حول العالم في استراليا، وكوريا الجنوبية، باكستان والصين وبريطانيا)

ورقة منشورة في TechRxiv (منصة أبحاث ما قبل النشر التابعة لـ IEEE)

Latif, Siddique; Usman, Muhammad; Manzoor, Sanaullah; Iqbal, Waleed; Qadir, Junaid; Tyson, Gareth; et al. (2020): Leveraging Data Science To Combat COVID-19: A Comprehensive Review. TechRxiv. Preprint. https://doi.org/10.36227/techrxiv.12212516.v1

انطباع فني يصور عن "مقتل" الفيروس التاجي COVID-19




تقديم منظور


علم البيانات يعد أحد أهم التخصصات التي جذبت اهتمام الكثيرين في السنوات الأخيرة. يهدف هذا العلم إلى الاستفادة من البيانات، بشتى صورها، لإيجاد حلول للتحديات التي تواجهها القطاعات المختلفة أو حتى على مستوى الأفراد. في جوهره، علم البيانات هو عبارة عن منهجية تشمل عدة مراحل ينبغي اتباعها للوصول للهدف وهو الحصول على رؤى ونتائج يصعب استنباطها من البيانات بشكل مباشر دون المرور بهذه المراحل.

اخترنا هذا البحث للكتابة عنه، لأننا نعتقد أنه يحتوي على معلومات ثمينة يمكن اعتبارها جزء من خارطة الطريق للتعامل مع الأوبئة، سواء كان الحديث عن جائحة كورونا أو أي وباء يمكن أن يصيب البشرية في المستقبل. في منظور، نحن نأمل أن يكون محتوى هذا المقال مفيداً لجميع الباحثين المهتمين في التقاطع ما بين علوم الحاسب (علم البيانات تحديداً) وسائر التخصصات الأخرى مثل التخصصات الصحية وعلم الاقتصاد والإدارة. كذلك، محتوى هذا المقال يمكن أن يشكل النواة لخطة وطنية أو برنامج وطني شامل لمواجهة الأوبئة والفيروسات حفاظاً على الأنفس والمقدرات. هذا المقال مهم لرواد الأعمال المهتمين بالتقنية لما يحتويه من إشارات مهمة لاتجاهات التقنية في هذا القطاع الهام.


ملخص تنفيذي


بتاريخ مارس ٢٠٢٠ أعلنت منظمة الصحة العالمية أن ما يعرف بـ COVID-19 جائحة عالمية، وهو مرض معدٍ يسببه فيروس SARS-CoV-2. حتى وقت كتابة هذا البحث، بلغ عدد المصابين بالفيروس ٢.٨ مليون شخص. عدد المصابين بهذا المرض يزداد بشكل مطرد بالتوازي مع الجهود الهائلة التي بذلت لمكافحة المرض. هذا البحث يهدف إلى حصر، تصنيف وعرض الجهود البحثية المبذولة في مجال علم البيانات. كما يقدم مسح لقواعد ومستودعات البيانات المفتوحة التي يمكن استخدامها في الأبحاث المستقبلية التي تهدف لتتبع انتشار المرض والتخفيف من آثاره. وفي نهاية البحث يستعرض الكتاب التحديات ونقاط الضعف التي لوحظت في الأبحاث التي تمت مراجعتها. أنشأ الباحثون صفحة على منصة github تحتوي على الأبحاث والبيانات التي تمت مراجعتها، كما يعد الباحثون بتحديث هذا المخزن دورياً.


يرى الباحثون أن علم البيانات سيكون له دوراً محورياً في المحاولات العالمية للتصدي لجائحة كورونا. كما يرون أن هذه المراجعة ستكون مفيدة جداً لعلماء البيانات والباحثين في مجال الذكاء الاصطناعي الذين يرغبون في البحث في هذا المجال خاصة. ونظراً لطبيعة هذه الجائحة كون العمل عليها يحتاج إلى تعاون من مختلف التخصصات، يساعد هذا البحث جميع المختصين في تشكيل فرق بحثية ذات تخصصات متعددة. كما لا تقتصر أهمية هذه المراجعة للباحثين فقط، بل هي موجهه كذلك للمختصين بالاستراتيجيات وصانعي السياسات لتساعدهم على فهم فوائد علم البيانات والتحديات القائمة لاستخدامه في التصدي لهذه الجائحة. 


فيما يلي نستعرض الخارطة الذهنية لهذا البحث:

منذ شهر ديسمبر ٢٠١٩م، بلغ عدد الأبحاث المنشورة الخاصة بكورونا ما يضاهي ٢٤ الف بحث، تنوعت منافذ النشر ما بين المجلات المحكمة وغيرها من المنافذ التي تقبل أبحاث ما قبل النشر أي التي لم تتم مراجعتها بعد. وبسبب كثرة هذه الأبحاث الغير مراجعة ورغبة في إثراء المجتمع البحثي قرر الباحثون أن يقوموا بهذه المراجعة لتسهيل الوصول لهذه الأبحاث والبيانات المستخدمة فيها. 

في هذا المراجعة يُستخدم مصطلح "علم البيانات" كمظلة تشمل جميع التقنيات التي تستخدم الأساليب العلمية والخوارزميات والأنظمة للاستفادة من البيانات المنظمة وغير المنظمة. كما أن هذه المراجعة تستعرض الأبحاث المتعلقة بعلم البيانات وما يحيط بها من تخصصات تقنية. وقد راعى الباحثون أن تكون هذه المراجعة شاملة قدر المستطاع.


تنقسم هذه المراجعة إلى ٥ أجزاء كما هو موضح في الصورة أدناه. في هذا المقال سنركز على أربعة أقسام فقط وهي تطبيقات علم البيانات لمواجهة كورونا، البيانات والمصادر، دراسة مسحية على الأبحاث المنشورة والتحديات المستقبلية. 


القسم الأول: تطبيقات علم البيانات لمواجهة كورونا


١. تقدير المخاطر وتحديد أولوية العلاج 


تواجه أنظمة الرعاية الصحية في جميع أنحاء العالم ضغوطاً غير مسبوقة على مواردها (مثل مدى توافر أسرة العناية المركزة، وأجهزة التنفس). الأمر الذي يستدعي الحاجة لتقدير وإدارة المخاطر بشكل سريع ودقيق بغرض استخدام الموارد المتوفرة على الوجه الأمثل. وبسبب عدم تمكن مقدمي الرعاية الصحية من الوصول لسجل المرضى التاريخي، يشكل الأمر تحدي كبير لتحديد الأولوية في العلاج. بعض الدراسات السابقة اقترحت استخدام تقنيات تعلم الآلة (الشبكات العصبية الاصطناعية من نوع ANN تحديداً) لتقدير المخاطر لبعض الأمراض مثل الأورام والسكري وأمراض القلب. ولذلك، يقترح الباحثون استخدام بعض الخصائص مثل العمر أو الجنس أو الحالة الصحية لتقدير مخاطر الوفيات من مرض كورونا. هذا الأمر يصبح أكثر أهمية عندما تكون الموارد محدودة كما في حالات ارتفاع أعداد المرضى في العناية المركزة. 


٢. الفحص والتشخيص


مع تنامي معدلات الإصابة بكورونا، تواجه معظم البلدان تحد كبير بسبب عدم توفر الفحص والتشخيص المناسب. وهذا يزيد من صعوبة اتخاذ القرارات بشأن التجمعات وكذلك القرارات في فرض تدابير التباعد الاجتماعي، والسبب يعود إلى أن كثير من المرضى لا تظهر عليهم أعراض ولا يدركون غالباً أنهم حاملين للمرض. لذا من أهم الجوانب الرئيسية في مواجهة كورونا هي تطوير أدوات التشخيص عن بعد. بعض هذه الأدوات متوفر حالياً (مثل تطبيق Babylon المستخدم في تطبيق وزارة الصحة السعودية) يمكن تطوير هذه الأدوات لتتمكن من التعامل مع حالات الاشتباه بالمرض. بعض الحلول الأخرى تشمل التطبيقات المعتمدة على البيانات التي يتم جمعها من التقنيات الملبوسة wearable technology (مثل الساعات الذكية) أو أجهزة المتابعة. على سبيل المثال، تطبيق COVID-19 Sounds هو تطبيق للجوال يجمع بيانات أعراض التنفس الخاصة بالمشتبه فيه للمساعدة في عملية التشخيص. يرى الباحثون أن مثل هذه الحلول ستكون مفيدة بشكل كبير خاصة في البلدان النامية التي تعاني من نقص في مرافق الرعاية الصحية. كذلك، تطوير أدوات التشخيص يسهل فحص عدد أكبر من الأشخاص (في المطارات، مثلاً) باستخدام التصوير الحراري القائم على الرؤية الحاسوبية computer vision لاكتشاف المرضى.


٣. المحاكاة والنمذجة


يرى الباحثون أن من أهم الأدوات المساندة لعمليات التخطيط وصنع القرار هما النماذج الوبائية الدقيقة ونماذج المحاكاة. النماذج الوبائية Epidemics models تستخدم للتنبؤ بالسلوك الماكروسكوبي* (المقياس العياني) لمرض معدي، بمعنى أنها تستخدم للتنبؤ بانتشار المرض بين أفراد المجتمع. في هذه النماذج التي تسمى النماذج التجزيئية (Compartmental models)، بحيث ينقسم السكان إلى مجاميع ويتم نمذجة تحول حالات الأفراد بين المجموعات باستخدام معادلات رياضية. على سبيل المثال، تم نمذجة انتشار فيروس كورونا مؤخرًا باستخدام نموذج (SEIR)، الذي يحدد انتقال الأشخاص بين أربع حالات (أو مجموعات) في الفترة الي ينتشر فيها المرض وهي: (١) قابل للتأثر بالمرض، (٢) عرضة للمرض، (٣) مصاب أو (٤) مسترد لعافيته. الرسم بالأسفل يوضح الانتقال بين الحالات المختلفة (تستخدم هذه النماذج لحساب إجمالي عدد المصابين، أو مدة الوباء، وتقدير المعلمات الوبائية المختلفة مثل عدد التكاثر الرئيسي أو Reproductive number R0).

يمكن دمج عدد من هذه النماذج الوبائية لإنشاء نموذج يمثل الانتشار الفيروسي للجائحة في المناطق المختلفة. فعلياً، ظهرت بعض مواقع الويب (مثال١ ، مثال٢) التي تتنبأ بطرق انتشار الفيروس في الدول حول العالم عن طريق استخدام نماذج وبائية متنوعة مع العلم أنه ينبغي التعامل معها بحذر بسبب صعوبة التأكد من دقة هذه النماذج في الوقت الحالي. يعتقد الباحثون أن من أهم التحديات لبناء هذه النماذج هي تحديد أفضل الطرق لجمع البيانات التي تستخدم في النماذج الرياضية. ومن المصادر التي يمكن استخدامها لجمع البيانات الخاصة بمن يحتمل إصابتهم بالفيروس: شبكات التواصل الاجتماعي أو المكالمات التي ترد على مراكز الاتصال لطلب سيارات الإسعاف. 


يمكن استخدام نماذج المحاكاة الحاسوبية (Computer Simulation) على نطاق واسع لكثير من الأغراض بما في ذلك القرارات التي تؤثر على انتقال الأمراض. على سبيل المثال، القرارات المتعلقة بالحجر الصحي واستراتيجيات التباعد الاجتماعي أو القرارات المتعلقة بإدارة الموارد وسعة أسرة المستشفيات ووحدات العناية المركزة. كذلك، يمكن استخدامها لتحديد العدد المطلوب من مقدمي الرعاية الصحية، وأعداد المرضى الذين يمكن استيعابهم في المستشفيات. 


٤. اقتفاء المخالطين (أو متابعة مخالطي المرضى)

مع بداية انتشار كورونا معظم البلدان اتخذت مجموعة من التدابير التي تهدف إلى  احتواء المرض، ويتضمن ذلك تشخيص المصابين بسرعة، وما يتبع ذلك من الحجر الصحي وتتبع المخالطين مما يساهم في احتواء تفشي المرض، كما فعلت كوريا الجنوبية على سبيل المثال. ومن أمثلة الطرق المستخدمة لتتبع المخالطين هي استخدام بيانات الاتصال في الهواتف الذكية والاستقصاءات عبر الإنترنت والتشخيص الآلي لتحديد احتمالية الاصابة بالمرض عن طريق المخالطة بشكل سريع. من أحدث الأمثلة على هذا النوع من التطبيقات تطبيق BlueDot الذي يقوم بمتابعة تفشي الأمراض المعدية ليقوم بتنبيه الحكومات والمستشفيات والشركات.

إذا كان بالإمكان تعزيز البيانات من تتبع المخالطين بمعلومات شخصية مثل تحديد الموقع الجغرافي والحالة الصحية ونتائج الاختبار، فهذا يزيد من القدرة على تحديد أنماط تفشي المرض بالنسبة للأفراد حسب أماكن تواجدهم وكذلك، يمكن معرفة كيف تنخفض المناعة بمرور الوقت ومتى وأين تظهر سلالات جديدة من الفيروس. رغم ذلك، يرى الباحثون أنه ينبغي الموازنة ما بين فوائد هذا النوع من التطبيقات مقابل المخاوف المتعلقة بفقدان الخصوصية للأفراد. 


٥. فهم التدخلات الاجتماعية


كجزء من استجابتها لتفشي مرض كورونا، اتخذت الحكومات عدد من الخطوات لإدارة التفاعلات الاجتماعية، أولها رصد تطبيق التباعد الاجتماعي وثانيها التحكم في انتشار الشائعات والمعلومات المضللة على الإنترنت. لجأت كثير من الدول لتطبيق استراتيجيات التباعد الاجتماعي للتخفيف من انتشار فيروس كورونا، وهو يعتبر تدخل غير دوائي (non-pharmaceutical intervention) حيث يقلل من المخالطة بين السكان وبالتالي يحد من انتشار الفيروس. يمكن لعلم البيانات أن يساهم في تتبع مخالطة المرضى لرصد التباعد الاجتماعي عن طريق استخراج بيانات شبكات التواصل الاجتماعي واستخدام تقنيات معالجة اللغة. علاوة على ذلك، يمكن استخدامها لتحديد مدى الامتثال لتطبيق التباعد الاجتماعي عن طريق تعزيز هذه البيانات ببيانات أخرى (مثل بيانات التتبع الخلوي أو مراقبة معدل تلوث الجو) لفهم أنماط التنقل البشري بشكل أفضل في سياق التباعد الاجتماعي. ويرى الباحثون أن هذه الحلول تشكل تحدي كبير للموازنة بين الاستفادة منها والمحافظة على خصوصية المستخدم. 


انتشار المعلومات المضللة له عواقب خطيرة إذ من الممكن أن يؤدي إلى إضعاف استراتيجيات الصحة العامة وغيرها من الأضرار. على سبيل المثال، أدت الشائعات على الإنترنت، التي تتهم شبكات 5G بالتسبب في مرض كورونا، إلى مهاجمة أعمدة الهاتف المحمول في المملكة المتحدة^. من جهة أخرى، تم إنشاء مرصد Infodemic لتحليل ما يتم تداوله في شبكات التواصل الاجتماعية عن كورونا (تويتر تحديدا)، ويشمل ذلك تحليل المشاعر الجمعي، وتحليل المنشورات من قبل الحسابات الوهمية. 


صورة ملتقطة من منصة Infodemic للتحليل النفسي للتغريدات على تويتر عن طريق تصنيفها باستخدام سمات الشخصية الخمسة الكبرى، تظهر النتائج أن هناك ارتفاع في معدلات التغريدات ذات التصنيف العصابي neuroticism والذي يعني أن هناك قدر عالٍ من مشاعر القلق والتوتر في التغريدات.



٦. التخطيط اللوجستي والتدخلات الاقتصادية


انتشار مرض كورونا أثر بشكل كبير على سلاسل الإمداد عامة ومن ضمنها الخاصة بالرعاية الصحية، وهذا يشمل معدات الحماية الشخصية مثل الأقنعة إلى جانب معدات العناية المركزة مثل أدوات الاختبارات والأسرة وأجهزة التنفس الصناعي. في السابق، استُخدمت تقنيات تعلم الآلة في التخطيط اللوجستي؛ فمن خلال تقنيات علم البيانات يمكن إدارة سلسلة الإمداد وتحديد الاحتياجات بشكل استباقي.  من جهة أخرى، أصبح لتدابير التباعد الاجتماعي أثراً كبيراً على الاقتصاد العالمي. ومع خروج معظم الدول من السبات الاقتصادي، ستواجه تحديًا للعودة إلى أوضاع ما قبل كورونا نظرًا للخلل في سلاسل الإمداد وتوزيع القوى العاملة. يمكن للحكومات أن تستخدم تقنيات علم البيانات لتحديد القرارات الاقتصادية المثلى على مستوى عالٍ من الدقة، وكذلك، يمكن للشركات استخدام علم البيانات للكشف عن أنماط السلوك غير المعتادة في السوق أو في قاعدة عملائها بعد الجائحة.


٧. الرعاية الآلية للمرضى 


مع انتشار كورونا لُوحظ أن هناك نقص شديد في أعداد مقدمي الرعاية الصحية (خاصة في الرعاية الأولية)، للتخفيف من أثر هذا النقص، يمكن تطوير أو تحسين أدوات الرعاية الأولية الآلية، مثل برامج الدردشة الآلية والأنظمة التي تساعد في توفير معلومات حول تفشي المرض والأعراض والتدابير الاحترازية، إلخ. يمكن كذلك، جمع ومقارنة بيانات المرضى لرصد فعالية العلاجات لأنواع معينة من الأمراض مما يساعد على اتخاذ القرار الأمثل في علاج مريض ما بشكل أكثر دقة. يمكن استخدام البيانات السريرية لتحديد أكثر العوامل المؤثرة التي تؤدي إلى تحسين استراتيجيات استخدام الموارد مثل عدد الأسرة في المستشفيات. ونظراً للحاجة للأسرة يمكن أن يخرج المريض من المستشفى حين تستقر حالته مع استمرار المراقبة عن طريق استخدام أجهزة الرعاية عن بُعد. يمكن لعلماء البيانات المساهمة في تصنيع حلول الرعاية عن بعد، وهي مفيدة بشكل كبير خاصة في المناطق النامية.


٨. دعم اكتشاف اللقاحات والعلاجات الجديدة


في هذا الوقت، تتضافر الجهود حول العالم لاكتشاف أو إعادة استخدام العلاجات واللقاحات لعلاج مرضى كورونا. وقد تمت الاستفادة من علم البيانات سابقاً لاختصار الوقت المستغرق في فحص البيانات، والتنبؤ بهياكل البروتين و الجينومات للفيروسات. كما يمكن لعلم البيانات أن يساعد في تحديد المرضى المؤهلين للتجارب السريرية الخاصة بالأدوية والعلاجات، وهي عملية غالبًا ما تكون مكلفة وتستغرق وقتًا طويلاً. هناك، أيضًا، مجال واسع لاستخدام طرق متقدمة لإدارة التجارب السريرية لتكييف العلاجات استنادًا إلى المعلومات التي تتراكم أثناء التجربة، مما قد يساهم في سرعة انتاج العلاج الدوائي المناسب. كما يمكن لعلماء البيانات المساهمة في تحديد فرص إعادة استخدام الدواء (drug repurposing) عن طريق استخدام الطب الشبكي (Network Medicine) الذي يوظف مبادئ علم الشبكات (Network Science) في التخصصات الصحية*. 


القسم الثاني: البيانات والمصادر

يصنف الباحثون البيانات المتوفرة لدراسة كورونا إلى خمسة أقسام، كما يظهر في الرسم الشجري أدناه.


١. بيانات حالات الإصابة بكورونا


هي البيانات التي تعلن عنها الدول ويتم رصدها وتجميعها في منصات مختلفة أشهرها منصة جامعة جونز هوبكنز في أمريكا. والتي تحتوي على أعداد الإصابة اليومية، أعداد المتشافين وحالات الوفيات حسب الدول. تختلف هذه البيانات حسب الخصائص التي تتم إضافتها في كل قاعدة بيانات، مثل معلومات المرضى الديموغرافية، أماكن تواجدهم، تواريخ تأكيد الإصابة، أعراض المرض وغيرها. يرى الباحثون أن اختلاف الإجراءات المتبعة للكشف عن المرضى وكذلك التدابير المتخذة للحد من انتشار المرض  حول العالم يجعل من الصعب مقارنة النتائج بين البلدان، إذ في الحقيقة المعدل العالمي للكشف عن العدوى هو ما يقارب ٦٪ فقط (ينصح الباحثون باستخدام نماذج ARIMA و LSTM للتنبؤ بحالات الإصابة).


٢. البيانات النصية


هي البيانات التي يتم جمعها من خلال شبكات التواصل الاجتماعي وتشمل النقاشات والمواضيع التي يتم تداولها في تويتر والتي تساعد في رصد ردود فعل الناس تجاه التدابير الوقائية وغيرها من المواضيع الخاصة بالفيروس. بالإضافة إلى توفر البيانات الخام، يوجد الكثير من المنصات التي تستعرض هذا النوع من البيانات آنياً. من جهة أخرى، العدد الهائل من الأبحاث الأكاديمية المنشورة تعني أن هناك طوفاناً من البيانات النصية التي يمكن استخراج المعلومات منها عن طريق استخدام نماذج معالجة اللغة الطبيعية (NLP)، يجري حالياً استخراج  المعلومات من الدراسات السريرية باستخدام مثل هذه النماذج. 


٣. البيانات الطبية الحيوية


هذا النوع من البيانات مهم جداً في ثلاث مراحل: التوقع (prognosis)، التشخيص (diagnosis) والعلاج (treatment)، ومن الأمثلة عليها: الأشعة السينية و تقارير علم الأمراض السريرية (clinical pathology reports) أو التسلسل الجينومي (genomic sequencing). على سبيل المثال، يمكن استخدام تطبيقات الرؤية الحاسوبية (computer vision) في التشخيص الآلي للأشعة السينية الصدرية. وكما هو معتاد فإن من أهم التحديات الجوهرية المتعلقة بهذا النوع من البيانات هو وصم البيانات (data labeling) قبل استخدام نماذج التدريب وهذا يتطلب مساهمة المختصين والممارسين الصحيين ذوي الخبرة في قراءة الأشعة وتحديد الأمراض. في الحقيقة، لا تزال البيانات من هذا النوع قليلة جداً مما يحد من القدرة على استخدام نماذج التعلم العميق (deep learning).


٤. البيانات المساندة


كجزء من متابعة العوامل الثانوية المتعلقة بتفشي مرض كورونا، يمكن استخدام إحصائيات مؤشر جودة الهواء كمقياس غير مباشر لمدى الالتزام بالتباعد الاجتماعي، بمعنى أنه في أوقات الحضر من المفترض أن يقل عدد المركبات في الشوارع وبالتالي تقل معدلات التلوث. بالإضافة إلى ذلك يمكن استخدام بيانات تتبع التنقلات لنفس الغرض.  في دراسة حديثة، لم يتم نشرها ومراجعتها بعد، وجد الباحثون ارتباط غير مباشر لمعدلات الاصابة بالفيروس حين تمت مقارنتها مع نتائج تحليل عينات من مياه الصرف الصحي التي تم جمعها من ثلاث محطات معالجة مياة في فرنسا.


٥. بيانات المنافسات


لتسهيل وتعزيز البحث في هذا المجال، تم الإعلان عن عدد كبير من المسابقات والتحديات في علم البيانات على منصة Kaggle. أحدها تم الإعلان عنه بالشراكة ما بين البيت الأبيض في أمريكا و مجموعتي Kaggle و SGS Digicomply بهدف الإجابة على أسئلة مثل: "ماذا نعرف عن جينات الفيروس وأصله وتطوره؟". كذلك، أعلن تحالف Roche Data Science عن تحدي آخر بعنوان Uncover Covid-19. يهدف هذا التحدي لمحاولة الوصول إلى إجابات لأسئلة تم إعدادها من قبل خبراء الرعاية الصحية في الخطوط الأمامية ومنظمة الصحة العالمية وصناع السياسات الحكوميين. في هذا التحدي، على المشاركين أن يقوموا بتصميم حلول تساهم في الإجابة على أسئلة مثل "ما هي الفئات السكانية الأكثر عرضة لخطر الإصابة بالمرض؟" و "من هم الأشخاص الذين أصيبوا به وهم بحاجة إلى أجهزة تنفس؟"


القسم الثالث: دراسة مسحية على الأبحاث المنشورة


قام الباحثون بتصنيف الأبحاث المنشورة، بالاعتماد على البيانات المتاحة، إلى خمسة تصنيفات، كما يوضح الرسم الشجري في الأسفل. 

سبق التعريف بكل من تحليل بيانات الصور والبيانات النصية والبحوث الصيدلانية في القسم السابق، في هذا القسم توسع الباحثين في مجالين لم يتم التطرق لهما بكثافة من قبل ولكل منهما أثره الواضح في دراسات أبحاث كورونا. الأول هو تحليل البيانات الصوتية، وهو يُعنى بتحليل الأصوات الصادرة من الجهاز التنفسي مثل الكحة على سبيل المثال بغرض تشخيص المريض بشكل أسرع. بالنسبة للمجال الثاني وهو تحليل بيانات المستشعرات فهو يُعنى بتحليل نتائج المستشعرات مثل أجهزة الجوال والساعات الذكية وأجهزة قياس المؤشرات الحيوية التي يمكن استخدامها في المنزل.


القسم الرابع: التحديات المستقبلية


يقسم الباحثون التحديات المستقبلية التي ستواجه من يرغب باستخدام علم البيانات في مواجهة الأوبئة إلى ست تحديات، كما يظهر في الرسم الشجري في الأسفل. 

١. محدودية البيانات


أنظمة علوم البيانات ( تعلم الآلة تحديداً) تتعلم وتتحسن حينما يتم جمع المزيد من البيانات مع مرور الوقت، وكذلك تتطلب أن تكون هذه البيانات ذات دقة عالية ومتوفرة بأحجام كبيرة. حتى الآن، وكما ذكرنا سابقاً، البيانات المفتوحة المتاحة للإستخدام غير متوفرة بكميات مناسبة لتؤدي الغرض المطلوب منها. على سبيل المثال، في حالة البيانات الطبية الحيوية، يبلغ حجم العينة ٦٠ مريض تقريباً. 

أحد أهم أسباب ندرة البيانات يعود إلى توزيع مصادر البيانات مثل سجلات الرعاية الصحية الإلكترونية التي تتوزع على المستوى الوطني أو الإقليمي أو حتى على مستوى كل مستشفى على حدة. وبالتالي، فإن التحدي الرئيسي هو توحيد هذه المصادر، بحيث يمكن تحسين أداء عمليات الأتمتة لإدارة البيانات وتبادلها فيما بين القطاعات المختلفة. بعيداً عن توفر البيانات، هناك أيضًا تحديات كبيرة في شكل البيانات نفسها. فمثلاً حتى يتم جمع بيانات شبكات التواصل الاجتماعي وتنظيمها ونمذجتها، يكون قد فات الأوان عليها. وبالتالي، غالباً ما تحتوي بيانات كورونا على تحيزات معينة يصعب اكتشافها. 


٢. صحة النتائج في مقابل المطالب الملحة


لا يخفى على أحد أنه هناك حاجة ماسة للوصول إلى نتائج سريعة، ولكن حسب ما تم استعراضه حتى الآن غالبية الأبحاث السابقة المذكورة في هذه البحث تعتمد إلى حد كبير على التعلم الإحصائي باستخدام البيانات التي يتم جمعها بشكل تدريجي مع مرور الأيام. بل بعض المراجعات المنهجية لنماذج التنبؤ أفادت بأن نتائج الـ ٣١ نموذج التي تمت مقارنتها احتوت على تحيزات بسبب سوء اختيار العينة مثلاً (عينة غير ممثلة). وبالتالي فإن النماذج المستخدمة عرضة للأخطاء، وفي الحقيقة هذا أمر متوقع في جميع الأعمال العلمية، ولكن نظرًا للحاجة الملحة لهذه النماذج يمكن أن يكون لهذه الأخطاء عواقب وخيمة. وبسبب حساسية الوضع وما يترتب عليه من الحاجة لاتخاذ إجراءات سريعة  يبقى أن التحدي الرئيسي هو الموازنة بين الضرورة الماسة وإمكانية الوصول إلى نتائج دقيقة يمكن الاعتماد عليها. ولذلك، أحد أهم التحديات في المستقبل هي القدرة على بناء نماذج الذكاء الاصطناعي القابلة للتفسير لتقليل الفجوة بين الحاجة للوصول إلى نتائج صحيحة في مقابل المطالب الملحة التي يفرضها الواقع. 


٣. الأمن والخصوصية والأخلاقيات


معظم الأعمال التي ذكرها هذا البحث أشارت إلى خطر مشاركة واستخدام بيانات شخصية وحساسة، ولذلك، يعد ابتكار حلول تُظهر نتائج دقيقة مع المحافظة على الخصوصية أيضًا وتلتزم بالمعايير الأخلاقية العالية تحديًا هاماً. هناك جهود كبيرة لبناء منصات تحليل طبية تحفظ الخصوصية، حيث لا يمكن مشاركة البيانات إلا عند ضمان خصوصية المرضى. بشكل عام ، يُجمع الباحثون حول أهمية المبادئ الخمسة الرئيسية لأخلاقيات الذكاء الاصطناعي: وهي (١) الإحسان ، (٢) عدم الإيذاء، (٣) الاستقلالية ، (٤) العدالة ، (٥) القابلية للتفسير. ومع ذلك، في الوضع الذي يفرضه فيروس كورونا، قد يحتاج صانع القرار إلى مفاضلة مبادئ أخلاقيات الذكاء الاصطناعي هذه. وحتى إذا كان التغاضي عن أحدها مُبررًا على المدى القصير، كيف يمكننا التأكد من أن هذه التنازلات لا تصبح دائمة وأنه من الممكن التراجع عن هذا القرار في المستقبل مع تغير الأوضاع. 

هناك أيضًا حاجة إلى مشاركة البيانات بين القطاعين العام والخاص لضمان استخدام البيانات من أجل "النفع" العام. ومع ذلك، يجب أن يتم التأكيد على الاستخدام الأخلاقي للبيانات قدر الإمكان. يمكن اتخاذ إجراءات بسيطة للمساعدة في ضمان الأخلاقيات في علم البيانات، على سبيل المثال، يجب أن تكون البيانات التي يتم جمعها شفافة بمعنى يجب إبلاغ المستخدمين عن البيانات التي يتم جمعها عنهم وأن يتم التأكد من استخدامها لأغراض محدودة مع خضوعها للرقابة الأخلاقية والضمانات المناسبة. 


٤. الحاجة للتعاون بين التخصصات


لا يزال فهمنا لتأثير كورونا على المدى البعيد غير شمولي، وللوصول إلى فهم أعمق للواقع نحتاج تفعيل الشراكات بين الخبراء من جميع المجالات. تشكيل فرق بحثية ذات خبرات متكاملة بشكل سريع أمر مهم للغاية. هذا لا يعني أنه لا يوجد تحديات أخرى فمثلاً ينبغي أن يكون الفريق على انسجام في خاصة في أمور الأخلاقيات والفوائد المرجوة والمخاطر المنوطة بهذا البحث.


٥. تعدد أشكال البيانات الجديدة


مجتمع علم البيانات اعتاد العمل على بعض أنواع البيانات دون الأخرى التي قد تكون مهمة جداً في مكافحة كورونا. مثلاً، في حين أن المجتمع لديه خبرة كبيرة في مهام الرؤية الحاسوبية، في المقابل خبرته في معالجة التصوير بالموجات فوق الصوتية تعتبر أقل من الأولى. خاصة وأن نتائج الأبحاث ترجح كفة الثانية لتقييم حالة المريض خاصة وأنها تتمتع بسهولة أكبر في الاستخدام مع غياب الإشعاعات وانخفاض التكلفة. وبالمثل التصوير بالرنين المغناطيسي وقد ذكرت بعض الدراسات أهميته في مكافحة عدوى كورونا. رغم ذلك، بقي مجتمع الرؤية الحاسوبية دون اطلاع كافي لهذا النوع من البيانات بسبب نقص بيانات التدريب الكافية.


٦. الحاجة للحلول في البلدان النامية


بسبب هذه الجائحة ظهرت هناك تحديات للسكان في البلدان النامية الذين يعانون من نقص إمكانيات الرعاية الصحية. يتمثل التحدي الرئيسي هنا في تطوير تقنيات مصممة بحيث تكون قابلة للاستخدام في جميع أنحاء العالم مع الحفاظ على سلامة هذه التطبيقات وعدم إساءة استخدامها من قبل أي جهة. كذلك، ينبغي أن تكون هذه الحلول عالية الكفاءة مع انخفاض التكلفة وأن يمكن استخدامها مع محدودية الموارد. فمثلاً، يجب أن يتم تصميم هذه الحلول مع أخذ جودة اتصال الشبكة في عين الاعتبار؛ كما ينبغي أن تدعم لغات متعددة وأن تكون في متناول المستخدمين الأميين أو ذوي الاحتياجات الخاصة. يؤكد الباحثون أن ضمان الوصول للحلول التكنولوجية أمر بالغ الأهمية للتصدي لهذا الوباء العالمي.


الهوامش


* تجدر الإشارة إلى الفرق بين المقياس الماكروسكوبي والميكروسكوبي، حيث الأول أكثر شمولية ويأخذ بعين الاعتبار الأثر الظاهر، مثلاً أن يتم تشخيص شخص ما بالمرض، بينما المقياس أو الأثر الميكروسكوبي للفيروس يتعلق بالأثر الداخلي الجزيئي.

^ هناك قائمة في ويكيبيديا تحتوي على معلومات يتم تحديثها دورياً عن جميع الشائعات التي رافقت انتشار كورونا

* علم الشبكات يساعد في دراسة التفاعلات بين جزئيات البروتين و المسارات الأيضية التي تساهم في دراسة أثر دواء معين لعلاج الأمراض المختلفة.


شعار BlueDot متاح تحت رخصة الاستخدام المشاع Creative Commons

منظور ٢٠٢٠ © جميع الحقوق محفوظة

‭‬تحتفظ‭ ‬منصة منظور ‬بحقوق‭ ‬ملكيتها‭ ‬للمواد‭ ‬المنشورة‭ ‬فيها،‭ ‬ويتطلب‭ ‬إعادة‭ ‬نشر‭ ‬أي‭ ‬مادة ‬إلكترونيًّا‭ ‬أو‭ ‬ورقيًّا‭ ‬الحصول‭ ‬على‭ ‬موافقة‭ ‬منظور ‬مع‭ ‬الإشارة‭ ‬إلى‭ ‬المصدر‭.‬