بإذن من Getty Images
يجب أن تنفق صناعة الأدوية أكثر من 3 مليارات دولار على الذكاء الاصطناعي بحلول عام 2025 – مقابل 463 مليون دولار في عام 2019. من الواضح أن الذكاء الاصطناعي يضيف قيمة ، لكن المؤيدين يقولون إنه لا يزال يتعين عليه الارتقاء إلى مستوى إمكاناته.
هناك العديد من الأسباب لعدم تطابق الواقع مع هذه الضجة ، لكن مجموعات البيانات المحدودة مهمة.
نظرًا لضخامة البيانات المتاحة التي يتم جمعها كل يوم – من الخطوات إلى السجلات الطبية الإلكترونية – فإن ندرة البيانات هي واحدة من آخر العقبات التي قد يتوقعها المرء.
يستخدم نهج البيانات الضخمة / الذكاء الاصطناعي التقليدي المئات أو حتى الآلاف من نقاط البيانات لتوصيف شيء مثل الوجه البشري. لكي يكون هذا التدريب موثوقًا به ، هناك حاجة إلى الآلاف من مجموعات البيانات حتى يتعرف الذكاء الاصطناعي على الوجه بغض النظر عن الجنس أو العمر أو العرق أو الحالة الصحية.
للتعرف على الوجه ، الأمثلة متاحة بسهولة. تطوير الأدوية قصة مختلفة تمامًا.
قال Adityo Prakash ، الشريك المؤسس والرئيس التنفيذي لشركة Verseon: “عندما تتخيل كل الطرق المختلفة التي يمكنك من خلالها تعديل الدواء … فإن الكمية الكثيفة من البيانات التي تغطي النطاق الكامل من الاحتمالات تكون أقل وفرة”. بيوسبيس.
“التغييرات الصغيرة تحدث فرقًا كبيرًا في ما يفعله الدواء داخل أجسامنا ، لذا فأنت بحاجة إلى بيانات دقيقة حقًا حول جميع أنواع التغييرات المحتملة.”
قد يتطلب ذلك الملايين من مجموعات البيانات النموذجية ، والتي قال براكاش إنها لا تمتلكها حتى أكبر شركات الأدوية.
قدرات تنبؤية محدودة
وتابع أن الذكاء الاصطناعي يمكن أن يكون مفيدًا للغاية عندما تكون “قواعد اللعبة” معروفة ، مستشهدا بطي البروتين كمثال. إن طي البروتين هو نفسه بالنسبة للعديد من الأنواع ، وبالتالي يمكن استغلاله لتخمين البنية المحتملة لبروتين وظيفي ، لأن علم الأحياء يتبع قواعد معينة.
قال براكاش إن تصميم الأدوية يستخدم تركيبات جديدة تمامًا وهو أقل قابلية للذكاء الاصطناعي “لأنك لا تملك بيانات كافية لتغطية جميع الاحتمالات”.
حتى عند استخدام مجموعات البيانات لعمل تنبؤات حول أشياء متشابهة ، مثل تفاعلات الجزيئات الصغيرة ، فإن التنبؤات تكون محدودة. وقال إن السبب في ذلك هو عدم الإفصاح عن البيانات السلبية. البيانات السلبية مهمة لتنبؤات الذكاء الاصطناعي.
بالإضافة إلى ذلك ، “لا يمكن إعادة إنتاج الكثير مما يتم نشره”.
تتحد مجموعات البيانات الصغيرة والبيانات المشكوك فيها ونقص البيانات السلبية للحد من القدرات التنبؤية للذكاء الاصطناعي.
كثير من الضجيج
تمثل الضوضاء في مجموعات البيانات الكبيرة المتاحة تحديًا آخر. قال جيسون رولف ، المؤسس المشارك والرئيس التنفيذي لشركة Variational AI ، إن PubChem ، وهي واحدة من أكبر قواعد البيانات العامة ، تحتوي على أكثر من 300 مليون نقطة بيانات للنشاط الحيوي من الشاشات عالية الإنتاجية.
وقال “ومع ذلك ، فإن هذه البيانات غير متوازنة وصاخبة في نفس الوقت”. بيوسبيس. “بشكل عام ، أكثر من 99٪ من المركبات المختبرة غير نشطة.”
قال رولف إنه من بين أقل من 1٪ من المركبات التي تظهر نشطة في الشاشات العالية ، فإن الغالبية العظمى منها هي نتائج إيجابية خاطئة. هذا بسبب التجميع أو تداخل الاختبار أو التفاعل أو التلوث.
يمكن استخدام علم البلورات بالأشعة السينية لتدريب الذكاء الاصطناعي على اكتشاف الأدوية وتحديد الترتيب المكاني الدقيق للرابط وهدف البروتين الخاص به. ولكن على الرغم من التقدم الكبير في التنبؤ بالبنى البلورية ، فإن تشوهات البروتين التي يسببها الدواء لا يمكن التنبؤ بها بشكل جيد.
وبالمثل ، فإن الالتحام الجزيئي (الذي يحاكي ارتباط الأدوية بالبروتينات المستهدفة) معروف بأنه غير دقيق ، على حد قول رولف.
“الترتيبات المكانية الصحيحة للعقار وهدفه البروتيني يتم التنبؤ بها بدقة فقط حوالي 30٪ من الوقت ، وتنبؤات النشاط الدوائي أقل موثوقية”.
مع وجود عدد هائل من الجزيئات الشبيهة بالعقاقير الممكنة ، حتى خوارزميات الذكاء الاصطناعي التي يمكنها التنبؤ بدقة بالارتباط بين الروابط والبروتينات تواجه تحديًا هائلاً.
وقال رولف: “إنها تنطوي على العمل ضد الهدف الأساسي دون تعطيل عشرات الآلاف من البروتينات الأخرى في جسم الإنسان ، خشية إحداث آثار جانبية أو تسمم”. حاليًا ، خوارزميات الذكاء الاصطناعي لا ترقى إلى مستوى هذه المهمة.
أوصى باستخدام نماذج قائمة على الفيزياء لتفاعلات البروتين الدوائي لتحسين الدقة ، لكنه أشار إلى أنها مكثفة من الناحية الحسابية ، وتتطلب حوالي 100 ساعة من وقت وحدة المعالجة المركزية لكل دواء ، مما قد يحد من فائدتها عند البحث عن أعداد كبيرة من الجزيئات.
ومع ذلك ، فإن محاكاة فيزياء الكمبيوتر هي خطوة نحو التغلب على القيود الحالية للذكاء الاصطناعي ، كما أشار براكاش.
“يمكنهم تزويدك ، بشكل مصطنع ، ببيانات تم إنشاؤها افتراضيًا حول كيفية تفاعل شيئين. ومع ذلك ، لن تمنحك المحاكاة القائمة على الفيزياء نظرة ثاقبة للتدهور داخل الجسم.
البيانات غير متصلة
التحدي الآخر هو أنظمة البيانات المنعزلة ومجموعات البيانات غير المتصلة.
قال مويرا لينش ، كبير مديري الابتكار في ثيرمو فيشر العلميةيقول فريق المعالجة الحيوية بيوسبيس.
ومما يزيد التحدي تعقيدًا أن “البيانات المتاحة إلكترونيًا تأتي من مصادر متباينة وبتنسيقات متباينة ويتم تخزينها في مواقع متباينة”.
وفقًا لجايا سوبرامانيام ، رئيس منتجات واستراتيجيات علوم الحياة في شركة Definitive Healthcare ، فإن مجموعات البيانات هذه محدودة النطاق والتغطية أيضًا.
وقالت إن السببين الرئيسيين هما البيانات المصنفة والبيانات مجهولة المصدر. “لا يوجد كيان لديه مجموعة كاملة من أي نوع واحد من البيانات ، سواء كانت مطالبات ، أو سجلات EMR / EHR ، أو تشخيصات معملية.”
بالإضافة إلى ذلك ، تتطلب قوانين خصوصية المريض بيانات مجهولة الهوية ، مما يجعل من الصعب تتبع رحلة الفرد من التشخيص إلى النتيجة النهائية. يتم بعد ذلك إعاقة شركات الأدوية بسبب سرعة أبطأ في الوصول إلى المعلومات.
على الرغم من توافر كميات غير مسبوقة من البيانات ، لا تزال البيانات ذات الصلة والقابلة للاستخدام محدودة للغاية. لا يمكن إطلاق العنان حقًا لقوة الذكاء الاصطناعي إلا عندما يتم التغلب على هذه العقبات.