البروتينات هي جزيئات طبيعية تؤدي وظائف خلوية مهمة في الجسم وهي اللبنات الأساسية لجميع الأمراض. يمكن أن يكشف توصيف البروتينات عن آليات المرض، بما في ذلك طرق إبطاء المرض أو عكسه، في حين أن إنشاء البروتينات يمكن أن يؤدي إلى تطوير أدوية وعلاجات جديدة تمامًا.
وصول:
Microsoft China Official Mall-الصفحة الرئيسية
ومع ذلك، فإن العملية الحالية لتصميم البروتينات في المختبر مكلفة من منظور الموارد البشرية والحسابية. يتطلب الأمر التوصل إلى بنية بروتينية تؤدي مهمة محددة في الجسم، ثم العثور على تسلسل البروتين (تسلسل الأحماض الأمينية التي تشكل البروتين) الذي قد "يندمج" في تلك البنية. (يجب أن تطوى البروتينات بشكل صحيح إلى شكل ثلاثي الأبعاد لتؤدي وظيفتها المقصودة).
لا يجب أن يكون الأمر بهذا التعقيد.
أطلقت مايكروسوفت هذا الأسبوع EvoDiff، وهو إطار عام تدعي الشركة أنه يمكنه توليد بروتينات "عالية الدقة" و"متنوعة" بناءً على تسلسلات البروتين. على عكس أطر توليد البروتين الأخرى، لا يتطلب EvoDiff أي معلومات هيكلية للبروتين المستهدف، مما يؤدي إلى التخلص من الخطوة الأكثر شاقة في العادة.
وقال كيفن يانغ، أحد كبار الباحثين في مايكروسوفت، إنه بعد أن أصبح EvoDiff مفتوح المصدر، يمكن استخدامه لإنشاء إنزيمات للعلاجات الجديدة وطرق توصيل الأدوية، بالإضافة إلى إنزيمات جديدة للتفاعلات الكيميائية الصناعية.
وقال يانغ، أحد المبدعين المشاركين في EvoDiff، لـ TechCrunch في مقابلة عبر البريد الإلكتروني: "رؤيتنا هي أن EvoDiff سوف يوسع قدرات هندسة البروتين بما يتجاوز نموذج الهيكل والوظيفة نحو التصميم القابل للبرمجة والتسلسل الأول". "مع EvoDiff، أثبتنا أننا قد لا نحتاج في الواقع إلى بنية، ولكن بالأحرى "تسلسل البروتين هو كل ما تحتاجه"، لتصميم بروتينات جديدة يمكن التحكم فيها."
يوجد في قلب إطار عمل EvoDiff نموذج مكون من 640 معلمة تم تدريبه على بيانات من جميع الأنواع المختلفة والفئات الوظيفية للبروتينات. (المعلمات هي ما يتعلمه نموذج الذكاء الاصطناعي من بيانات التدريب ويحدد بشكل أساسي مهارة النموذج في التعامل مع المشكلة - في هذه الحالة، توليد البروتينات.) تأتي البيانات الخاصة بتدريب النموذج من مجموعة بيانات OpenFold لمحاذاة التسلسل ومن UniRef50، وهي مجموعة فرعية من مجموعة بيانات UniProt، وهي قاعدة بيانات لتسلسل البروتين والمعلومات الوظيفية التي يحتفظ بها اتحاد UniProt.
EvoDiff هو نموذج نشر يشبه هيكله العديد من نماذج توليد الصور الحديثة مثل الانتشار المستقر وDALL-E2. يتعلم EvoDiff طرح الضوضاء تدريجيًا من بروتين البداية الذي يتكون بالكامل تقريبًا من الضوضاء، مما يسمح له بالاقتراب ببطء وخطوة بخطوة من تسلسل البروتين.
يتم استخدام نماذج الانتشار بشكل متزايد في مجالات تتجاوز توليد الصور، بدءًا من تصميم بروتينات جديدة (مثل EvoDiff)، إلى تأليف الموسيقى، وحتى تركيب الكلام.
قالت آفا أميني، وهي مساهم مشارك آخر في EvoDiff وباحثة بارزة في مايكروسوفت، عبر البريد الإلكتروني: "إذا كان هناك شيء واحد مستفاد [من EvoDiff]، فأعتقد أنه يمكننا - ويجب علينا - إنتاج بروتينات من التسلسل لأننا نتيح التنوع والحجم والنمطية". "يمنحنا إطار الانتشار الخاص بنا القدرة على القيام بذلك ويسمح لنا أيضًا بالتحكم في كيفية تصميم هذه البروتينات لتحقيق أهداف وظيفية محددة."
ومن وجهة نظر أميني، فإن EvoDiff لا يخلق بروتينات جديدة فحسب، بل يسد أيضًا "الفجوات" في تصميمات البروتين الموجودة. على سبيل المثال، إذا كان جزء معين من البروتين يرتبط ببروتين آخر، فيمكن للنموذج توليد تسلسل من الأحماض الأمينية للبروتين حول ذلك الجزء الذي يلبي سلسلة من المعايير.
نظرًا لأن EvoDiff يصمم البروتينات في "مساحة التسلسل" بدلاً من بنية البروتين، فيمكنه أيضًا تصنيع "بروتينات مضطربة" والتي تفشل في النهاية في الاندماج في بنيتها النهائية ثلاثية الأبعاد. مثل البروتينات التي تعمل بشكل طبيعي، تلعب البروتينات المختلة أدوارًا مهمة في علم الأحياء والمرض، مثل تعزيز أو تقليل نشاط البروتينات الأخرى.
من المهم الإشارة إلى أن البحث وراء EvoDiff لم يخضع لمراجعة النظراء - على الأقل حتى الآن. واعترفت سارة العمداري، عالمة البيانات في مايكروسوفت المشاركة في المشروع، بأنه "لا يزال هناك الكثير من العمل الذي يتعين القيام به على نطاق واسع" قبل أن يتم وضع إطار العمل موضع الاستخدام التجاري.
وقال العلمداري عبر البريد الإلكتروني: "هذا مجرد نموذج مكون من 640 مليون معلمة، وإذا قمنا بتوسيع نطاقه إلى مليارات المعلمات، فقد نشهد تحسنًا في جودة التوليد". "بينما أظهرنا بعض الاستراتيجيات البسيطة، لتحقيق تحكم أفضل، نود أن يكون EvoDiff مشروطًا بالنص أو المعلومات الكيميائية أو وسائل أخرى لتحديد الميزات المطلوبة."
بعد ذلك، يخطط فريق EvoDiff لاختبار النموذج على البروتينات التي تم إنشاؤها في المختبر لمعرفة ما إذا كانت فعالة. إذا نجح الأمر، فسيبدأون العمل على إطار عمل الجيل التالي.