ستوفر أمازون فريقًا بشريًا لقياس الأداء لاختبار نماذج الذكاء الاصطناعيmodel

تريد أمازون من المستخدمين تقييم نماذج الذكاء الاصطناعي بشكل أفضل وتشجيع المزيد من البشر على المشاركة في العملية. في مؤتمر AWSre:Invent، أعلن سوامي سيفاسوبرامانيان، نائب رئيس قاعدة البيانات والتحليلات والتعلم الآلي في AWS، عن ميزة تقييم النماذج على Bedrock، والتي أصبحت متاحة الآن للمعاينة للنماذج في مستودع Amazon Bedrock الخاص بها.

بدون طريقة شفافة لاختبار النماذج، قد ينتهي الأمر بالمطورين إلى استخدام نماذج ليست دقيقة بدرجة كافية لمشاريع الأسئلة والأجوبة أو كبيرة جدًا بالنسبة لحالات الاستخدام الخاصة بهم.

وقال سيفاسوبرامانيان: "لا يتم اختيار النموذج وتقييمه في البداية فحسب، بل يتم تكرارهما بشكل منتظم. نعتقد أنه من المهم أن يكون هناك إنسان في الحلقة، لذلك نقدم طريقة لإدارة سير عمل التقييم البشري ومقاييس الأداء النموذجية بسهولة".

غالبًا ما يتساءل بعض المطورين عما إذا كان ينبغي عليهم استخدام نموذج أكبر في مشروعهم لأنهم يفترضون أن النموذج الأكثر قوة سيلبي احتياجاتهم. اكتشفوا لاحقًا أنه كان بإمكانهم تطوير نموذج أصغر. يتكون تقييم النموذج من جزأين: التقييم التلقائي والتقييم اليدوي. في الإصدار الآلي، يمكن للمطورين الدخول إلى وحدة تحكم Bedrock واختيار نموذج لاختباره. ويمكنهم بعد ذلك تقييم أداء النموذج بناءً على مقاييس مثل المتانة أو الدقة أو السمية في مهام مثل التلخيص وتصنيف النص والإجابة على الأسئلة وإنشاء النص.

يتضمن Bedrock نماذج ذكاء اصطناعي شهيرة تابعة لجهات خارجية مثل Meta’s Llama2 وAnthropic’s Claude2 وStableDiffusion من StabilityAI.

توفر AWS مجموعات بيانات اختبارية، ويمكن للعملاء أيضًا إحضار بياناتهم الخاصة إلى النظام الأساسي لقياس الأداء لفهم أداء النموذج بشكل أفضل. ثم يقوم النظام بإنشاء تقرير.

إذا كانت المشاركة البشرية مطلوبة، فيمكن للمستخدمين اختيار العمل مع فريق التقييم البشري في AWS أو مع فريقهم الخاص. يجب على العملاء تحديد نوع المهمة (مثل التلخيص أو إنشاء النص)، ومقاييس التقييم، ومجموعة البيانات التي يريدون استخدامها. ستوفر AWS أسعارًا وتوقيتًا مخصصًا للعملاء الذين يعملون مع فريق التقييم.

وقال فاسي فيلومين، نائب رئيس الذكاء الاصطناعي التوليدي في AWS، إن الفهم الأفضل لأداء النموذج يمكن أن يوجه التطوير بشكل أفضل. كما أنه يسمح للشركات بفهم ما إذا كان النموذج يفشل في تلبية بعض معايير الذكاء الاصطناعي المسؤولة، مثل حساسية السمية المنخفضة أو المفرطة، قبل استخدامه للبناء.

وقال فيلومين: "من المهم أن تناسب النماذج عملائنا، لمعرفة النموذج الذي يناسبهم بشكل أفضل، ونحن نمنحهم طريقة أفضل لتقييمه". لن تطلب AWS من جميع العملاء قياس النماذج لأن بعض المطورين ربما استخدموا بعض النماذج الأساسية على Bedrock من قبل أو لديهم بعض الفهم لقدرات النموذج. يمكن للشركات التي لا تزال تستكشف النموذج الذي يجب استخدامه أن تستفيد من عملية المقارنة المرجعية.

وقال سيفاسوبرامانيان أيضًا أنه عندما يقوم البشر بتقييم نماذج الذكاء الاصطناعي، يمكنهم اكتشاف مؤشرات أخرى لا تستطيع الأنظمة الآلية اكتشافها - مثل التعاطف أو الود.

قالت AWS إنه على الرغم من أن خدمة قياس الأداء لا تزال قيد المعاينة، إلا أنها تفرض رسومًا فقط على استدلال النموذج المستخدم في عملية التقييم.

على الرغم من عدم وجود معيار محدد لقياس نماذج الذكاء الاصطناعي، إلا أن بعض الصناعات تقبل بشكل عام مقاييس محددة. الهدف من معيار Bedrock ليس تقديم تقييم شامل للنموذج، ولكن تزويد المؤسسات بطريقة لقياس تأثير النموذج على مشاريعهم.