أعلنت Google عن توسيع وظيفة البحث عن الملفات في Gemini API لتوفير إمكانات RAG متعددة الوسائط أكثر اكتمالاً لـ Developers

أعلنت Google مؤخرًا عن توسيع وظيفة البحث عن الملفات في Google Gemini API، مما يوفر للمطورين إمكانات أكثر اكتمالاً للاسترجاع المعزز متعدد الوسائط (RAG). يتضمن جوهر هذا التحديث: دعم الاسترداد المختلط للصور والنصوص، ودعم تصفية بيانات التعريف المخصصة، ودعم مرجعي جديد على مستوى الصفحة، وتحسين إمكانية الوصول ودقة أنظمة الذكاء الاصطناعي في سيناريوهات مثل قواعد معارف المؤسسة، ومستندات الأسئلة والأجوبة، والوكلاء.

وفقًا لمدونة Google الرسمية، لم يعد الإصدار الجديد من وظيفة البحث عن الملفات مقتصرًا على البحث التقليدي عن ناقل النص، ولكنه يعتمد على إمكانية التضمين الموحدة متعددة الوسائط المبنية على Gemini Embedding 2، والتي يمكنها فهم المحتوى المرئي ومحتوى النص في الصور وملفات PDF والمستندات في نفس الوقت. لا يحتاج المطورون إلى إنشاء قواعد بيانات متجهة معقدة أو تضمين خطوط الأنابيب أو أنظمة تجزئة المستندات، ويمكنهم إكمال سير عمل RAG الكامل مباشرة في Gemini API.

في أنظمة RAG التقليدية، غالبًا ما يكون من الصعب فهرسة المحتوى المرئي مثل الصور والمخططات ولقطات الشاشة ورسومات التصميم بشكل فعال، مما يؤدي إلى نقص الفهم السياقي في إجابات الذكاء الاصطناعي. يمكن لإمكانية البحث عن الملفات متعددة الوسائط الجديدة في Gemini API تحديد المحتوى في الصور وإنشاء فهرس بحث مع النص. على سبيل المثال، يمكن للشركات تحميل ملفات PDF تحتوي على صور المنتج أو مخططات البيانات أو الرسوم البيانية للهندسة الفنية، ويمكن للذكاء الاصطناعي فهم المعلومات المرئية والأوصاف النصية في الوقت نفسه عند الإجابة.

تقول Google إن هذه الإمكانية مناسبة بشكل خاص لبناء مساعدي المعرفة على مستوى المؤسسة، وروبوتات خدمة العملاء، وأنظمة تحليل المستندات، ووكلاء الذكاء الاصطناعي. يمكن للمطورين جعل النماذج تؤدي الاستدلالات بناءً على المستندات الداخلية دون الحاجة إلى صيانة إضافية لأنظمة استرجاع الصور المستقلة. بالنسبة للشركات التي لديها كمية كبيرة من بيانات الصور والنصوص المختلطة، فإن هذا يعني انخفاض تعقيد النشر ودقة أعلى في الاسترجاع.

ميزة جديدة أخرى هي تصفية البيانات التعريفية المخصصة. يمكن للمطورين إضافة بيانات التعريف مثل العلامات والفئات والوقت والأقسام إلى الملفات التي تم تحميلها، بحيث يمكن تصفيتها وفقًا للبيانات الوصفية أثناء الاسترجاع اللاحق لتحسين الدقة والكفاءة. يعد هذا أيضًا أكثر ملاءمة لإدارة قاعدة المعرفة واسعة النطاق ويقلل المحتوى غير ذي الصلة من الدخول إلى نافذة السياق.

ميزة أخرى مهمة هي الاقتباس على مستوى الصفحة. عند إنشاء الإجابات، يمكن لـ Gemini AI تحديد صفحة المستند التي تأتي منها المعلومات بوضوح، بدلاً من الإشارة بشكل غامض إلى الملف بأكمله. يتيح ذلك للمستخدمين النقر لعرض صفحة المستند المحددة بعد الحصول على الإجابة للحكم على دقة المحتوى وقراءة المستند بالكامل للحصول على مزيد من المعلومات.

في الوقت الحاضر، الإصدار الجديد من وظيفة البحث عن الملفات Google Gemini API مفتوح لجميع المطورين. يمكن للمطورين المهتمين فتح Gemini API من خلال منصات مثل Google AI Studio وGoogle Cloud لتجربتها.

دليل المطور: https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878