لقد زادت شعبية الكتب الصوتية في السنوات الأخيرة بسبب سهولة قراءتها، لكن تسجيل الكتب الصوتية أمر صعب ومكلف. في الآونة الأخيرة، أظهر الباحثون طريقة آلية تستخدم تحويل النص إلى كلام مركب والتي تحل العديد من المشاكل التي تواجهها التكنولوجيا وتسمح للمستخدمين العاديين بإنتاج الكتب الصوتية. يمكن للقراء الآن الاستماع إلى آلاف الكتب الصوتية الأدبية الكلاسيكية وغيرها من المواد ذات الملكية العامة مجانًا من خلال مشروع جوتنبرج. أنشأ الباحثون في مايكروسوفت ومعهد ماساتشوستس للتكنولوجيا المجموعة عن طريق مسح الكتب ضوئيًا باستخدام برنامج تحويل النص إلى كلام.
وتشمل هذه النصوص أعمال شكسبير وأجاثا كريستي وجين أوستن وليوناردو دافنشي وغيرهم. يمكن للمستخدمين الاستماع على InternetArchive وSpotify وApplePodcasts وGooglePodcasts:
https://marhamilresearch4.blob.core.Windows.net/gutenberg-public/Website/index.html
الكود المستخدم لإنشاء مجموعة الكتب الصوتية متاح على GitHub:
https://github.com/microsoft/SynapseML
بدأت شركة Apple في بيع الكتب الصوتية في يناير من هذا العام باستخدام تقنية تحويل النص إلى كلام تلقائيًا. ومع ذلك، فقد قوبلت المحاولة بتشكك من المؤسسة الأدبية، التي تنتقد الأهداف التجارية لشركة أبل، ومن الممثلين الصوتيين الذين يقدمون التدريب على الذكاء الاصطناعي للشركة. قد يثير نهج جوتنبرج ردود فعل متباينة لأنه مفتوح المصدر وليس له أي دافع للربح.
لقد أمضى مشروع جوتنبرج عقودًا من الزمن في بناء مستودع للأدبيات المجانية بتنسيق نصي متاح على نطاق واسع مجانًا، ولكن الكتب الصوتية يمكن أن تجعل هذه المواد أكثر سهولة في الوصول إليها. الكتب الصوتية مفيدة للقراء الذين يقودون السيارة، أو يقومون بمهام متعددة، أو ضعاف البصر، أو يتعلمون القراءة، أو يتعلمون لغة جديدة.
يتضمن إنتاج الكتب الصوتية باستخدام الطرق التقليدية إنفاق الوقت والمال في جعل شخص ما يقرأ الكتاب بأكمله. ليس من المجدي من حيث التكلفة تسجيل نسخة صوتية يدويًا من كل كتاب يستحق القراءة. كانت تقنية تحويل النص إلى كلام مناسبة بشكل أفضل لمشروع جوتنبرج. ومع ذلك، يواجه الباحثون عقبات متعددة في أدوات التعلم الآلي الخاصة بهم.
المسألة الأولى والأكثر أهمية هي تحديد الكتب الرقمية التي يستطيع البرنامج تحليلها. يجمع مشروع Gutenberg المواد بتنسيقات متنوعة، وتحتوي العديد من الملفات على أخطاء أو عمليات مسح غير كاملة. لذلك ركز الباحثون على الكتب المخزنة بتنسيق ملف HTML وقاموا ببناء أداة (في الصورة أعلاه) لاكتشاف العناصر التي تعرض تنسيقًا مشابهًا.
والمشكلة الأخرى التي تناولها الباحثون هي التأكد من أن النظام يعرف النص الذي يجب قراءته أو تجاهله. يتضمن مكونات مثل جدول المحتويات وأرقام الصفحات والحواشي والجداول وغيرها من المواد الدخيلة.
بالإضافة إلى ذلك، يجب أن تبدو النتيجة قريبة بدرجة كافية من الكلام البشري الطبيعي. ركز الباحثون على التعبيرات الصوتية التي تعمل بشكل أفضل مع القصص الواقعية والسرد، ولكن يمكن للمستخدمين أيضًا تعديل البرنامج لتجربة القراءات الدرامية.
يخطط الباحثون لإجراء عرض توضيحي يتيح للمستخدمين إنشاء كتب صوتية بأصواتهم الخاصة. وبعد تسجيل بضع جمل لتدريب الخوارزمية، تمكن كل مشارك من الاستماع إلى عينة قبل أن يقوم البرنامج بقراءة الكتاب بأكمله. وسيتلقون أيضًا نسخة من الكتاب الصوتي عبر البريد الإلكتروني. يمكن للمستخدمين الاختيار من بين الأصوات المركبة لتخصيص كل كتاب صوتي.
وصول:
Alibaba Cloud - قسائم عالمية تصل قيمتها إلى 1888 يوان متاحة على الفور