يرجى تفعيل الجافا سكربت للحصول على أفضل جودة.

جاري تحميل الصفحة

تحويل الكلام إلى نص Speech To Text

أغسطس 13, 2025 ahmad 10 من دقائق القراءة
تحويل الكلام إلى نص Speech To Text

ما هو تحويل الكلام إلى نص؟

تحويل الكلام إلى نص هو عملية تحويل الكلمات المنطوقة إلى نسخة نصية. يُشار إليه أحيانًا باسم تحويل الصوت إلى نص، وهو متاح في الغالب كخدمة قائمة على البرمجيات SaaS

عادةً ما يجمع هذا النظام بين تقنية التعرف على الكلام المدعومة بالذكاء الاصطناعي، والمعروفة أيضًا بالتعرف التلقائي على الكلام، وعملية التفريغ الصوتي. يلتقط برنامج حاسوبي الصوت على شكل اهتزازات موجات صوتية ويستخدم خوارزميات لغوية لتحويل المدخلات الصوتية إلى أحرف رقمية وكلمات وعبارات.

لقد جعل تعلم الآلة والتعلم العميق ونماذج اللغة الكبيرة مثل نموذج GPT المحول التوليدي المدرب مسبقًا من OpenAI برامج تحويل الكلام إلى نص أكثر تطورًا وكفاءة، لأنها تستطيع استخلاص الأنماط في اللغة المنطوقة من حجم كبير من العينات الصوتية والنصية.

يمكن دمج الذكاء الاصطناعي التوليدي مع برامج تحويل الكلام إلى نص لإنشاء مساعدين يمكنهم مساعدة العملاء عبر مكالمة هاتفية، أو التفاعل مع التطبيقات التي تدعم الأوامر الصوتية، ويمكن للذكاء الاصطناعي التوليدي أيضًا تحويل النص مرة أخرى إلى كلام، وهو ما يُعرف بتحويل النص إلى كلام، أو التعليق الصوتي بالذكاء الاصطناعي وبصوت واقعي وطبيعي.

كيف يعمل تحويل الكلام إلى نص؟

تحتوي برامج تحويل الكلام إلى نص على عدة مكونات، تشمل:

  1. إدخال الكلام: حيث يلتقط الميكروفون الكلمات المنطوقة.
  2. استخراج الميزات: حيث يحدد الكمبيوتر درجات الصوت والأنماط المميزة في الكلام.
  3. وحدة فك التشفير: Decoder حيث تطابق الخوارزمية ميزات الكلام مع الأحرف والكلمات من خلال نموذج لغوي.
  4. إخراج الكلمات: حيث يتم تنسيق النص النهائي بعلامات الترقيم والأحرف الكبيرة الصحيحة ليكون قابلاً للقراءة من قبل الإنسان.

بشكل عام، تتكون عملية تحويل الكلام إلى نص من الخطوات التالية:

  1. المعالجة المسبقة للصوت: بعد التقاط التسجيلات الصوتية، تتم معالجتها مسبقًا لتحسين جودة ودقة التعرف. يشمل ذلك إزالة ضوضاء الخلفية والترددات غير ذات الصلة، وتثبيت مستوى الصوت، وتقسيم المقطع لتسهيل المعالجة، وتحويل الملف الصوتي إلى تنسيق قياسي.
  2. تحليل الصوت واستخراج الميزات: غالبًا ما يتم تصوير الإشارات الصوتية على شكل مخططات طيفية spectrograms وهي تمثيلات مرئية للترددات عبر الزمن. يتم تقسيم الأجزاء ذات الصلة من التسجيلات الصوتية إلى سلسلة من الفونيماتphonemes، وهي أصغر وحدة كلامية تميز كلمة عن أخرى. الفئات الرئيسية للفونيمات هي الحروف المتحركة والحروف الساكنة .. يمكن للنماذج اللغوية ووحدات فك التشفير مطابقة الفونيمات مع الكلمات ثم الجمل. يمكن للنماذج الصوتية القائمة على التعلم العميق التنبؤ بالحروف والكلمات التي من المرجح أن تظهر تاليًا بناءً على السياق.

هناك ثلاث طرق رئيسية لأداء التعرف على الكلام: المتزامنة، وغير المتزامنة، والمتدفقة.

  1. التعرف المتزامن: يحدث عندما يكون هناك تحويل فوري للكلام إلى نص. يمكنه فقط معالجة الملفات الصوتية التي تقل مدتها عن دقيقة واحدة. يُستخدم هذا في الترجمة النصية المباشرة للبث التلفزيوني.
  2. التعرف المتدفق: يتم فيه معالجة الصوت المتدفق في الوقت الفعلي، لذلك قد تظهر نصوص مجزأة بينما لا يزال المستخدم يتحدث.
  3. التعرف غير المتزامن: يتم فيه تقديم ملفات صوتية كبيرة مسجلة مسبقًا للتفريغ الصوتي. قد توضع في قائمة انتظار للمعالجة وتُسلم لاحقًا.

تقدم شركات مثل Google .. وMicrosoft ، وAmazon ، وIBM® برامج تحويل الكلام إلى نص كواجهات برمجة تطبيقات APIs عبر السحابة، مما يسمح باستخدامها بالتنسيق مع تطبيقات وأدوات وأجهزة أخرى.

تحتوي هواتف Apple iPhone على ميزة الإملاء dictation ، والتي تدمج تقنية تحويل الكلام إلى نص المضمنة في نظام iOS الخاص بها، كما يمكن لمستخدمي Android تنزيل تطبيقات مثل Gboard لوظائف تحويل الكلام إلى نص، تسمح بعض أجهزة Pixel للمستخدمين بالكتابة بالصوت من خلال المساعد Assistant.. هناك خيارات متنوعة لبرامج تحويل الكلام إلى نص، سواء كانت مفتوحة المصدر أو مملوكة.

تطور أنظمة تحويل الكلام إلى نص

في وقت مبكر من تطورها، اعتمدت برامج التعرف على الكلام على بنك مفردات محدود. وقد ساعد تبنيها مؤخرًا من قبل صناعات تمتد من السيارات إلى الرعاية الصحية على التقدم في علوم البيانات والتعلم العميق والذكاء الاصطناعي.

في الخمسينيات، ابتكرت مختبرات بيل أول نظام للتعرف على الكلام يُدعى AUDREY يمكنه التعرف على الأرقام المنطوقة. ثم، ابتكرت IBM نظام Shoebox في عام 1962، والذي كان يمكنه التعرف على الأرقام و16 كلمة مختلفة.

خلال هذه العقود، ابتكر علماء الكمبيوتر نماذج للتعرف على الفونيمات ونماذج إحصائية مثل نماذج ماركوف المخفية Hidden Markov Models، والتي لا تزال خوارزميات شائعة للتعرف على الكلام. في حوالي السبعينيات، مكّن برنامج يُدعى HARPY من جامعة كارنيجي ميلون أجهزة الكمبيوتر من التعرف على 1000 كلمة.

في الثمانينيات، استخدم نظام التفريغ الصوتي Tangora من IBM أساليب إحصائية للتعرف على ما يصل إلى 20,000 كلمة. تم استخدامه في أول إملاء يتم تنشيطه بالصوت للعاملين في المكاتب وأرسى الأساس لبرامج تحويل الكلام إلى نص الحديثة. استمر تطوير هذا النوع من البرامج وتحسينه حتى تم تسويقه تجاريًا في العقد الأول من القرن الحادي والعشرين.

عندما ظهرت خوارزميات تعلم الآلة والتعلم العميق، حلت محل النماذج الإحصائية وحسنت دقة التعرف وسمحت بتوسيع نطاق التطبيقات. يمكن للتعلم العميق التقاط الفروق الدقيقة والتعبيرات غير الرسمية بشكل أفضل. يمكن استخدام نماذج اللغة الكبيرة LLMs لإضافة سياق، مما يساعد عندما تكون اختيارات الكلمات أكثر غموضًا، أو إذا كانت هناك اختلافات في النطق بسبب اللهجات. مع ظهور المساعدين الافتراضيين ومكبرات الصوت الذكية، أصبح من الممكن دمج تحويل الكلام إلى نص مع نماذج اللغة الكبيرة، ومعالجة اللغات الطبيعية NLP، وغيرها من الخدمات السحابية.

تُعد نماذج التعلم العميق الشاملة end-to-end مثل المحولات Transformers أساسية لنماذج اللغة الكبيرة، حيث يتم تدريبها على مجموعات بيانات كبيرة غير مُعَلَّمة من أزواج الصوت والنص لتعلم كيفية ربط الإشارات الصوتية بالنسخ النصية.

خلال هذا التدريب، يتعلم النموذج ضمنيًا كيف تبدو الكلمات وما هي الكلمات التي من المرجح أن تظهر في تسلسل معًا، ويمكن للنموذج أيضًا استنتاج قواعد القواعد اللغوية وبنية اللغة لتطبيقها بنفسه. يدمج التعلم العميق بعض الخطوات الأكثر إرهاقًا في تقنيات تحويل الكلام إلى نص التقليدية.

استخدامات تحويل الكلام إلى نص

هناك العديد من حالات الاستخدام لبرامج تحويل الكلام إلى نص:

  1. رؤى مراكز الاتصال ومساعدة الوكلاء
  2. خدمات التفريغ الصوتي والترجمة في الوقت الفعلي
  3. التعرف على الصوت
  4. تطبيقات الكتابة الصوتية والإملاء
  5. مراقبة المحتوى
  6. الترجمة على الأفلام والمسلسلات ومقاطع الفيديو
  7. التفريغ الصوتي للفيديزهات الدعائية والترويجية على السوشال ميديا

رؤى مراكز الاتصال ومساعدة الوكلاء

يمكن لبرامج تحويل الكلام إلى نص تفريغ تفاعلات العملاء تلقائيًا، وتوجيه المكالمات حسب الحاجة، واستخلاص رؤى من محادثات العملاء، وإجراء تحليل للمشاعر.

مثال: بالنسبة لمراكز اتصال خدمة العملاء، يمكن لمساعدي الصوت بالذكاء الاصطناعي استخدام تحويل الكلام إلى نص للتعامل مع الأسئلة الأسهل والأكثر تكرارًا من العملاء وتوجيه الطلبات الأكثر تعقيدًا إلى الوكلاء البشريين.

خدمات التفريغ الصوتي والترجمة في الوقت الفعلي

يمكنها تفريغ محاضر الاجتماعات عبر الإنترنت أو الندوات وإنشاء ترجمات نصية subtitles أو تسميات توضيحية captions أو دبلجة على مقاطع الفيديو. يمكن استخدامها أيضًا مع برامج الترجمة لتقديم وثائق تفريغ صوتي بلغات متعددة. يمكن للتطبيقات ذات الأغراض الخاصة السماح بالتفريغ الصوتي لتطبيقات الرعاية الصحية والقانون والتعليم.

مثال: تقدم Amazon خدمة تفريغ طبي تستخدم تحويل الكلام إلى نص لتفريغ محادثات الأطباء والمرضى للملاحظات السريرية، وترجمة استشارات الرعاية الصحية عن بعد.

مثال: تقدم مكنة خدمة التفريغ النصي بطريقة مخصصة لوضع السبتايتل على الفيديوهات بمختلف أنواعها، سواء كانت مسلسلات أو أفلام أو وثائقية، أو دعائية.

التعرف على الصوت

من خلال معالجة اللغات الطبيعية، يمكن للتعرف على الصوت استخلاص المعنى من النص المفرغ واستخراج أوامر قابلة للتنفيذ وتنفيذها. يمكن أن يساعد هذا المستخدمين على إصدار أوامر صوتية مثل إجراء مكالمات هاتفية، أو البحث على الويب، أو التحكم في الأضواء وأجهزة تنظيم الحرارة والأجهزة المتصلة الأخرى في المنزل الذكي من خلال روبوتات الدردشة أو المساعدين الرقميين مثل Alexa وCortana وGoogle Assistant وSiri

مثال: تستخدم Amazon Alexa الآن تحويل الكلام إلى نص وتحويل النص إلى كلام لتشغيل الأضواء، أو ضبط درجة الحرارة في غرفة معينة، أو اقتراح وصفات بناءً على مشترياتك الأخيرة من البقالة.

تطبيقات الكتابة الصوتية والإملاء

يمكن للأشخاص ذوي الإعاقة استخدام هذه التطبيقات للتفاعل مع أجهزة الكمبيوتر والهواتف الذكية دون الحاجة إلى الكتابة الجسدية. يمكنهم بدلاً من ذلك إملاء الرسائل النصية والملاحظات ورسائل البريد الإلكتروني والمزيد.

مثال: يمكن للطلاب الذين يعانون من عسر القراءة أو الذين أصيبوا مؤخرًا في أذرعهم أن يكتبوا الملاحظات باستخدام أصواتهم على جهاز كمبيوتر يعمل بنظام Microsoft ، وهذه الإمكانية مدعومة بخدمات Azure Speech

مراقبة المحتوى

يمكن للذكاء الاصطناعي فحص نصوص مقاطع الفيديو والمقاطع الصوتية للبحث عن محتوى غير لائق والعمل كمشرف لوضع علامة على المواد المشكوك فيها للمراجعة البشرية.

مثال: تقدم Vatis Tech أداة تستخدم تحويل الكلام إلى نص لمراقبة وسائل التواصل الاجتماعي في التسويق حتى تتمكن من مساعدة العلامات التجارية على تحديد متى تكون رائجة، والقصد من وراء تفاعلات العملاء.

التحديات في التفريغ الصوتي للغة العربية

  1. التنوع اللهجي بين الدول والمناطق
  2. اللهجات العربية تختلف بشكل كبير في النطق، والمفردات، وحتى في بناء الجمل.
  3. مثال: كلمة "سيارة" في اللهجة المصرية تُنطق غالبًا "عربية"، وفي اللهجة المغربية تُنطق "طوموبيل"، بينما في الفصحى "سيارة".
  4. هذا الاختلاف يربك أنظمة التعرف على الكلام التي غالبًا ما تدرّب على لهجة واحدة أو على الفصحى فقط.
  5. حتى داخل الدولة الواحدة قد توجد فروق واضحة بين لهجات الشمال والجنوب.
  6. غياب التشكيل في النطق والنصوص
  7. اللغة العربية تعتمد على الحركات لتمييز المعنى، لكن في الكلام اليومي لا تُلفظ غالبًا، وفي النصوص المكتوبة نادرًا ما تُضاف.
  8. مثال: كلمة "عَلِمَ" (بمعنى عرف) وكلمة "عُلِمَ" (بمعنى تم معرفته) وكلمة "عَلَّمَ" (بمعنى درّس) ، وكلها تتشابه صوتيًا إذا لم تُنطق الحركات بوضوح.
  9. هذا يجعل النظام أو المفرّغ البشري يضطر إلى الاعتماد على السياق، وهو أمر قد يسبب أخطاء في الفهم.
  10. التشابه الصوتي بين الكلمات (Homophones)
  11. بعض الكلمات العربية تتشابه كثيرًا في النطق رغم اختلاف المعنى.
  12. مثال: "عَمّ" (أخو الأب) و"عام" (سنة) و"عمّ" (انتشر) ، وكلها قد تُنطق بنفس الشكل تقريبًا عند السرعة أو ضعف وضوح الصوت.
  13. البرامج الآلية قد تكتب الكلمة الخاطئة إذا لم تتم برمجتها على تحليل المعنى من السياق.
  14. تعدد المتحدثين وتداخل الأصوات
  15. في الاجتماعات أو الحوارات، قد يتحدث أكثر من شخص في نفس الوقت، أو يقطع أحدهم الآخر.
  16. هذا يجعل التمييز بين الأصوات صعبًا، خاصة إذا لم يكن هناك نظام ذكي لتحديد "من يتحدث".
  17. حتى المفرغ البشري يواجه صعوبة في تتبع الحوار السريع والمقاطع المتداخلة.
  18. سرعة الكلام وعدم وضوح النطق
  19. كثير من المتحدثين العرب يتكلمون بسرعة عالية، ويختصرون الكلمات أو يبتلعون بعض الحروف.
  20. مثال: في العامية المصرية، كلمة "ما تقول ليش" قد تتحول إلى "متقليش" في الكلام السريع.
  21. التسجيلات ذات الصوت المنخفض أو التي بها ضوضاء خلفية تزيد صعوبة التمييز بين الكلمات.
  22. تداخل اللغات (Code-switching)
  23. كثير من المتحدثين العرب يدمجون كلمات أجنبية (إنجليزية أو فرنسية) في حديثهم اليومي، خاصة في البلدان المغاربية أو الخليجية.
  24. مثال: "احجز لي تيكت أونلاين" أو "بغيتي ديماراج جديد للسيارة".
  25. هذا يربك أنظمة التفريغ، إذ تحتاج إلى التعرف على أكثر من لغة في نفس الوقت.
  26. ضعف جودة التسجيلات
  27. التسجيل في بيئة بها ضوضاء، أو باستخدام ميكروفون ضعيف، أو عبر اتصال إنترنت غير مستقر، يقلل وضوح الكلام.
  28. الأصوات المحيطة (أطفال، سيارات، ضحك، صدى صوت) قد تؤدي إلى أخطاء كثيرة في التفريغ.
  29. حتى أقوى أنظمة الذكاء الاصطناعي قد تخطئ إذا كان الصوت غير نقي.

مساهمة مكنة في معالجة تحديات التفريغ الصوتي العربي

مع تطور الذكاء الاصطناعي ومعالجة اللغات الطبيعية، ظهرت حلول متقدمة للتفريغ الصوتي العربي، من بينها "مكنة"، وهي منصة/تقنية تهدف إلى تقديم تفريغ صوتي دقيق وسريع للمحتوى العربي بمختلف لهجاته.

تتمثل مساهمتها في عدة جوانب:

  1. التعرف على اللهجات العربية
  2. تعتمد "مكنة" على نماذج صوتية مدرّبة على مجموعة واسعة من اللهجات، مما يجعلها قادرة على فهم مفردات وأساليب نطق متنوعة، من اللهجة الخليجية إلى المغربية، مرورًا بالمصرية والشامية.
  3. هذه الميزة تقلل من الأخطاء الناتجة عن اختلاف النطق بين المناطق.
  4. دمج الفصحى والعامية بسلاسة
  5. تستطيع "مكنة" التعامل مع المحادثات التي تجمع بين الفصحى والعامية في نفس النص، وهو أمر شائع في المقابلات والحوارات الإعلامية.
  6. هذا يقلل من مشكلة تعدد أنماط اللغة داخل نفس التسجيل.
  7. التعرف على الكلمات الدخيلة (Code-switching)
  8. تمكّن "مكنة" من التعرّف على الكلمات الأجنبية المدمجة في الحوار العربي، وكتابتها بدقة، سواء كانت إنجليزية أو فرنسية أو غيرها.
  9. يفيد هذا في بيئات العمل أو التعليم التي يكثر فيها استخدام المصطلحات الأجنبية.
  10. التكامل مع أدوات التحرير
  11. يمكن ربط "مكنة" ببرامج تحرير النصوص أو أنظمة إدارة المحتوى، ما يسهل تحويل التسجيلات إلى مواد مكتوبة جاهزة للنشر أو الأرشفة.

الآن بعد أن أصبحت خبيراً في أساسيات هذا العالم المثير، حان وقت التطبيق.

هل أنت جاهز لتحويل تسجيلاتك إلى نصوص تزين فيديوهاتك؟

ابدأ رحلتك في عالم المحتوى الصوتي اليوم.

جرّب منصة "مكنة" مجانًا وحوّل مقطع صوتي إلى نص مكتوب في أقل من دقيقة!

ابدأ تجربتك المجانية الآن



A

ahmad

هل استمتعت بهذا المقال؟

اشترك في نشرتنا الإخبارية لتلقي آخر الأخبار والتحديثات حول تقنية الصوت العربي.

نحن نحترم خصوصية. إلغي الاشتراك في أي وقت.