تلخيص تلقائي

التلخيص التلقائي هو خلق نسخة مختصرة من النص بواسطة برنامج كمبيوتر.[1][2][3] نتاج هذا الإجراء لا يزال يحتوي على أهم النقاط من النص الأصلي.

ان ظاهرة الإغراق المعلوماتي باتت تعني أن الحصول على ملخصات متماسكة ومتطورة بشكل صحيح هو أمر حيوي. وكما أن الوصول إلى البيانات زاد كذلك الاهتمام بالتلخيص التلقائي. مثال على استخدام تكنولوجيا التلخيص هو محركات البحث من جوجل.

الاستخراج والتجريد

على نطاق واسع، الأشخاص يميزون بين نهجين : الاستخراج والتجريد.

تقنيات الاستخراج ما هي الا عملية نسخ المعلومات التي تعتبر ذات أهمية من قبل النظام للموجز (على سبيل المثال، البنود الرئيسية، والجمل أو الفقرات)، في حين يتطلب التجريد إعادة صياغة لأقسام من المستند المصدر. بشكل عام، يمكن للتجريد تلخيص النص بقوة وكثافة أكبر من الاستخراج، ولكن البرامج التي يمكنها القيام بذلك من الصعب تطويرها لأنها تتطلب استخدام تقنيات مولدات اللغات الطبيعية، الذي هو في حد ذاته مجال تحت التطوير.

أنواع الملخصات

هناك أنواع مختلفة من الملخصات على حسب ما يركز عليه برنامج التلخيص لتقديم موجز النص، على سبيل المثال ملخصات عامة أو ملخصات ذات الصلة بالاستعلام (التي تسمى أحيانا ملخصات منحازة للاستعلام). نظم التلخيص قادرة على خلق كل من نصوص ملائمة للاستعلام وملخصات عامة مولَدة آليا اعتمادا على ما يحتاجه المستخدم. كما أنه من الممكن أيضا تلخيص وثائق الوسائط المتعددة، على سبيل المثال الصور أو الأفلام. بعض النظم ستقوم بإنشاء ملخص على أساس وثيقة مصدر واحد، والبعض الآخر يمكنها استخدام وثائق مصادر متعددة (على سبيل المثال، مجموعة من القصص الإخبارية عن الموضوع نفسه). وتعرف هذه الأنظمة بأنظمة التلخيص متعددة الوثائق.

التطبيقات ونظم تلخيص

هناك نوعين من مهام التلخيص الاستخراجية حسب ما يركز البرنامج على تلخيصه. الأول هو تلخيص عام، والذي يركز على الحصول على ملخص عام لمجموعة من الوثائق (سواء وثائق مكتوبه، أو مجموعات من الصور أو مقاطع الفيديو، الأخبار وغيرها). والثاني هو تلخيص ذات الصلة بالاستعلام، وتسمى أحيانا التلخيص القائم على الاستعلام، الذي يلخص بناء على الاستفسار. نظم التلخيص قادرة على إنشاء كل من ملخصات الاستعلام والملخصات العامة اعتمادا على ما يحتاج المستخدم.

بعض الطرق المعاونة التلخيص

ان تقنيات تعلم الآلة من المجالات وثيقة الصلة مثل استرجاع المعلومات أو تعدين النصوص تم استخدامها وتطويعها لمساعدة في التلخيص التلقائي. وبصرف النظر عن المُلَخِصَات كاملة التلقائية (اف ا اس)، هناك نظم تساعد المستخدمين بمهمة التلخيص (التلخيص البشري بمساعدة الآلة)، على سبيل المثال من خلال تسليط الضوء على مقاطع لتكون موجودة ضمن الملخص، وهناك أنظمة تعتمد على المعالجة البعدية بواسطة البشر (التلخيص الآلي بمساعدة البشر).

التقييم

من القضايا المستمرة في هذا المجال هو عملية التقييم. الحكم البشري لديه تنوع كبير على ما يعتبر جيد من الملخصات، مما يعني أن عملية التقييم التلقائي صعبة بشكل خاص. ويمكن استخدام التقييم اليدوي، ولكن هذا مكلف للوقت وللعمالة لأنه يتطلب البشر لقراءة ليس فقط الملخصات ولكن أيضا وثائق المصدر. اما عن القضايا الأخرى فتتعلق بالتماسك والتغطية. إحدى المقاييس المستخدمة في مؤتمرات فهم الوثائق السنوية التابعة لمنظمة نيست، والتي تقدم المجموعات البحثية انظمتها لكل من التلخيص ومهام الترجمة، هو المقياس روج (بديل للانحياز الرجوعي لتقييم جيستينج). تحسب في الأساس من تداخلات ال(ن-غرام) بين الملخصات التلقائية وملخصات الإنسان المكتوبة من قبل. التداخل العالي المستوى من الضروري ان يدل على مستوى عالٍ من المفاهيم المشتركة بين الملخصين. علما أن مثل هذا المقاييس غير قادر على تقديم أي معلومات عن التماسك. ان مشكلة انفور (Anaphor resolution) تبقى هي المشكلة الأخرى يجب أن تحل بشكل كامل.

لمزيد من المعلومات

  • Endres-Niggemeyer, Brigitte (1998). Summarizing Information. ISBN 3-540-63735-4. الوسيط |CitationClass= تم تجاهله (مساعدة)
  • Marcu, Daniel (2000). The Theory and Practice of Discourse Parsing and Summarization. ISBN 0-262-13372-5. الوسيط |CitationClass= تم تجاهله (مساعدة)
  • Mani, Inderjeet (2001). Automatic Summarization. ISBN 1-58811-060-5. الوسيط |CitationClass= تم تجاهله (مساعدة)
  • Lehmam, Abderrafih (2010). Essential summarizer: innovative automatic text summarization software in twenty languages in: Proceeding RIAO '10 Adaptivity, Personalization and Fusion of DOCUMENTAIRE Paris, France, France ©2010 Heterogeneous Information LE CENTRE DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE. الوسيط |CitationClass= تم تجاهله (مساعدة)

مراجع

  1. UNIS (Universal Summarizer) نسخة محفوظة 24 يناير 2018 على موقع واي باك مشين.
  2. "What Does TL;DR Mean? AMA? TIL? Glossary Of Reddit Terms And Abbreviations". International Business Times. 29 March 2012. مؤرشف من الأصل في 18 أغسطس 2017. اطلع عليه بتاريخ 09 فبراير 2017. الوسيط |CitationClass= تم تجاهله (مساعدة)
  3. Squire, Megan. Mastering Data Mining with Python – Find patterns hidden in your data (باللغة الإنجليزية). Packt Publishing Ltd. ISBN 9781785885914. مؤرشف من الأصل في 1 يونيو 2019. اطلع عليه بتاريخ 09 فبراير 2017. الوسيط |CitationClass= تم تجاهله (مساعدة)

    انظر أيضًا

    • بوابة علم الحاسوب
    • بوابة لسانيات
    This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.