استخراج الجمل

استخراج الجملة هي تقنية تستخدم للتلخيص التلقائي. في هذا النهج السطحي، تستخدم الاستدلالات الإحصائية للتعرف على أبرز الجمل من النصوص. استخراج الجمل هو نهج منخفض التكلفة مقارنة مع الطرق الأكثر تعمقا في استخدام المعرفة مزيد من المعرفة المكثفة والتي بالتالي تتطلب قواعد معرفة إضافية مثل التجميعات أو الانتولوجيات (ontologies) أو المعرفة اللغوية. باختصار "استخراج الجملة" يعمل كعامل تصفية يسمح للجمل الهامة فقط بأن تمر.

أما الجانب السلبي الرئيسي لتطبيق تقنيات استخراج الجملة لمهمة التلخيص هو فقدان التماسك في الملخص الناتج عن العملية. ومع ذلك، يمكن لملخصات استخلاص الجملة ان تعطي معلومات قيمة عن النقاط الرئيسية في الوثيقة وغالبا ما تكون واضح بما فيه الكفاية للبشر ان تقرأه.

إجراء

عادة، يتم استخدام مزيج من القواعد التجريبية لتحديد أهم الجمل في الوثيقة. كل قاعد تجريبية تخصص مجموعة من النقاط (إيجابية أو سلبية) إلى الجملة. بعد تطبيق جميع القواعد التجريبية، الجملة ذات أعلى نقاط يتم تضمينها في الملخص. القواعد التجريبية الفردية ترجح وفقا لأهميتها.

النهج المبكر وبعض القواعد التجريبية العينية

أوراق الأصيلة التي وضعت الأسس للعديد من التقنيات المستخدمة اليوم قد نشرت بواسطة إتش بي لوهان في عام 1958 [1] وإتش بي ادموندسون في عام 1969.[2]

اقترح لوهن ان يرجح الجمل في بداية الوثيقة أو القرة أكثر من غيرها.أما ادموندسون فقد شدد على أهمية الكلمات العنوانية للتلخيص وكان أول من استخدم قوائم كلمات التوقيف لتصفية الكلمات غير المفيدة ذات المحتوى الدلالي المنخفضة (على سبيل المثال أكثر الكلمات النحوية مثل "عن"، "من"، "في"). كذلك ميز أيضا بين الكلمات الزائدة والكلمات الاصلية للجملة، أي الكلمات التي تحدث على الأرجح مع المعلومات المهمة (مثال على ذلك كلمة "جسيم") أو المعلومات غير المهمة. ان فكرتة في استخدام الكلمات المفتاحية -الكلمات التي تحدث بشكل ملحوظ في كثير من الأحيان في الوثيقة- لا تزال واحدة من من القواعد التجريبية الجوهرية للأنظمة التي تستخدم في التلخيص هذه الأيام. مع توافر الذخائر اللغوية الكبيرة هذه الأيام، فأن القيمة (تي اف-اي دي دف) الذي نشأ من علم استرجاع المعلومات، يمكن تطبيقها واستخدامها بنجاح لتحديد الكلمات المفتاحية التي في نص: إذا كان على سبيل المثال كلمة "القط" تحدث بشكل ملحوظ في كثير من الأحيان في النص الذي يتم تلخيصه (tf == تكرار النص) أكثر من سائر الذخيرة (IDF == "معكوس تردد الوثيقة"؛ هنا الوثيقة تعني الذخيرة)، فبالتالي تكون كلمة "القط" من المرجح أن تكون كلمة هامة في النص -النص قد يكون في الواقع نص عن القطط.

المراجع

  1. H. P. Luhn (1958). "The Automatic Creation of Literature Abstracts" (PDF). IBM Journal: 159–165. مؤرشف من الأصل (PDF) في 10 يوليو 2007. اطلع عليه بتاريخ أغسطس 2020. الوسيط |CitationClass= تم تجاهله (مساعدة); تحقق من التاريخ في: |تاريخ الوصول= (مساعدة)
  2. H. P. Edmundson (1969). "New Methods in Automatic Extracting" (PDF). Journal of the ACM. 16 (2): 264–285. doi:10.1145/321510.321519. مؤرشف من الأصل (PDF) في 10 نوفمبر 2019. الوسيط |CitationClass= تم تجاهله (مساعدة)
    • بوابة لسانيات
    This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.