يركز هذا المشروع على الاستخراج التلقائي للأحداث المنظمة من النصوص غير المنظمة باستخدام تقنيات معالجة اللغة الطبيعية (NLP). الهدف هو تحديد واستخراج مكونات الحدث، مثل محفزات الحدث، والمشاركين (الوكلاء، الكائنات)، والوقت، والموقع من البيانات النصية، مما يُمكّن من تحويل النص العادي إلى معرفة عملية.
يستخدم النظام مجموعة من أساليب معالجة اللغة الطبيعية (NLP)، بما في ذلك:
معالجة النصوص المسبقة (الترميز، التحليل اللفظي، وسم نقاط البيع)
التعرف على الكيانات المسماة (NER): للكشف عن كيانات مثل الأشخاص والأماكن والتواريخ
تحليل التبعيات: لفهم العلاقات النحوية
اكتشاف مُحفِّزات الأحداث: باستخدام أساليب قائمة على القواعد أو التعلم الآلي
تصنيف أدوار الأحداث: لتعيين الأدوار (من، ماذا، متى، أين) للعناصر المحددة
الناتج هو تمثيل مُنظَّم للأحداث يُمكن استخدامه في المهام اللاحقة مثل إنشاء مخطط المعرفة، أو إنشاء الجدول الزمني، أو مراقبة الأحداث في الوقت الفعلي.
الميزات الرئيسية:
التعرف الآلي على الأحداث الواقعية من النص الخام
استخراج الكيانات والأدوار المتعلقة بالأحداث
دعم أنواع متعددة من الأحداث (مثل: السياسية، والاجتماعية، وأحداث الكوارث)
خط أنابيب معالجة اللغة الطبيعية (NLP) معياري لمزيد من المرونة والتحسين