في هذا المشروع، تم تحليل نصوص القصص العربية باستخدام أدوات برمجية لمعالجة اللغة، بهدف استكشاف الكلمات الأكثر شيوعًا والأنماط في النصوص. تم استخدام مجموعة من التقنيات الإحصائية البسيطة بالإضافة إلى التصورات البيانية لفهم التوزيع اللغوي في هذه القصص.
الأدوات والتقنيات المستخدمة:
البرمجة: Python
المكتبات المستخدمة: Pandas، Matplotlib، Seaborn، WordCloud، Collections
البيانات: مجموعة من القصص العربية المأخوذة من مستودع GitHub الخاص بـ Arabic Stories Corpus.
خطوات التنفيذ:
تحميل وتنظيف البيانات:
تحميل النصوص من مصدر خارجي (Arabic Stories Corpus).
تنظيف النصوص من الرموز وعلامات الترقيم باستخدام مكتبة string.
تحليل النصوص:
تقسيم النصوص إلى كلمات (Tokenization).
حساب تكرار الكلمات باستخدام القواميس (Dictionaries) ومكتبة Counter من collections.
حساب نسبة التكرار للتعرف على الكلمات الأكثر استخدامًا.
تصورات البيانات:
إنشاء رسم بياني شريطي (Bar Plot) يوضح أكثر 10 كلمات شيوعًا في النصوص.
إنشاء سحابة كلمات (Word Cloud) لتوضيح الكلمات الأكثر تكرارًا في النص.
النتائج:
تم استخراج الكلمات الأكثر تكرارًا في النصوص العربية مثل "كان"، "قال"، و"إلى".
تم تقديم تصورات بيانية تساعد في فهم توزيع الكلمات الأكثر شيوعًا.
ساهمت سحابة الكلمات في تقديم رؤية بصرية جذابة لتكرار الكلمات في النصوص
اسم المستقل | Shokri M. |
عدد الإعجابات | 0 |
عدد المشاهدات | 6 |
تاريخ الإضافة | |
تاريخ الإنجاز |