أستخدمت Google Colab وPython لتطبيق معالجة النصوص وإدارة الملفات وتحليل البيانات الأساسية.
الهدف: ممارسة مهاراتي في معالجة النصوص وتحليل البيانات باستخدام Python.
المنهجية:
لقد قمت بتجميع مجموعة من الملفات النصية، مثل مقالات إخبارية أو مراجعات أفلام(movie reviews)، أو أي بيانات نصية ذات صلة بمصالحى. كتبت سكريبت Python لقراءة جميع الملفات النصية من دليل محدد (directory) ودمج محتوياتها في سلسلة نصية واحدة أو قائمة من السلاسل النصية(list of strings).
بعد ذلك، قومت بإزالة علامات الترقيم والأرقام والرموز الخاصة، ثم تقسيم النص إلى كلمات. حسبت إجمالي عدد الكلمات وعدد الكلمات الفريدة، وحددت تكرار كل كلمة وتعرفت على أعلى 10 كلمات شائعة.
كما قومت بحساب متوسط طول الكلمات ومتوسط طول الجمل.
وأخيرًا، قومت بإنشاء مخطط شريطي( bar plot) لأعلى 10 كلمات شائعة باستخدام مكتبات Matplotlib أو Seaborn، وأنتجت سحابة كلمات(word cloud) لتصور الكلمات الأكثر تكرارًا.