قمت بتنفيذ مشروع عملي لاستخراج وتحليل بيانات الكتب من مواقع الويب باستخدام تقنيات Web Scraping وNatural Language Processing (NLP). يهدف المشروع إلى تحويل البيانات غير المنظمة (HTML) إلى بيانات منظمة يمكن تحليلها واستخراج رؤى مفيدة منها.
فكرة المشروع
بناء Web Scraper باستخدام Python وScrapy يقوم بجمع بيانات الكتب تلقائياً من صفحات متعددة، ثم تحليل النصوص الخاصة بوصف الكتب باستخدام تقنيات معالجة اللغة الطبيعية (NLP) لاكتشاف الكلمات الأكثر تكراراً والأنماط داخل البيانات.
استخراج البيانات (Web Scraping)
استخراج:
عنوان الكتاب
السعر
حالة التوفر
وصف الكتاب
استخدام XPath وCSS Selectors للوصول إلى عناصر HTML بدقة.
التنقل التلقائي بين صفحات الموقع باستخدام Scrapy Spider.
حفظ البيانات في ملف CSV منظم.
معالجة البيانات وتحليل النصوص (NLP)
تنظيف البيانات النصية.
تقسيم النصوص إلى كلمات (Tokenization).
إزالة الكلمات الشائعة Stopwords باستخدام مكتبة NLTK.
تحليل تكرار الكلمات في وصف الكتب.
التصور البياني للبيانات
تم إنشاء عدة تحليلات بصرية لاكتشاف الأنماط داخل البيانات مثل:
Bar Charts لأكثر الكلمات استخداماً
WordCloud لعرض الكلمات الأكثر انتشاراً
تحليل نصوص وصف الكتب لاكتشاف المواضيع الأكثر شيوعاً
الأدوات والتقنيات المستخدمة
Python
Scrapy
XPath / CSS Selectors
Pandas
NLTK
Matplotlib
Seaborn
WordCloud
Jupyter Notebook