Web Scraping + NLP Analysis لمواقع الكتب باستخدام Python وScrapy

تفاصيل العمل

قمت بتنفيذ مشروع عملي لاستخراج وتحليل بيانات الكتب من مواقع الويب باستخدام تقنيات Web Scraping وNatural Language Processing (NLP). يهدف المشروع إلى تحويل البيانات غير المنظمة (HTML) إلى بيانات منظمة يمكن تحليلها واستخراج رؤى مفيدة منها.

فكرة المشروع

بناء Web Scraper باستخدام Python وScrapy يقوم بجمع بيانات الكتب تلقائياً من صفحات متعددة، ثم تحليل النصوص الخاصة بوصف الكتب باستخدام تقنيات معالجة اللغة الطبيعية (NLP) لاكتشاف الكلمات الأكثر تكراراً والأنماط داخل البيانات.

استخراج البيانات (Web Scraping)

استخراج:

عنوان الكتاب

السعر

حالة التوفر

وصف الكتاب

استخدام XPath وCSS Selectors للوصول إلى عناصر HTML بدقة.

التنقل التلقائي بين صفحات الموقع باستخدام Scrapy Spider.

حفظ البيانات في ملف CSV منظم.

معالجة البيانات وتحليل النصوص (NLP)

تنظيف البيانات النصية.

تقسيم النصوص إلى كلمات (Tokenization).

إزالة الكلمات الشائعة Stopwords باستخدام مكتبة NLTK.

تحليل تكرار الكلمات في وصف الكتب.

التصور البياني للبيانات

تم إنشاء عدة تحليلات بصرية لاكتشاف الأنماط داخل البيانات مثل:

Bar Charts لأكثر الكلمات استخداماً

WordCloud لعرض الكلمات الأكثر انتشاراً

تحليل نصوص وصف الكتب لاكتشاف المواضيع الأكثر شيوعاً

الأدوات والتقنيات المستخدمة

Python

Scrapy

XPath / CSS Selectors

Pandas

NLTK

Matplotlib

Seaborn

WordCloud

Jupyter Notebook

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
1
تاريخ الإضافة
تاريخ الإنجاز
المهارات