--وصف المشروع:
مشروع أداة لاستخلاص البيانات التجارية (Web Scraping Tool) تم بناؤها باستخدام Selenium و BeautifulSoup بهدف جمع بيانات دقيقة عن الأنشطة التجارية من الإنترنت. يهدف المشروع إلى توفير قاعدة بيانات منظمة يمكن الاستفادة منها في التحليل السوقي، التسويق، أو إدارة علاقات العملاء.
----------------------
--ملخص البيانات:
-الأداة تقوم بجمع معلومات تفصيلية عن الأنشطة التجارية، تشمل:
-اسم الشركة أو النشاط التجاري
-العنوان التفصيلي
-أرقام الهواتف (بما فيها الأرقام المخفية خلف الأزرار)
-البريد الإلكتروني
-رقم واتساب (إن وجد)
-التصنيف الرئيسي والفرعي للنشاط
-الكلمات المفتاحية المرتبطة بالنشاط
-الروابط الخاصة بالصفحات أو الملفات
----------------------
--مميزات الأداة:
-استخلاص ذكي للبيانات: التعامل مع العناصر المخفية والديناميكية في الصفحات.
-حفظ البيانات بصيغ متعددة: CSV، Excel، JSON.
-نظام نسخ احتياطي تلقائي: يحفظ التقدم بشكل دوري.
-معالجة أخطاء مرنة: استمرار العمل حتى في حال حدوث مشاكل جزئية.
-سجل تتبع (Logs): لتوثيق كل عملية جمع والصفحات التي تمت معالجتها.
-التأكد من صحة البيانات: التحقق من صلاحية أرقام الهواتف والبريد الإلكتروني والروابط.
----------------------
--التقنيات المستخدمة:
-Python 3.9+
-Selenium (للتعامل مع الصفحات الديناميكية)
-BeautifulSoup (لاستخراج العناصر والبيانات)
-Pandas (لتنظيم البيانات وحفظها)
-Logging (لتتبع العمليات)
----------------------
--المعالجة التقنية:
-انتظار ديناميكي (Explicit Waits) لضمان تحميل العناصر قبل استخلاصها.
-تنظيف البيانات والتحقق من تنسيقها.
-تحديث ملفات الإخراج بشكل دوري
----------------------
--ملخص النتائج:
-قاعدة بيانات شاملة للأنشطة التجارية.
-إمكانية فرز وتصنيف الأنشطة حسب: العنوان، المجال، أو الكلمات المفتاحية.
-بيانات موثوقة وصالحة للاستخدام في الحملات التسويقية أو التحليل الإحصائي.
-تقليل الوقت والجهد اللازمين لجمع المعلومات يدويًا.
----------------------
--كيفية التشغيل:
تثبيت المتطلبات:
- pip install -r requirements.txt
تشغيل الأداة:
- python app.py
-الوصول للبيانات المستخرجة في مجلد output بالصيغة المطلوبة (CSV/Excel/JSON).