تفاصيل العمل

--وصف المشروع:

مشروع أداة لاستخلاص بيانات المنتجات من موقع Amazon تم بناؤها باستخدام Python مع أدوات لمعالجة الطلبات واستخراج العناصر من الصفحات الديناميكية. الهدف من الأداة هو جمع بيانات دقيقة ومنظمة عن المنتجات (العنوان، السعر، التقييمات... إلخ) مع ضمان مقاومة أنظمة الحماية الخاصة بأمازون (Anti-Detection). تم اختبار الأداة ونجحت في العمل مع Amazon Egypt.

------------------------------------

--ملخص البيانات:

الأداة تقوم بجمع معلومات تفصيلية عن المنتجات، تشمل:

-معرف المنتج (ASIN)

-اسم المنتج

-رابط المنتج

-رابط الصورة

-متوسط التقييمات (من 0 إلى 5)

-عدد المراجعات

-السعر بصيغة منسقة

-حالة التوفر (متاح/غير متاح/عدد محدود)

-إذا كان المنتج إعلانًا ممولًا (Sponsored)

-وقت وتاريخ عملية الاستخلاص

------------------------------------

--مميزات الأداة:

-استخلاص متعدد الصفحات مع إمكانية تحديد عدد الصفحات.

-حفظ البيانات بصيغ متعددة: CSV، Excel، JSONL.

-تجنب التكرار باستخدام معرف المنتج (ASIN).

-مكافحة أنظمة الحماية (Anti-Detection):

-استخدام Mobile User-Agent لتجاوز الحظر.

-فترات انتظار عشوائية بين الطلبات.

-إعادة المحاولة التلقائية عند حدوث خطأ.

-تنظيف البيانات والتحقق من صحتها (السعر، الروابط، النصوص).

-سجل تتبع (Logs): لتوثيق الأخطاء، التقدم، والأداء.

-نظام إعدادات (config.json): لتخصيص التأخيرات، عدد المحاولات، المجلدات... إلخ.

------------------------------------

--التقنيات المستخدمة:

-Python 3.9+

-Requests + Parsers لمعالجة الصفحات

-Pandas (لتنظيم البيانات وحفظها)

-Logging (لتتبع العمليات)

-JSON/CSV/Excel exporters

------------------------------------

--المعالجة التقنية:

-تأخيرات عشوائية بين الطلبات لتجنب الحظر.

-إعادة المحاولة مع Exponential Backoff عند فشل الاتصال.

-تنظيف النصوص من الرموز الغير ضرورية.

-التحقق من صلاحية البيانات قبل حفظها.

-إنشاء ملفات إخراج متعددة (CSV، Excel، JSONL) مع إزالة التكرارات.

------------------------------------

--ملخص النتائج:

-قاعدة بيانات موثوقة لمنتجات أمازون مصر.

-إمكانية استخدام البيانات في:

-تحليل السوق

-مقارنة الأسعار

-تتبع توفر المنتجات

-إنشاء أنظمة توصية أو Dashboards تحليلية

-توفير الوقت والجهد بدلًا من الجمع اليدوي.

------------------------------------

--كيفية التشغيل:

تثبيت المتطلبات:

- pip install -r requirements.txt

تشغيل الأداة:

- python app.py

الوصول للبيانات:

- يتم حفظ النتائج في مجلد output/ بالصيغة المطلوبة (CSV/Excel/JSONL).

- سجل العمليات محفوظ في ملف scraper.log.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة
تاريخ الإنجاز
المهارات