معالجة وتنظيف البيانات المعقدة (Data Cleaning & EDA) لقطاع التجارة الإلكترونية

تفاصيل العمل

نبذة عن المشروع:

مشروع متكامل يهدف إلى تحويل مجموعة بيانات خام وفوضوية (Messy Data) خاصة بمنتجات ومراجعات متجر أمازون (أكثر من 1000 منتج) إلى بيانات مهيكلة ونظيفة تماماً، جاهزة لإدخالها في قواعد البيانات أو استخدامها في نماذج تعلم الآلة (Machine Learning). لم يقتصر المشروع على التنظيف التقني فحسب، بل شمل تحليلاً استكشافياً (EDA) لتقديم رؤى أعمال حقيقية تدعم اتخاذ القرار.

المهام التي قمت بتنفيذها في هذا المشروع:

تنظيف البيانات (Data Cleaning & Preprocessing):

معالجة القيم المفقودة (Missing Values) والتعامل مع الأخطاء الإملائية.

تحويل وتوحيد أنواع البيانات (Data Casting)، مثل تنظيف حقول الأسعار من الرموز النصية والعملات لتحويلها إلى أرقام عشرية دقيقة صالحة للتحليل المالي.

هندسة الميزات (Feature Engineering):

استخراج الفئات الرئيسية للمنتجات (Main Categories) من نصوص متداخلة ومعقدة باستخدام تقنيات معالجة النصوص.

التحليل الاستكشافي واستخراج الرؤى (EDA & Business Insights):

تحليل العلاقة بين استراتيجيات التسعير (نسب الخصم) وحجم التفاعل والمبيعات.

ترتيب الفئات الأكثر مبيعاً وتقييماً لتوجيه الجهود التسويقية.

تصور البيانات وتحليل النصوص (Data Visualization & NLP):

بناء لوحة معلومات مصغرة (Visualizations) لتوضيح النتائج الإحصائية.

تطبيق خوارزميات تحليل النصوص لاستخراج أبرز الكلمات المفتاحية من التقييمات السلبية للعملاء، وتصميم "سحابة كلمات" (Word Cloud) لتسليط الضوء على أبرز مشاكل المنتجات (مثل جودة التغليف أو سرعة الشحن).

الأدوات والتقنيات المستخدمة:

لغة البرمجة: Python

معالجة البيانات: Pandas, NumPy

تصور البيانات: Matplotlib, Seaborn, WordCloud

النتيجة النهائية:

تم تسليم قاعدة بيانات نظيفة بنسبة 100%، بالإضافة إلى تقرير مرئي شامل (مرفق في معرض الأعمال) يلخص أهم مؤشرات الأداء (KPIs) التي تهم الإدارة وأصحاب المتاجر الإلكترونية.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة
تاريخ الإنجاز
المهارات