نظرة عامة على المشروع :
هذا المشروع يُظهر مهاراتي في SQL في تنظيف البيانات وتحضيرها للاستخدام في سيناريو تجاري حقيقي. باستخدام مجموعة بيانات من سلسلة متاجر البقالة FoodYum، قمتُ بمعالجة القيم المفقودة، وتوحيد الفئات، وإنشاء نسخة نظيفة من البيانات للتحليل. شملت المهام استبدال القيم الفارغة، استخدام الوسيط في الحقول الرقمية، تعيين القيم الافتراضية، وضمان تناسق البيانات — مما مكن من استخراج رؤى تتعلق بالتسعير، والمخزون، وتقسيم السوق.
نظرة عامة على المهام: تنظيف البيانات وتحضيرها باستخدام SQL
يُوضح هذا القسم المهام الأربع الأساسية التي تم تنفيذها في مشروع FoodYum، والتي تُبرز تطبيق تقنيات تنظيف البيانات باستخدام SQL لضمان جودة البيانات وتناسقها وجاهزيتها للتحليل التجاري.
المهمة 1: تحديد المنتجات التي تفتقد لقيمة year_added
في هذه المهمة الأولى، كان التركيز على اكتشاف النقص في البيانات. قمت بتحليل البيانات لتحديد المنتجات التي تفتقد إلى قيمة year_added، وهو العام الذي أُضيف فيه المنتج إلى نظام الشركة. هذه القيم ضرورية لأي تحليل يعتمد على الزمن، مثل تتبع أداء المنتجات أو تحليل الاتجاهات الموسمية. تحديد هذه الفجوات هو خطوة أساسية لفهم جودة البيانات وضمان دقة التحليلات المستقبلية.
المهمة 2: اكتشاف الأخطاء المحتملة (تواريخ قبل عام 2000)
في هذه المهمة، تم فحص المنتجات التي تم تسجيل تاريخ إضافتها إلى النظام قبل عام 2000. بما أن سلسلة متاجر FoodYum حديثة نسبيًا، فمن غير المرجح أن تكون هذه التواريخ صحيحة، وقد تشير إلى أخطاء إدخال. الهدف هنا هو تحديد القيم الشاذة وتقدير مدى انتشارها، مما يساعد في تقييم ما إذا كانت بحاجة إلى تصحيح أو استبعاد لضمان دقة التحليل.
المهمة 3: تنظيف البيانات وإنشاء جدول منتجات منقّح
كانت هذه المرحلة هي جوهر المشروع، حيث تم تطبيق استراتيجية شاملة لتنظيف البيانات لتجهيزها للتحليل التجاري. شملت المعالجة:
استبدال القيم الفارغة في الحقول النصية (مثل نوع المنتج أو العلامة التجارية أو موقع التخزين) بكلمة "Unknown" للمحافظة على بنية البيانات.
ملء القيم الفارغة في الحقول الرقمية (مثل الوزن والسعر) باستخدام الوسيط بدلاً من المتوسط لتقليل تأثير القيم المتطرفة.
المنتجات التي تفتقد إلى بيانات حول متوسط الوحدات المباعة تم اعتبارها مبيعاتها تساوي صفر.
القيم غير الصحيحة أو المفقودة في year_added تم تعويضها بشكل افتراضي بعام 2022 كخيار منطقي.
بعد تنفيذ هذه التعديلات، تم إنشاء جدول بيانات جديد ومنظّم، وجاهز للاستخدام في التحليلات التجارية المتقدمة.
المهمة 4: التحقق من نتائج تنظيف البيانات
في هذه الخطوة الأخيرة، قمت بمراجعة عينة من الجدول الجديد بعد التنظيف. الهدف كان التحقق من نجاح عمليات التنظيف والتأكد من أن القواعد طُبقت كما يجب، وأن البيانات أصبحت كاملة، متناسقة، وخالية من المشكلات. هذا التحقق ضروري قبل الانتقال لأي تحليلات لاحقة مثل تقسيم السوق، أو توقعات المخزون، أو استراتيجيات التسعير.