في هذا المشروع قمتُ ببناء خطّ أنابيب بيانات (Data Pipeline) متكامل لتحليل بيانات مبيعات قطاع التجزئة، بهدف تحسين عملية جمع البيانات وتنظيفها وتحليلها بشكل آلي وفعّال. يعتمد المشروع على تحويل البيانات الخام إلى معلومات قابلة للاستخدام تساعد في اتخاذ القرارات وتشخيص أداء المبيعات.
مكونات المشروع
يتكون خطّ البيانات من ثلاث مراحل رئيسية:
1. الاستخراج (Extract)
قمت باستخراج بيانات المبيعات والبيانات الاقتصادية الداعمة من مصادر متعددة عبر ملفات CSV وقواعد بيانات SQL، وتجميعها في بنية واحدة.
2. التحويل والتنظيف (Transform)
عملت على:
تنظيف البيانات وإزالة القيم المفقودة
توحيد الأنماط وتغيير أنواع الأعمدة
إنشاء متغيرات جديدة للمساعدة في التحليل
احتساب مؤشرات شهرية مثل متوسط مؤشر أسعار المستهلك (CPI)
3. التجميع والتحميل (Load)
بعد تجهيز البيانات، تم:
احتساب متوسط المبيعات الأسبوعية لكل شهر
تصدير البيانات النظيفة والبيانات المجمّعة في ملفات منفصلة للاستخدام والتقارير المستقبلية
القيمة التي يقدّمها المشروع
هذا الخطّ يوفّر:
أتمتة كاملة لعملية معالجة البيانات
تقليل الوقت والجهد المبذول في التحليل اليدوي
تحسين دقة التقارير الخاصة بالمبيعات
سهولة إنتاج رؤى تحليلية تساعد الشركات في فهم أداء المنتجات والفروع عبر الأشهر
قابلية التوسع لإضافة مصادر بيانات جديدة بسهولة
️ التقنيات المستخدمة
Python
Pandas
SQL
Jupyter Notebook
Data Cleaning & Aggregation
ETL Workflow Design