في هذا المشروع قمت بتصميم وتنفيذ نظام ETL (استخراج، تحويل، تحميل) لمعالجة البيانات من مصادر متعددة وتجهيزها للتحليل.
بدأت بجمع البيانات من ملفات CSV وقواعد بيانات، ثم قمت بتنظيفها ومعالجتها باستخدام مكتبة Pandas في Python، بما في ذلك التعامل مع القيم المفقودة وتصحيح الأخطاء وتوحيد الصيغ.
بعد ذلك قمت ببناء Data Pipeline يقوم بتحويل البيانات إلى شكل منظم، ثم تحميلها إلى قاعدة بيانات باستخدام SQL، مع تحسين الأداء باستخدام استعلامات فعالة.
كما تم أتمتة العملية بحيث يتم تحديث البيانات بشكل دوري بدون تدخل يدوي، مما ساعد في توفير الوقت وتقليل الأخطاء.
الأدوات المستخدمة:
Python – Pandas – SQL – Jupyter Notebook
النتائج:
تحسين جودة البيانات ودقتها
تقليل الوقت اللازم لمعالجة البيانات
إنشاء نظام قابل لإعادة الاستخدام لمشاريع أخرى