مشروع Data Engineering يهدف إلى بناء Data Pipeline متكامل باستخدام Python لجمع البيانات من أكثر من مصدر، ثم تنظيفها وتحويلها وتخزينها داخل قاعدة بيانات منظمة.
يتضمن المشروع:
- استخراج البيانات من REST API
- تنفيذ Web Scraping باستخدام Selenium
- تنظيف وتحويل البيانات باستخدام Pandas
- دمج البيانات من مصادر مختلفة
- تخزين البيانات داخل SQLite Database باستخدام SQLAlchemy
مصادر البيانات:
- API: dummyjson.com
- Website: books.toscrape.com
الأدوات المستخدمة:
- Python
- Pandas
- Requests
- Selenium
- SQLAlchemy
- SQLite
المشروع يحاكي خطوات ETL الحقيقية المستخدمة في مشاريع Data Engineering.