في هذا المشروع، قمت بتطوير نظام متكامل لتعلم الآلة بهدف التنبؤ بمدى صلاحية المياه للشرب اعتمادًا على خصائصها الكيميائية والفيزيائية. بدأت المرحلة الأولى بعملية تنظيف البيانات التي شملت معالجة القيم المفقودة باستخدام الوسيط (Median Imputation)، وإزالة القيم الشاذة (Outliers) باستخدام طريقة IQR، والتأكد من اتساق البيانات وجودتها. بعد ذلك، أجريت تحليلًا استكشافيًا شاملًا للبيانات (EDA) لتحديد العوامل الأساسية المؤثرة في صلاحية المياه مثل درجة الحموضة (pH) والصلابة (Hardness) والكلورامين (Chloramines) والكبريتات (Sulfate).
ولتحسين أداء النماذج، قمت بتطبيق مرحلة هندسة الخصائص (Feature Engineering) من خلال إنشاء ميزات تفاعلية وثنائية جديدة (Interaction & Binary Features)، بالإضافة إلى معالجة التوزيعات المنحرفة باستخدام PowerTransformer لضمان توزيع متوازن للبيانات. بعد ذلك، تم توحيد البيانات (Standardization) وتقسيمها إلى مجموعات تدريب واختبار بنسبة 80% للتدريب و20% للاختبار.
تم اختبار عدة خوارزميات تعلم آلة مختلفة مثل Logistic Regression وDecision Tree وRandom Forest وXGBoost وCatBoost، وتمت عملية تحسين المعاملات (Hyperparameter Tuning) مع معالجة مشكلة عدم توازن الفئات باستخدام تقنية SMOTE. بعد المقارنة، حققت نماذج CatBoost وXGBoost أفضل أداء من حيث الدقة والقدرة على التنبؤ بصلاحية المياه، مما يجعلها أكثر كفاءة للاستخدام في التطبيقات العملية.
يعكس هذا المشروع خبرة متقدمة في تحليل البيانات وتطبيق خوارزميات تعلم الآلة بشكل متكامل بدءًا من تنظيف البيانات وتحليلها مرورًا ببناء النماذج وتحسينها وصولًا إلى الحصول على نتائج دقيقة يمكن الاعتماد عليها في دعم قرارات مراقبة جودة المياه.