هذا المشروع عبارة عن تطبيق متكامل في تحليل البيانات وتعلم الآلة باستخدام بيانات البطاريق. الهدف من المشروع هو تصنيف أنواع البطاريق بالاعتماد على مجموعة من الخصائص مثل:
طول المنقار (Bill Length)
عمق المنقار (Bill Depth)
طول الزعنفة (Flipper Length)
كتلة الجسم (Body Mass)
الجنس (Sex)
الجزيرة (Island)
مراحل المشروع:
معالجة البيانات (Data Preprocessing):
تنظيف البيانات من القيم الناقصة.
ترميز البيانات الفئوية لتصبح مناسبة للنماذج الرياضية.
التحليل الاستكشافي للبيانات (EDA):
دراسة التوزيعات باستخدام الرسوم البيانية.
تحليل العلاقات بين الخصائص المختلفة وأنواع البطاريق.
بناء النماذج (Model Building):
تطبيق خوارزميات تعلم الآلة مثل:
الانحدار اللوجستي (Logistic Regression)
شجرة القرار (Decision Tree)
الغابة العشوائية (Random Forest)
تدريب النماذج على البيانات المصنفة.
تقييم النموذج (Model Evaluation):
استخدام مقاييس مثل الدقة (Accuracy) ومصفوفة الالتباس (Confusion Matrix).
مقارنة أداء النماذج واختيار الأفضل.