قمتُ بتحليل مجموعة بيانات التأمين الطبي التي تحتوي على معلومات عن العمر، الجنس، مؤشر كتلة الجسم (BMI)، عدد الأطفال، الحالة الصحية (مدخن/غير مدخن)، والمنطقة.
المشروع شمل:
استكشاف البيانات (EDA) باستخدام مكتبات Pandas, Matplotlib, Seaborn.
دراسة توزيع المتغيرات وعلاقاتها بالتكاليف الطبية.
إنشاء متغيرات إضافية مثل مجموعات العمر.
تحليل الارتباطات باستخدام Heatmap.
بناء نموذج Linear Regression للتنبؤ بتكاليف التأمين بناءً على العوامل المختلفة.
تقييم النموذج باستخدام مقاييس الأداء: MSE, RMSE, MAE, R².
️ التقنيات المستخدمة:
Python
Pandas, NumPy
Matplotlib, Seaborn
Scikit-learn
القيمة:
هذا المشروع يوضح قدرتي على:
التعامل مع بيانات طبية حقيقية.
استخراج الأنماط والعلاقات المهمة (مثل علاقة التدخين بتكاليف التأمين).
بناء نموذج تنبؤي واختباره باستخدام مقاييس إحصائية.