قمت بتنفيذ مشروع تحليل بيانات وبناء نموذج Linear Regression متكامل باستخدام Python، بدءًا من تنظيف البيانات واستكشافها وصولًا إلى التنبؤ وتحليل النتائج بصريًا.
خطوات العمل:
استكشاف البيانات:
استخدمت df.info() و df.describe() لفهم طبيعة البيانات، أنواع المتغيرات، واكتشاف القيم المفقودة.
تحليل البيانات الاستكشافي (EDA):
أنشأت Visualizations لفهم الأنماط والارتباطات بين المتغيرات.
تعاملت مع outliers لضمان جودة البيانات قبل بناء النموذج.
تقسيم البيانات:
قسمت البيانات إلى X_train, X_test, y_train, y_test لضمان تدريب النموذج على مجموعة والاختبار على مجموعة مستقلة لتقييم الأداء بدقة.
بناء النموذج والتدريب:
أنشأت نموذج Linear Regression باستخدام Scikit-Learn.
دربت النموذج على بيانات التدريب (X_train, y_train).
استخدمت lm.coef_ لاستخراج معاملات المتغيرات ومعرفة تأثير كل Feature على المتغير الهدف.
أنشأت DataFrame coef_df لعرض المعاملات بشكل مرتب وواضح لكل متغير.
التنبؤ وتقييم النموذج:
استخدمت lm.predict(X_test) لتوليد التوقعات على بيانات الاختبار.
أنشأت Visual مقارنة بين القيم الحقيقية (y_test) والقيم المتوقعة (lm.predict(X_test)) لتوضيح دقة النموذج.
حسبت مقاييس الأداء الأساسية: MAE, MSE, RMSE لتقييم جودة النموذج.
أنشأت Histogram للبواقي (Residuals) لفحص توزيع الأخطاء والتأكد من دقة التنبؤات.
التمثيل البياني للنتائج:
عرضت نتائج التنبؤ مقابل القيم الحقيقية في رسم بياني واضح لتسهيل فهم الأداء.
عرضت معاملات المتغيرات في جدول coef_df لتوضيح تأثير كل Feature على النتائج.
الأدوات والتقنيات المستخدمة:
Python (Pandas, Matplotlib, Seaborn, Scikit-Learn)
Data Cleaning & Outlier Handling
EDA & Data Visualization
Linear Regression Model
Train/Test Split
Model Evaluation Metrics (MAE, MSE, RMSE)
المهارات المستخدمة:
تنظيف وتنظيم البيانات
تحليل البيانات الاستكشافي (EDA)
التمثيل البياني للبيانات (Visualization)
بناء وتدريب نموذج Linear Regression
تقسيم البيانات إلى Train/Test
التنبؤ بالقيم وتحليل النتائج
استخراج وفهم معاملات المتغيرات (Coefficients)
تقييم النموذج باستخدام مقاييس الأداء