الملخص:
مشروع يهدف إلى إعداد وتحويل مجموعة بيانات خام (Raw Data) لأجهزة اللاب توب إلى بيانات جاهزة للنمذجة التنبؤية. ركز العمل على استكشاف العلاقات المخفية بين المواصفات والسعر وتحسين جودة الميزات لرفع كفاءة نماذج تعلم الآلة لاحقاً.
المراحل التي تم إنجازها بدقة:
تنظيف البيانات (Data Cleaning): إزالة الرموز غير الضرورية من النصوص (مثل "GB" و "kg") وتحويلها إلى قيم رقمية.
التعامل مع القيم المفقودة والمتطرفة لضمان عدم انحراف التحليل.
التحليل الاستكشافي (EDA):
دراسة توزيع الأسعار باستخدام الرسوم البيانية (Distribution Plots).
تحليل الارتباط (Correlation Analysis) لتحديد العوامل الأكثر تأثيراً على السعر مثل نوع المعالج وحجم الذاكرة العشوائية.
هندسة الميزات (Feature Engineering):
استخلاص ميزات تقنية جديدة مثل دقة الشاشة ونوع التخزين (SSD vs HDD).
تطبيق تقنيات (One-Hot Encoding) لتحويل البيانات الفئوية (Categorical Data) إلى تنسيق يفهمه النموذج.
الأدوات المستخدمة:
Python: كبيئة عمل أساسية.
Pandas & NumPy: لمعالجة الجداول والعمليات الحسابية.
Matplotlib & Seaborn: لإنشاء المخططات البيانية التوضيحية.