نبذة عن المشروع:
يعتبر تنظيف البيانات (Data Cleaning) هو الخطوة الأهم لضمان دقة أي قرار استثماري أو مهني. في هذا المشروع، قمت بمعالجة وتحليل مجموعة بيانات ضخمة (Stack Overflow Survey) تضم أكثر من 70,000 سجل لمطورين حول العالم، بهدف استخراج رؤى دقيقة حول توجهات الرواتب وعلاقتها بلغات البرمجة وسنوات الخبرة.
المهارات والعمليات التقنية المنفذة:
تصفية البيانات (Data Wrangling): استبعاد السجلات غير المكتملة وتوحيد تنسيقات الرواتب وسنوات الخبرة باستخدام مكتبة Pandas.
معالجة القيم الشاذة (Outlier Detection): تطبيق خوارزميات إحصائية (Quantiles) لاستبعاد القيم المتطرفة التي قد تسبب انحرافاً في النتائج.
هندسة البيانات (Feature Engineering): إنشاء تصنيفات مخصصة لمستويات الخبرة (Junior, Senior, Expert) لتحويل البيانات الخام إلى معلومات قابلة للقراءة.
التحليل البصري (Data Visualization): تصميم رسوم بيانية احترافية (Box Plots & Line Charts) باستخدام Seaborn و Matplotlib لتوضيح العلاقة بين المتغيرات التقنية والمادية.
الأدوات المستخدمة:
اللغة: Python.
المكتبات: Pandas, NumPy, Seaborn, Matplotlib.
المنصة: Jupyter Notebook / Kaggle.
النتائج المحققة:
تقديم لوحة بيانات (Dashboard) توضح توزيع الرواتب بناءً على لغات البرمجة (مع تركيز خاص على Python و C++).
تحديد "نقطة التحول" في المسار المهني التي يشهد فيها المبرمج أكبر قفزة في الدخل السنوي.
بيانات نظيفة وجاهزة تماماً للاستخدام في نماذج التعلم الآلي (Machine Learning Ready).