تفاصيل العمل

مشروع تحليل بيانات شامل يهدف إلى استكشاف وتحليل هيكل الأجور والتعويضات لموظفي مدينة سان فرانسيسكو على مدار عدة سنوات. تم استخدام لغة Python وأدوات تحليل البيانات المتقدمة لاستخراج إحصاءات حيوية تساعد في فهم كيفية توزيع الميزانيات والرواتب بناءً على المسميات الوظيفية والسنوات.

أبرز العمليات التقنية في المشروع:

استكشاف البيانات (Data Exploration): التعامل مع مجموعة بيانات ضخمة تضم أكثر من 148,000 سجل، وفهم المتغيرات الأساسية مثل (Base Pay, Overtime, Benefits).

تنظيف ومعالجة البيانات (Data Cleaning):

معالجة القيم المفقودة (Null Values) في أعمدة الرواتب والمزايا.

تصحيح أنواع البيانات لضمان دقة العمليات الحسابية.

إزالة الأعمدة غير الضرورية لتحسين أداء النموذج التحليلي.

الإحصاء التحليلي:

حساب متوسطات الأجور القصوى والدنيا.

تحليل الرواتب الإجمالية مع المزايا (Total Pay with Benefits) لمقارنة التكلفة الحقيقية للوظائف.

رصد الوظائف الأكثر تكراراً (مثل Transit Operator) والوظائف الفريدة.

تحليل الاتجاهات الزمنية: تتبع نمو متوسط الرواتب من عام 2011 إلى 2014، حيث أظهر التحليل ارتفاعاً تدريجياً في مستوى التعويضات.

الارتباطات الإحصائية: دراسة العلاقة بين طول المسمى الوظيفي ومستوى الراتب (Correlation Analysis) لبيان عدم وجود تأثير مباشر بينهما.

النتائج التي تم استخراجها:

تحديد أعلى الموظفين أجراً في تاريخ المدينة (Nathaniel Ford بمبلغ يتجاوز 567 ألف دولار).

تحليل توزيع الرواتب في الأقسام الحيوية مثل الإطفاء والشرطة.

استخراج قائمة بأكثر الوظائف طلباً وتكلفة على ميزانية المدينة.

الأدوات المستخدمة:

اللغة: Python.

المكتبات: Pandas للتحليل الجدولي، NumPy للعمليات الرياضية.

المنصة: Kaggle / Jupyter Notebook.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
2
تاريخ الإضافة
تاريخ الإنجاز
المهارات