تفاصيل العمل

قمت بالعمل على مشروع متكامل لتنظيف ومعالجة بيانات (Data Cleaning) باستخدام لغة Python ومكتبة Pandas، لضمان دقة البيانات وجاهزيتها لمرحلة التحليل أو بناء نماذج تعلم الآلة. شمل العمل الخطوات التقنية التالية:

استكشاف وفحص البيانات (Data Exploration): تحليل هيكل البيانات المكون من 10,000 سجل، وتحديد الثغرات الإحصائية والقيم المفقودة في كل عمود.

معالجة القيم المفقودة (Handling Missing Values): رصد وتحليل النقص الحاد في أعمدة مثل الموقع (Location) وطريقة الدفع (Payment Method)، ووضع استراتيجيات للتعامل معها.

هندسة البيانات (Feature Engineering): تنظيف عمود معرف المعاملة (Transaction ID) من خلال إزالة الرموز النصية غير المرغوب فيها وتحويله إلى صيغة رقمية لسهولة المعالجة.

تصحيح الأخطاء المنطقية: تحديد واستخراج القيم الخاطئة مثل "ERROR" و "UNKNOWN" داخل البيانات الرقمية والوصفية لضمان جودة المخرجات.

تحويل وتنسيق البيانات: تحويل أنواع البيانات (Data Types) إلى التنسيقات المناسبة لكل عمود لضمان كفاءة استهلاك الذاكرة وسرعة المعالجة.

الأدوات المستخدمة:

Python

Pandas & NumPy

Jupyter Notebook / Google Colab

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
6
تاريخ الإضافة
تاريخ الإنجاز
المهارات