نوع العمل: مشروع تنقيب البيانات (Data Mining) والتعلم الآلي للإشراف وغير الإشراف (Supervised and Unsupervised Learning).
ميزات العمل وطريقة التنفيذ:
الهدف: تطوير نظام متكامل لتحليل وتصنيف وتجميع (Clustering) أنماط الجرائم بناءً على البيانات التاريخية لمدينة سان فرانسيسكو، مما يساعد في التنبؤ بفئات الجرائم المستقبلية.
المعالجة والتحليل: تم تطبيق منهجية علم البيانات الاحترافية:
المعالجة المسبقة (Preprocessing) وهندسة الميزات (Feature Engineering): تنظيف البيانات وإعدادها وتحويل المتغيرات الزمنية والمكانية إلى ميزات قابلة للتحليل.
التجميع (Clustering): استخدام تقنيات التجميع غير الإشرافي (Unsupervised) لفهم التوزيعات الطبيعية للجرائم وتحديد المناطق الساخنة (Hotspots)، حيث تم تطبيق نماذج: K-Medoids، و Fuzzy Clustering، و Hierarchical Clustering.
التصنيف (Classification): بناء نماذج تصنيف إشرافية (Supervised) للتنبؤ بفئة الجريمة، باستخدام خوارزميات Naive Bayes و Decision Tree.
الأدوات والتقييم: تم استخدام مكتبات Pandas, Seaborn, Matplotlib للتحليل وتصور البيانات (Visualization). وتم تقييم دقة نماذج التصنيف باستخدام مقاييس رئيسية مثل Accuracy, Precision, Recall, و F1-Score.