يهدف هذا المشروع إلى تحليل بيانات سوق الأسماك باستخدام Python وتقنيات تحليل البيانات (Data Analysis) والتعلم الآلي (Machine Learning) من أجل فهم العلاقة بين خصائص السمك مثل الطول والوزن والنوع، والتنبؤ بوزن السمك بناءً على صفاته الفيزيائية.
مصدر البيانات:
تم استخدام Fish Market Dataset، وهو مجموعة بيانات تحتوي على سجلات لأنواع مختلفة من الأسماك تم جمعها من الأسواق الفنلندية، وتشمل البيانات الخصائص التالية:
Species (النوع): نوع السمك مثل Bream, Roach, Pike, Smelt, إلخ.
Weight (الوزن): وزن السمكة بالجرام.
Length1, Length2, Length3 (الأطوال): قياسات الطول المختلفة بالسنتمتر.
Height (الارتفاع): ارتفاع السمكة.
Width (العرض): عرض السمكة.
الأدوات والتقنيات المستخدمة:
Python
Pandas وNumPy لتحليل البيانات وتنظيفها
Matplotlib وSeaborn لتصوير البيانات بصريًا
Scikit-learn لبناء نموذج التنبؤ
Jupyter Notebook كبيئة للتنفيذ
خطوات العمل:
استكشاف البيانات (EDA):
تحليل الإحصائيات الأساسية.
تحديد القيم المفقودة والشاذة.
رسم العلاقات بين المتغيرات المختلفة.
تنظيف البيانات:
معالجة القيم المفقودة.
ترميز القيم النصية (Encoding) لأنواع الأسماك.
تحليل العلاقات:
دراسة العلاقة بين الطول والوزن.
معرفة أكثر الأنواع شيوعًا أو وزنًا.
بناء نموذج تنبؤ بالوزن:
تقسيم البيانات إلى تدريب واختبار.
استخدام نموذج Linear Regression أو Random Forest Regressor.
تقييم الأداء باستخدام R² Score وMAE.
النتائج:
تم تحقيق دقة عالية في التنبؤ بوزن الأسماك بناءً على خصائصها الفيزيائية.
تم توضيح الأنواع الأكثر انتشارًا والأكثر وزنًا في السوق.
تم بناء تصور شامل يساعد في فهم سوق الأسماك بشكل أفضل.
الخلاصة:
مشروع Fish Market Dataset يُظهر أهمية تحليل البيانات في المجالات التجارية والزراعية، حيث يمكن استخدامه للتنبؤ بالأسعار، وتقدير الإنتاج، وتحسين عمليات البيع والشراء باستخدام تقنيات الذكاء الاصطناعي وتحليل البيانات.