لقد قمت بتطبيق سير العمل الكامل لتنقيب البيانات على مجموعات بيانات متنوعة باستخدام Weka، مع التركيز على الجانب التطبيقي والتحليلي.
فبدأت بجزء التصنيف على بيانات القروض، حيث قمت بتجربة عدة خوارزميات مثل J48 وIBk وضبط معاملاتها للتقليل من overfitting، ودراسة تأثير حجم بيانات التدريب على الدقة. و في جزء التنبؤ العددي، عملت على بيانات الكوليسترول الطبية باستخدام خوارزميات M5P وIBk، وقمت بتحسين معاملاتها للحصول على أقل خطأ في التنبؤ، مع تجربة خوارزميات إضافية للمقارنة.أما في جزء التجميع، فطبقَت خوارزميتي K-means وEM على بيانات العملاء، ودرست تأثير تغيير عدد المجموعات وتطبيع البيانات على جودة التجميع، مع تحليل مدى معنى النتائج. وفي جزء القواعد الارتباطية، حللت بيانات المشتريات باستخدام خوارزمية Apriori، واكتشفت علاقات بين المنتجات، ودرست تأثير تغيير معايير الثقة على النتائج.
شرح تفصيلي:
تم تنفيذ مشروع تنقيب البيانات باستخدام برنامج Weka على مجموعات بيانات متعددة، حيث تم تطبيق التقنيات التالية:
التصنيف: تحليل بيانات القروض باستخدام خوارزميات كـ J48 وIBk، وأظهرت النتائج أن النماذج المعقدة تعاني من التجهيز الزائد (overfitting) بينما النماذج البسيطة كانت أكثر فعالية.
التنبؤ العددي: تحليل بيانات الكوليسترول حيث تفوق نموذج RandomForest في تحقيق توازن جيد بين الدقة والتعميم.
التجميع: استخدام خوارزميتي K-means وEM على بيانات العملاء، وتمكنت خوارزمية EM من تحديد 7 مجموعات طبيعية ذات خصائص متميزة.
اكتشاف القواعد: تطبيق خوارزمية Apriori على بيانات البقالة، وكشفت عن علاقات مهمة مثل ارتباط شراء الزبادي بشراء الحليب الكامل.