تصنيف النجوم عبر تحليل المكونات الرئيسية وخوارزميات تعلم الآلة

تفاصيل العمل

يتناول هذا العمل تصنيف الأجرام السماوية (مجرات، نجوم، كوازارات) باستخدام تقنيات تحليل المكونات الرئيسية (PCA) وخوارزميات تعلم الآلة.

وصف مفصل لمراحل العمل :

• المعالجة المسبقة: شملت العملية إزالة التكرارات وحذف الأعمدة غير الضرورية التي لا تؤثر على التصنيف مثل المعرفات الفريدة (objid, specobjid) والمتغيرات ذات القيمة الواحدة (rerun)

• توزيع الأهداف: تبين أن البيانات غير متوازنة بين الفئات الثلاث (مجرة: 0، نجم: 1، كوازار: 2)، حيث تم ترميز هذه الفئات رقمياً لتسهيل معالجتها بواسطة الخوارزميات.

2. تحليل الارتباط وتقليل الأبعاد (PCA)

• كشف العلاقات: لاحظ المحلل وجود ارتباط خطي قوي بين العديد من الميزات، خاصة نطاقات التصوير (r, i, z, g) والمتغيرات المتعلقة باللوحات الفلكية (plate, mjd)

• تطبيق PCA: لتقليل تعقيد النموذج ومنع التداخل، تم استخدام تحليل المكونات الرئيسية (PCA) لدمج الميزات المترابطة في مكونات أقل، مثل دمج نطاقات التصوير الأربعة في مكون واحد يسمى igrz

3. تدريب وتقييم النماذج:

تم تقسيم البيانات إلى مجموعتي تدريب واختبار (بنسبة 70% للتدريب و30% للاختبار) بعد إجراء عملية تقييس البيانات (Standard Scaling) لضمان توازن الموازين بين الميزات

• الانحدار اللوجستي (Logistic Regression): حقق نتائج جيدة وتم تقييمه عبر تقرير التصنيف ومصفوفة الارتباك.

• الغابة العشوائية (Random Forest Classifier): تم تدريب النموذج لتقييم دقته على بيانات الاختبار.

• آلات المتجهات الداعمة (SVC): استُخدمت بنواة خطية (linear kernel) لتصنيف الأجرام.

الهدف النهائي من هذا العمل هو الوصول إلى نموذج قادر على التنبؤ بدقة بنوع الجرم السماوي بناءً على خصائصه الفيزيائية والمكانية المرصودة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة