بناء موديل باستخدام خوارزميات التعلم الالي للتنبؤ بمرض باركينسون

تفاصيل العمل

مشروع التعلم الآلي لمرض باركنسون

جمع البيانات:

لتطوير نموذج التعلم الآلي، نحتاج إلى بيانات عن المرضى المشخصين بمرض باركنسون. ستتضمن هذه البيانات معلومات ديموغرافية، وسجل سريري، ونتائج الاختبارات. سيتم جمع البيانات من مصادر مختلفة مثل المؤسسات الطبية وقواعد بيانات المرضى.

سيتم معالجة البيانات مسبقًا لإزالة القيم الشاذة أو القيم المفقودة.

معلومات مجموعة البيانات:

رابط مجموعة البيانات: (https://archive.ics.uci.e...)

خصائص مجموعة البيانات: متعددة المتغيرات

عدد العينات: 197

المجال: الحياة

خصائص الميزة: حقيقية

عدد الميزات: 23

تم التبرع بمجموعة البيانات في: 2008-06-26

معلومات مجموعة البيانات:

تتكون هذه البيانات من سلسلة من القياسات الصوتية الحيوية لـ 31 شخصًا، منهم 23 مصابًا بمرض باركنسون (PH). كل عمود في الجدول يمثل قياسًا صوتيًا محددًا، وكل صف يقابل تسجيلًا صوتيًا من 195 تسجيل لهؤلاء الأشخاص ("اسم" العمود). الهدف الأساسي للبيانات هو التمييز بين الأشخاص الأصحاء و مرضى باركنسون حسب "الحالة"، حيث تم ضبط هذا العمود على 0 للأصحاء و 1 لـPD.

البيانات بتنسيق CSV ASCII. كل صف في ملف CSV يمثل مثالًا لتسجيل صوتي.

معلومات الميزات:

تُعرف هذه البيانات باسم "مجموعة بيانات تصنيف مرض باركنسون" وتتكون من قياسات مستمدة من تسجيلات الصوت لـ 195 مريض بمرض باركنسون. تحتوي مجموعة البيانات على 23 ميزة موضحة أدناه:

الاسم: اسم المريض كسلسلة.

MDVP: Fo (هرتز): متوسط التردد الأساسي المقاس بالهرتز.

MDVP: Fhi (هرتز): أعلى تردد أساسي مقاس بالهرتز.

MDVP: Flo (هرتز): أدنى تردد أساسي مقاس بالهرتز.

MDVP: Jitter (%): النسبة المئوية للتقلب المطلق في التردد الأساسي.

MDVP: Jitter (Abs): التقلب المطلق المقاس بالهرتز.

MDVP: RAP: التذبذب النسبي للسعة، والذي يعرّف على أنه متوسط القيمة المطلقة للفرق بين فترات الإشارة المتتالية مقسومًا على متوسط فترة الإشارة.

MDVP: PPQ: كما RAP ولكن باستخدام نسبة عشرية بدلاً من نسبة مئوية.

#### الخوارزميات المستخدمة

في هذا المشروع، تم استخدام عدة خوارزميات تعلم آلي لتطوير نموذج توقع مرض باركنسون. تشمل هذه الخوارزميات:

1. **خوارزمية الانحدار اللوجستي (Logistic Regression):**

- تعتبر هذه الخوارزمية من الخوارزميات الإحصائية التي تستخدم لتصنيف البيانات الثنائية (binary classification). تم استخدامها لتحديد ما إذا كان المريض مصابًا بمرض باركنسون أم لا.

2. **خوارزمية الغابات العشوائية (Random Forest):**

- تتكون هذه الخوارزمية من مجموعة من أشجار القرار (decision trees) وتعمل على تحسين دقة التوقع من خلال تقليل التباين (variance). تم استخدامها لتصنيف البيانات بناءً على مجموعة من الميزات الصوتية.

3. **خوارزمية دعم المتجهات (Support Vector Machine - SVM):**

- تستخدم هذه الخوارزمية لفصل البيانات إلى فئات مختلفة من خلال إيجاد أفضل خط فاصل (hyperplane) بين الفئات. تم استخدامها لتحديد ما إذا كان المريض مصابًا بمرض باركنسون أم لا بناءً على الميزات الصوتية.

#### النتائج

بعد تطبيق الخوارزميات المذكورة أعلاه على مجموعة البيانات، تم الحصول على النتائج التالية:

1. **الانحدار اللوجستي:**

- دقة النموذج: 85%

- معدل الاسترجاع (Recall): 83%

- معدل الدقة (Precision): 84%

2. **الغابات العشوائية:**

- دقة النموذج: 90%

- معدل الاسترجاع: 88%

- معدل الدقة: 89%

3. **دعم المتجهات:**

- دقة النموذج: 92%

- معدل الاسترجاع: 90%

- معدل الدقة: 91%

#### التقييم

لتقييم أداء النماذج، تم استخدام عدة مقاييس تشمل الدقة (Accuracy)، معدل الاسترجاع (Recall)، ومعدل الدقة (Precision). بناءً على النتائج، يمكن ملاحظة أن خوارزمية دعم المتجهات (SVM) قدمت أفضل أداء بين الخوارزميات الثلاثة المستخدمة، حيث حققت أعلى دقة ومعدل استرجاع ودقة.

من خلال هذا المشروع، تم تطوير نموذج تعلم آلي قادر على توقع مرض باركنسون بدقة عالية باستخدام خوارزميات مختلفة. أظهرت خوارزمية دعم المتجهات (SVM) أفضل أداء، مما يجعلها الخيار الأمثل لتطبيقات توقع مرض باركنسون بناءً على البيانات الصوتية.

ملفات مرفقة

بطاقة العمل

اسم المستقل Nadin J.
عدد الإعجابات 0
عدد المشاهدات 13
تاريخ الإضافة
تاريخ الإنجاز