تصنيف فصائل الحمض النووي (DNA) باستخدام تقنيات تعلم الآلة ومعالجة اللغات الطبيعية (NLP)

تفاصيل العمل

مشروع هندسي متقدم يهدف إلى تصنيف تسلسلات الحمض النووي (DNA) لمختلف الكائنات الحية (بشر، شمبانزي، كلاب) وتحديد فصائلها الجينية بدقة عالية.

الميزات التقنية:

تحليل البيانات الجينية: تحويل تسلسلات الـ DNA الخام إلى جمل نصية باستخدام تقنية k-mer counting.

معالجة اللغات الطبيعية (NLP): تطبيق تقنيات الـ Tokenization والـ Vectorization لتمثيل البيانات الحيوية برمجياً.

التغلب على قيود الذاكرة: استخدام استراتيجية Feature Hashing للتعامل مع البيانات الضخمة (Big Data) بكفاءة عالية واستهلاك موارد أقل.

التحقق المتقاطع (Cross-Species Validation): تدريب النموذج على بيانات البشر واختبار قدرته على التعميم (Generalization) على الكائنات الأخرى.

طريقة التنفيذ:

تم بناء المشروع باستخدام لغة Python وبيئة Jupyter Notebook، مع الاعتماد على مكتبات Scikit-learn لبناء نموذج Multinomial Naive Bayes، ومكتبات Pandas و Seaborn لمعالجة البيانات وعرض النتائج بصرياً.