مشروع هندسي متقدم يهدف إلى تصنيف تسلسلات الحمض النووي (DNA) لمختلف الكائنات الحية (بشر، شمبانزي، كلاب) وتحديد فصائلها الجينية بدقة عالية.
الميزات التقنية:
تحليل البيانات الجينية: تحويل تسلسلات الـ DNA الخام إلى جمل نصية باستخدام تقنية k-mer counting.
معالجة اللغات الطبيعية (NLP): تطبيق تقنيات الـ Tokenization والـ Vectorization لتمثيل البيانات الحيوية برمجياً.
التغلب على قيود الذاكرة: استخدام استراتيجية Feature Hashing للتعامل مع البيانات الضخمة (Big Data) بكفاءة عالية واستهلاك موارد أقل.
التحقق المتقاطع (Cross-Species Validation): تدريب النموذج على بيانات البشر واختبار قدرته على التعميم (Generalization) على الكائنات الأخرى.
طريقة التنفيذ:
تم بناء المشروع باستخدام لغة Python وبيئة Jupyter Notebook، مع الاعتماد على مكتبات Scikit-learn لبناء نموذج Multinomial Naive Bayes، ومكتبات Pandas و Seaborn لمعالجة البيانات وعرض النتائج بصرياً.