تصنيف اختراق الحاجز الدموي الدماغي (BBBP) للمركبات باستخدام بصمات Morgan ونماذج scikit-learn مع Soft Voting

تفاصيل العمل

قمت بتنفيذ مشروع تعلم آلة في مجال اكتشاف الأدوية للتنبؤ بقدرة المركبات على اختراق الحاجز الدموي الدماغي (BBBP) اعتمادًا على البنية الجزيئية. تم تحميل بيانات BBBP عبر Therapeutics Data Commons (TDC) ثم تحويل تمثيل الجزيئات (SMILES) إلى Morgan Fingerprints باستخدام RDKit. بعد ذلك بنيت Pipeline احترافي داخل imbalanced-learn يضم StandardScaler وSMOTE لمعالجة عدم توازن الفئات بدون حدوث تسريب بيانات، مع تقييم النماذج باستخدام Stratified K-Fold Cross-Validation.

تم تدريب ومقارنة عدة نماذج من scikit-learn (مثل Logistic Regression وSVM-RBF وRandom Forest وGradient Boosting) بالإضافة إلى نموذج تجميعي Soft Voting (Ensemble) يعتمد على احتمالات التنبؤ. تم قياس الأداء بمقاييس ROC-AUC وPR-AUC وF1 وBalanced Accuracy، وحفظ أفضل نموذج بصيغة joblib لاستخدامه لاحقًا. كما قمت بإنتاج مجموعة رسوم بيانية توضح النتائج تشمل منحنى ROC، منحنى Precision-Recall، مصفوفة الالتباس، منحنى المعايرة Calibration Curve، منحنى التعلم Learning Curve، ومقارنة نتائج النماذج عبر الـ Cross-Validation.

الأدوات والتقنيات: Python، scikit-learn، imbalanced-learn، RDKit، TDC، SMOTE، Pipelines، Cross-Validation، Matplotlib، joblib.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة
تاريخ الإنجاز
المهارات