تفاصيل العمل

1– Problem Overview

في هذا المشروع، عملت على بيانات حقيقية لمنتجات صيدلية النهدي تم استخراجها عن طريق Web Scraping, بسبب أخطاء الاستخراج كانت البيانات مجزأة وغير متسقة, حيث كان لدينا:

ملفان يحتويان على أسماء المنتجات الصحيحة لكن بدون باقي المعلومات.

ملف رئيسي يحتوي على جميع البيانات الأخرى، لكن أسماء المنتجات كانت غير موحدة وفوضوية.

لا يوجد مفتاح مرجعي لربط البيانات بين الملفات.

المهمة كانت مطابقة واستعادة الأسماء الصحيحة للمنتجات في مجموعة بيانات كبيرة (~10,000 منتج، مع ~7,000 يحتاجون مطابقة) بدون أي مرجع موثوق.

2– Data Challenges

التحدي الرئيسي كان عدم اتساق أسماء المنتجات بشكل شديد، بما في ذلك:

اختلاف بين الأحرف الكبيرة والصغيرة

مسافات إضافية وأحرف مخفية

كلمات غير ضرورية مثل (pcs, mg, g, tab)

علامات ترقيم وفوضى في التنسيق

اختلاف الوحدات (مثل 100mg vs 1g)

هياكل تسمية مختلفة لنفس المنتج

مثال لمطابقة مطلوبة:

"اسم الدواء" +100mg Tablet 30

"اسم الدواء" +Tablets 100 Mg 30 Tab

3– Solution Strategy

نظرا لعدم وجود مطابقة دقيقة أو مفتاح مرجعي، صممت طريقة مطابقة مع (Fuzzy Matching) تكرارية باستخدام Power Query، مع تنظيف قوي للبيانات ومنطق تحقق يدوي.

تركز الحلول على المطابقة بناء على مستوى الثقة، بدءا من أعلى درجة تشابه وتوسيع التغطية تدريجيا.

– الخطوة 1: تجهيز وتنظيف البيانات (Power Query)

تم تحميل جميع البيانات في Power Query وتطبيق قواعد تنظيف:

تحويل كل النصوص إلى أحرف صغيرة

تطبيق دوال Trim وClean

إزالة المسافات الزائدة والأحرف المخفية

عمليات Replace Values واسعة (بعض الأعمدة أكثر من 30 استبدال)

إزالة الكلمات المكررة والفوضوية

– الخطوة 2 مطابقة عالية الثقة:

استخدام Fuzzy Merge مع حد تشابه 0.95

ضمان دقة عالية وأقل عدد من النتائج الخاطئة

اعتماد التطابقات المؤكدة وتمرير الباقي للتكرار التالي

– الخطوة 3: منطق تحقق مخصص

لتجنب الاعتماد فقط على درجة التشابه:

استخراج القيم الرقمية (الجرعات، الكمية، الحجم) في أعمدة منفصلة

مقارنة القيم الرقمية بين السجلات المطابقة

و التحقق من:

مساواة القيم الرقمية

تشابه الكلمات

تطابق الحروف الأولى

طول النصوص

– الخطوة 4: التكرار

السجلات غير المطابقة أو المرفوضة أعيدت معالجتها بنفس الطريقة مع خفض حد التشابه تدريجيًا:

أول تكرار: 0.95

ثاني تكرار: 0.90

تكرارات إضافية حسب الحاجة

كل تكرار يشمل: تنظيف البيانات → تطبيق Fuzzy Match → التحقق → اعتماد النتائج → إعادة معالجة الباقي

4– Results

تم مطابقة حوالي 84% من المنتجات المطلوبة

السجلات غير المطابقة كانت:

غير موجودة في الملفات المرجعية

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
7
تاريخ الإضافة
تاريخ الإنجاز
المهارات