قمت بتطوير أداة ذكية لاستخراج البيانات المنظمة من مختلف المواقع الإلكترونية بدقة وكفاءة عالية:
المميزات:
• استخراج البيانات (Web Scraping): باستخدام Selenium وEdge WebDriver للتعامل مع المحتوى الديناميكي.
• استخراج المحتوى (Content Extraction): تنظيف صفحات الويب وإزالة العناصر غير المهمة.
• تنظيف البيانات (Content Cleaning): استخدام BeautifulSoup للحصول على نص منظم وواضح.
• تقسيم المحتوى (Chunking): تقسيم النصوص الكبيرة إلى أجزاء صغيرة قابلة للمعالجة.
• دمج الذكاء الاصطناعي (LLM Integration): استخدام نموذج Mistral-7B لتحويل البيانات إلى شكل منظم حسب طلب المستخدم.
• واجهة المستخدم (UI): تطبيق تفاعلي باستخدام Streamlit لإدخال الروابط واختيار نوع البيانات المطلوبة.
• التصدير (Export): إمكانية تحميل البيانات بصيغة CSV بسهولة.
هذا الحل يمكّن من تحويل أي موقع تقريبًا إلى مصدر بيانات منظم وقابل للاستخدام في التحليل أو بناء النماذج.