استخراج بيانات من المستندات باستخدام AI (OCR + LLM to Structured JSON)

تفاصيل العمل

المشروع عبارة عن AI System لمعالجة المستندات، يستخرج بيانات منظمة (Structured Data) من ملفات غير منظمة زي PDFs، Images، وDOCX باستخدام OCR وLarge Language Models (LLMs).

السيستم يحوّل الـ Raw Documents لنتائج منظمة في شكل JSON نظيف، عن طريق دمج Text Extraction باستخدام OCR مع Intelligent Parsing باستخدام LLMs. وايضا يتعامل مع مشاكل حقيقية زي Layouts غير منتظمة، ملفات ممسوحة ضوئيًا (Scanned Documents)، ونصوص فيها Noise.

الـ Pipeline :

• Document Ingestion (استقبال الملفات)

• OCR Processing (استخراج النص)

• Text Cleaning (تنظيف النص)

• LLM-based Data Extraction (استخراج البيانات باستخدام LLM)

• Output Validation (التأكد من دقة النتائج)

وهذا علشان يضمن إن النتائج تكون Reliable وConsistent بشكل كبير.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
6
تاريخ الإضافة
تاريخ الإنجاز
المهارات