بناء نظام ذكاء اصطناعي مؤسسي (Enterprise RAG) لتحليل آلاف المستندات وتتبع المتطلبات آلياً (100% Offline)

تفاصيل العمل

نبذة عن المشروع:

قمت بهندسة وتطوير نظام ذكاء اصطناعي متكامل (RAG System) موجه للشركات والمؤسسات، يعمل كـ "عقل مركزي" لتحليل المستندات التقنية والهندسية الضخمة. تم تصميم النظام ليعمل بالكامل على الخوادم المحلية (100% Offline) لضمان أقصى درجات السرية والخصوصية لبيانات الشركات.

المشكلة التي يحلها النظام:

تعاني الشركات من صعوبة يدوية في تتبع المتطلبات (Requirements Traceability) عبر آلاف الصفحات للتأكد من مطابقة المشاريع للمواصفات. قمت بحل هذه المشكلة عبر بناء "مدقق جودة آلي" يقرأ المستندات، يربطها بالمتطلبات الأساسية، ويستخرج تقارير الفجوات في ثوانٍ.

أبرز ما قمت بتطويره في هذا النظام:

? مدقق التتبع الذكي (Traceability Auditor): خوارزمية صممتها لمقارنة المستندات المرفوعة بقائمة المتطلبات المعتمدة (Master List)، واستخراج تقارير تفصيلية توضح: (الوثائق المغطاة، الفجوات/المتطلبات المفقودة، والروابط الخاطئة أو اليتيمة).

⚡ معالجة الملفات العملاقة بأمان (Memory-Safe Pipeline): هندست مسار بيانات يعتمد على "التجزئة الديناميكية" (Dynamic Batching) والمراقبة الحية للذاكرة (RAM) عبر psutil. هذا يسمح للنظام بمعالجة ملفات تتجاوز 10,000 صفحة دون أي انهيار للخادم (Zero-Leak Operations).

? استخراج نصوص هرمي وذكي (Smart Fallback OCR): لضمان السرعة والدقة، برمجت النظام ليحاول قراءة النص المباشر أولاً عبر PyMuPDF، وإذا واجه صوراً ممسوحة ضوئياً ينتقل تلقائياً لـ RapidOCR (المدعوم بكرت الشاشة GPU)، مع وجود Docling كبديل احتياطي عميق للطوارئ.

?️ حماية واستقرار مؤسسي: قمت بتأمين الواجهات البرمجية (APIs) بنظام حماية من الإغراق (Rate Limiting) عبر SlowAPI، مع بناء نظام سجلات وتدقيق (Audit Logs) متكامل باستخدام SQLite لتسجيل كل عملية استعلام أو رفع تتم داخل النظام.

التقنيات التي استخدمتها في البناء:

الذكاء الاصطناعي ومعالجة اللغات: LangChain, Llama 3.2 (via Ollama), all-mpnet-base-v2.

قواعد البيانات: ChromaDB (للبحث الدلالي السريع) و SQLite (لإدارة سجلات التدقيق والتتبع).

تطوير الواجهات والخوادم: FastAPI (لخادم غير متزامن وعالي الأداء)، واجهة مستخدم تفاعلية من برمجتي (HTML/CSS/JS).

معالجة البيانات والـ OCR: PyMuPDF, RapidOCR, Docling, Python.