أمتلك عدد كبير من المستندات الإخبارية وهي مطبوعة بخط أو إثنين غير الدارج, عدد المستندات كبير نسبياً أكثر من 33ألف صفحة.
أنا بحاجة لإجراء العديد من البحوث عليها وإستخلاص الكثير من البيانات, ومن ذلك قمت باستخدام العديد من البرامج التجارية منها وأخرى متاحة المصدر مثل tesseract, لكن دعم العربية محدود لخطوط معينة Arial مثلاً أو إن البرامج التجارية تمتلك خصائص لتحليل الصفحة وصيغة الكلام ثُم تجتهد في تحديد الكلمة (وهذا جيد نوعاً ما) لكنها تفشل في أماكن كثيرة وتحتاج لمن يقوم بالتصحيح ومراجعة المستند المستخرج والمستند الأصلي ومقارنة هذا بهذا والأمر منهك.
مختصر الماضي, أردت المضي قُدماً في تدريب tesseract للخطوط الجديدة لكن طرأت في بالي فكرة جديدة مخصصة لهذا المشروع وفيها أنا بحاجة إلى طلب الاستشارة.
لذلك الأمر كالأتي,
الهدف هو تطوير برنامج نصي لإستخراج النصوص من الكلمات عن طريق التجريب والمطابقة وحفظ الشكل وأبعاده عند نجاح المطابقة, محلياً على الجهاز لإعادة إستخدام التطابق السابق, أو على الشبكة حتى يتم الإستفادة من الحساب الجمعي وتسريع العملية ككل.
----
يجب أن يكون لك تخصص في هذا الموضوع, وقد قمت بإرفاق نموذج مصور للخطوط التي أقصدها (إذا أردت التجربة).
التكلفة المتوقعة هي 50$, إستشارة عن بُعد ولمدة ساعة.
شُكراً
مرحبا أخي, كما قلت لك سبق وعملت على مشاريع في التعلم العميق بتدريب models للتعرف على الحروف والكلمات من الصور. كلمني للمزيد من التفاصيل ولأكون مساعدا لك بالجواب...
السلام عليك أخي الكريم حقيقة لم افهم المطلوب بالضبط ويبدو لي انك جربت الطريقة الأفضل. سبق وقدمت استشارة في موضوع مشابه قد اقترح عليك بعض الأفكار.
السلام عليكم أخي عبدالله، لدي خبرة طويل في كتابة البحوث وإستخراج اللغة العربية من ملفات الـ PDF وبدون أخطاء تذكر بإذن الله.
مرحبا أخي عبد الله ... أنا من مستعملي الـ ocr كثيرا لكوني أقدم خدمة التعرف على الخطوط خاصة العربية منها لتحويل ملفات كالـ PDF إلى نصوص قابلة للتعديل ... ربما أس...
السلام عليكم يعطيك العافية م. عبد الله اسمي لي اتقدم بهذا العرض بهدف تقديم الاستشارة في مجال برمجيات OCR الداعمة للغة العربية. لقد كان لي سابق خبرة في برامج الا...