الأحد، 12 فبراير 2012

ماهو ال Ocr

السلام عليكم
بما انه انا الان في صدد مشروع ارشفة الكترونية احببت ان اكتب اليكم
هذا الموضوع المتعلق بركن مهم من اركان الارشفة الالكترونية

الا وهي Optical Character recognition 
يرمز لها اختصارا ocr 
اي التعرف الضوئي للحروف
وتاتي هذه الخدمة غالبا مع البرامج المرفقة بالسكنر 
الماسح الضوئي ووظيفته تحويل الوثيقة الورقية الى" وثيقة رقمية" قابلة للحياة
ماذا يعني
 المعروف عن عمل 
السكنرهو سحب المدخلات  الى الحاسوب بصيغة صور
يعني استطيع جلب الصورة الفوتوغرافية واحولها الى صورة رقمية واقوم بالتعديلات عليها ببرامج تحرير الصور كالفوتوشوب مثلا ....
لكن ما ذا عن الوثائق ....
 ان سحب الوثيقة بهيئة صورة التي يحولها السكنرالى الحاسب وكانها صورة يمكن تحريرها كصورة فقط
هل من المنطقي ان ادخل وثيقة كتابيه الى برامج تحرير صور
طبعا لا .......
من هنا ظهرت الحاجة الى الخدمة التي تستطيع تحويل الوثائق الى خامات قابلة للتعديل ببرامج تحرير النصوص كبرنامج محرر النصوص مايكروسوفت وورد مثلا
وبِشكل أدق هو ترجمة صورة الحرف إلى الترميز المحدد له (ASCII, Unicode)
وتسمى هذه العملية بعملية الرقمنة او ال digitization
في السابق كانت البرامج التي تقوم بهذا العمل تدرب باستخدام تقنيات الذكاء الصناعي وتعمل على فونت أو اثنين بتلقيمها الشكل الرئيسي للحرف
أما الأنظمة الحديثة فتستطيع تمييز فونات كثيرة وبدقة عالية، وبعض البرامج تستطيع تحويل ورقة من مجلة أجنبية مثلاً إلى نص قابل للتحرير مع الحفاظ على نوع الخط وترتيب الورقة وأماكن الصور وكأن شيئاً لم يحصل سوى أنها دبت الحياة بصورة الورقة.
ظهرت برامج عديدة منها OmniPage ومنها فاين ريدر وهناك برنامج من شركة صخر لااعرفه صراحة وهل يلبي دعمه للغة العربية
لكن جميع هذه البرامج فاشلة ؟؟؟؟؟؟
في ماذا طبعا مامعقولة هذه الشركات فاشلة لكن فشلها مقصود لانها جميعها لاتهتم باللغة العربية لانه مع الاسف اللغة العربية اخر ماتهتم به هذه الشركات
فنجد هذه البرامج فعالة مع اللغات الاخرى وتمكنك من اعادة تحرير الوثيقة المسحوبة بالماسح الضوئي السكنر
OmniPage:
وهو برنامج OCR يميز كل لغات العالم إلا اللغة العربية والعبرية وتقوم الشركة المنتجة له باستطلاع رأي لإدراج اللغة العربية على النسخة القادمة
Microsoft Office Document Imaging:
طبعاً من سياسة مايكروسوفت بحشر أنفها تقنياً بكل ما لايعنيها من برامج فقد أدرجت هذه الميزة على نسخ Office الجديدة فهي موجودة بنسخة 2002 و 2003 ولكنها قاصره بالتمييز ولا تملك أدوات للغة العربية بعد
وبعد بحث وجدت البرنامج التالي
Readiris Pro 11 Mr.Underground Edition
بعد تجربته وجدته يقدم دعم بنسبة لاتقل عن 80% للغة العربية
يعني المهم يسحب لك الوثيقة ولكن بوجود بعض الاخطاء ببعض الاحرف
تستطيع تعدليها خاصة باستخدام خاصية الاستبدال التي يوفرها مايكروسوفت ورد
وهذا رابط لموقع نسخة مخصصة للشرق الاوسط لدعمها اللغة العربية
اضغط هنا
مع تحياتي...لورد
المصدر: منتــــديات اســــود العـــراق