دانلود پروژه استخراج لوگو از متن


OCREndorsed

چکیده:

:OCR

به معنای شناسایی حروف با کمک ابزار نوری است و یک شاخه از علم پردازش سیگنال را تشکیل می دهد.که شامل تصویر برداری از روی کاغذ واستخراج کلمات از آن است.

متن به صورت مستقیم در تصویر قابل دسترسی نیست زیرا حروف در یک متن اسکن شده از مجموعه ای از نقاط تشکیل می شود که در کنار هم قرار گرفتن این نقاط مطابق الگو های معین,تصویر حروف مختلف را می سازد.

آشنايي با OCR

پردازش و آنالیز تصاویر می تواند به عنوان یک ساختار کاربردی وتکنیکی جهت تسخیر کردن,تصحیح کردن,وتغییر شکل دادن تصاویری که مشاهده می شود تعریف کرد.

در هنگام استفاده از این تکنولوژی ,نرم افزار مربوطه تصویر را تجزیه وتحلیل می نماید و شکل حروف را بر اساس پراکندگی نقاط در تصویر,شناسایی می کند.متون می توانند حتی دارای عکس هم باشند که سیستم آنها را تشخیص داده,کنار می گذارد.

این سیستم به ما این امکان را میدهد که یک کتاب و یا مقاله را مستقیما به یک فایل الکترونیکی تبدیل نماییم وآن را با کمک یک پردازشگر تغییر دهیم.استفاده از این سیستم یک راه کارآمد برای تبدیل متون به فایلهای داده است که ممکن است تایپ کردن آنها زمان زیادی به طول بیانجامد.این تکنولوژی مدت هاست که به وسیله کتابخانه ها و سازمان های دولتی برای دستیابی الکترونیکی سریع به مدارک حجیم به کار می رود و از لحاظ سرعت و هزینه یروش مناسبی است.

از متداول ترین کاربرد های این تکنولوزی می توان جدا کردن نامه ها در مراکز پست,دسته بندی چکها ی بانک,تبدیل متن به صدا برای استفاده نابینایان,امکان دسترسی سریع به بایگانیهای عظیم و تبدیل کتابهای قدیمی کتابخانه های به فرمتی مناسب برای ذخیره در کامپیوتر نام برد.

هدف از این عملیات زیاد کردن کیفیت نسبی اطلاعاتی است که بعدا استخراجخواهد شد.تغییر شکل در حقیقت عملیاتی است که بر روی تصاویر ورودی انجام میگیرد تا خروجی به یک عدد که اطلاعاتی از تصویر است بدهد.

لزوم استفاده از :OCR

فرض كنيد شما يك متن كاغذي مانند نام، قرارداد، RFP، مقاله، كتاب و … را در اختيار داريد و بايد آن را وارد كامپيوتركنيد تا در مطالعات خود يا تهيه گزارشات و … مورد استفاده قرار دهيد

اولين راهي كه به ذهن مي رسد و متأسفانه تا كنون در مورد متون فارسي مورد استفاده قرار گرفته است، اين است كه متن موجود در اين اسناد دوباره بوسيله اپراتور تايپ شود. بديهي است اين كار بسيار وقت گير است، به علاوه وقتي بخواهيم حجم انبوه اسناد مكتوب را به صورت ديجيتال درآوريم ، اين مشكلات نمود بيشتري خواهد داشت. دومين راهي كه با گسترش فناوري اطلاعات در سالها ي اخير در بسياري از سازمانها مورد استفاده قرار گرفته است ، تصوير برداري از روي اسناد كاغذي به وسيله اسكنرها و انتقال تصاوير ديجيتالي توليد شده به سيستم هاي كامپيوتري مي باشد.

گر چه در اين روش با ايجاد آرشيو الكترونيكي از اسناد بهبود نسبي در فرآيند نگهداري اسناد و دستيابي به آنها ايجاد شده است اما كماكان امكان جستجو در داخل متن اين اسناد و بهره برداري از آنها وجود ندارد ، به عبارت ديگر تصاوير ديجيتالي اسناد كه با استفاده از اسكنر بدست مي آيند فاقد ارزش كافي مي باشند مگر آنكه بتوان در متن آنها جستجو نمود.

نرم افزار OCR مشكل فوق را برطرف مي كند، به اين ترتيب كه تصوير ديجيتال اسناد را دريافت كرده و با تحليل محتواي آنها اطلاعات مختلف موجود را شناسايي كرده و با توجه به نوع آنها، فرآيند تبديل خودكار تصوير به متن را انجام مي دهد.

فهرست

فصل1:مقدمه……………………………………………………………………………………….. ………….3

1-1آشنایی با OCR…………………………………………………………………………………………..4

2-1: قطعه بندی تصاویر……………………………………………………………………………………14

3-1: رویکردهای کلاسیک در قطع بندی……………………………………………………………15

4-1:تشخیص نوری نویسه ها…………………………………………………………………………….17

5-1: رویکرد های مبتنی بر منطق فازی…………………………………………………………….18

6-1: رویکردهای مبتنی بر الگوریتم ژنتیک……………………………………………………….19

فصل2:استخراج لوگو ازمتن……………………………………………………………………………..21

1-2:الگوریتم تشخیص لوگو بر مبنای استفاده از غربال کردن……………………………..22

2-2:انبساط متون دایره ای به عنوان بافت هایی با رتبه بندی کم………………………..25

فصل3 مراحل OCR…………………………………………………………………………………………27

1-3:سیستمهای باز شناسی حروف…………………………………………………………………..28

2-3:استخراج نواحی شامل متن……………………………………………………………………….29

3-3: بازشناسی حروف و الگو…………………………………………………………………………..30

مراجع:…………………………………………………………………………………………………………….36

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *