24, నవంబర్ 2011, గురువారం

Identifying Binarization method for scanned low quality documents

Telugu Scanned documents and books that are available in net have varying degree of brightness and sometimes very low in quality. Even a human can not identify words in such documents. In pattern recoganization, binarization of a document is an involved process and this article only considers documents that vary in degree of brightness.

It seems in Indian OCRs people are exploited the following concepts from English OCR techniques (with little modification)

1) Histogram based : This is useless for Indian languages
2) Clustering based : K-means and Gaussian density methods
3) Entropy based :
4) Attribute based : based on predefined attributes


Otsu’s algorithm : (complete code and test it)


Let’s see Otsu’s algorithm and how to improve it for better results.


As usual, like a human, when the background and foreground intensities are well separated Otsu’s algorithm gives a better binarized results. In the following picture, at certain parts, we can clearly see the pixels of gray scales of foreground and background are mixed. In such cases otsu’s algorithm gives a wrong result and we certainly need a new method.






A simple approach is divide a document into multiple parts ( as a grid ) and find out threshold value. Use image length and width pixels to make a grid.





Feature 1 : T(otsu) r – T(min) r
Feature 2 : u®
Feature 3 : sigma(t)





Once we extract these 3 features for each grid ( region ) use SVM to determine which binarization action to take. Improve this decision using the training data.

4 కామెంట్‌లు:

  1. భారారె,

    మీరు రాసినది ఆంగ్లమేనా ? నాకెదొ గ్రీకు లేటిను లా గున్నది. ! చాలా సంక్లిష్టమైన టపా ! ఏమీ అర్థం కాలేదు( అర్థం చేసుకొవడానికి ప్రయత్నించ్లేదు సుమా అనొద్దండి! )

    రిప్లయితొలగించండి
  2. ఈ జిలేబి ఎవరోగాని కనపడిన ప్రతీ పోష్టుకు కామెంటుతున్నారు.

    రిప్లయితొలగించండి
  3. జిలేబీ, అప్పుడప్పుడు ఇలాంటి పనికిమాలినవి నాకోసం రికార్డ్ చేస్తుంటాను. వీటిని పెద్దగా పట్టించుకోనక్కరలేదు. మీకు ఇవి అర్థము కాకపోవడం సహజమే. కారణం ఇది పూర్తి వ్యాసం కానేకాదు.




    లబలబ, మీ పేరు సూపరండి.:-) ఇక వ్యాఖ్యకొస్తే, జిలేబి ప్రోత్సాహకరమైన వ్యాఖ్యలే వ్రాస్తున్నారు కదా. ఇబ్బందేముందండి?

    రిప్లయితొలగించండి
  4. లబ లబ జిలేబీ ఎవరనంగ,
    భారారె జిలేబి సుద్ద వేష్టనంగ
    అయ్యారే కాల మహిమ ఏమి జెప్పుదు ,
    రారారె బులుసు మాష్టారు ఈ భారారె పై ఓ అస్త్రం సందింప !

    చీర్స్
    జిలేబి.

    రిప్లయితొలగించండి

Comment Form