29, నవంబర్ 2011, మంగళవారం

Line segmentation of scanned telugu document.

దీనికి నేను వ్రాసిన కోడ్ కంటే అంతర్జాలము నుంచి తస్కరించిన కోడ్ ఎక్కువ. ఎందరో మహానుభావులు అలా కోడ్ లైబ్రరీలు వ్రాసి ఇస్తుంటే వాడుకోవడమంత సుఖమేముంటుంది. ఇలాగే తెలుగులో అక్షరాలను విడగొట్టటానికి మీవద్ద సులభమైన రీతిలో ఏదైనా కోడ్ వుంటే తెలియచేస్తారా? అబ్బో పెద్ద పెద్ద కష్టమైన క్లిష్టమైన పద్ధతులను ఇప్పుడే చెయ్యలేను. ఇంకా నేను ఈ OCR లో వాడే పదాలకు సరైన అర్థాలు వెతుక్కునే స్టేజిలోనే వున్నా కాబట్టి ఇప్పుడిప్పుడే సమాస భూఇష్టమైన కోడ్ ను అర్థము చేసుకోలేను. కాబట్టి ఈ character segmentation మీద "చిన్న చిన్న" గా పాఠాలు చెప్పిన లింకులేమన్నా వుంటే చెప్పండి. అవి తెలుగు అక్షరాలకు సరిపోవాలి.

ఇక మీరూ Line segmentation గురించి నేర్చుకుంటారా? అలాగైతే ముందుగా ఈ క్రింది వాటిని చదివేయండి.
ఇవి తెలియకుండా, ఫ్రీగా దొరికే కోడ్ ఐనా మార్చడం అంత వీజీ కాదని అర్థమైంది. ఇదొక గుణపాఠం :))


1) Types of image formats and their basic differences

2) Bitmaps and grey scales. Their matrix representation

3) Filters and types. When to use what filter?

4) Few algorithms for threshold. ( mostly you don't need to write any code. Get it from internet )


ఇక నా ప్రయోగము. ఈ పేజి ప్రాసాక్షర పదకోసము అనే స్కాన్డ్ పుస్తకములోనిది.

ముందుగా అసలు పేజి.



ఇప్పుడు segmented line images లో కొన్ని










5 కామెంట్‌లు:

  1. Sir,

    Telugu lo kuda Optical Character Reader

    availability unnda?

    vivaralu telupa galaru!

    ?!

    రిప్లయితొలగించండి
  2. శివ గారూ, పూర్తి స్థాయిలో లేనట్లే వుంది.నాకు తెలిసు పనికొచ్చే స్థాయిలో లేదనే అనుకుంటున్నాను. కానీ రీసెర్చ్ ఆర్టికల్స్ మీకు IIT,IISC, CDAT, IIIT లనుంచి చాలానే కనిపిస్తున్నాయి.

    రిప్లయితొలగించండి
  3. ఇది నేను B.Tech Final Year(2007) లో ఉండగా చేసాను.
    కానీ అది Matlab లో, మరియు అది ఆంగ్ల భాషకు.

    రిప్లయితొలగించండి
  4. @ఎందుకో ? ఏమో !, thanks

    @గెల్లి ఫణీంద్ర విశ్వనాధ ప్రసాదు, There are many in English. Thanks for your comment.

    రిప్లయితొలగించండి

Comment Form