పోయిన వారం అంతర్జాలం లో అలా విహారం చేస్తుంటే నాకొక గూగుల్ గుంపు కనిపించింది. ఇందులో మహా భారతాన్ని దరిదాపు వందమంది ఔత్సాహిక సాహిత్య పరులు సుమారు ఐదు సంవత్సరాల పాటు శ్రమించి మహాభారతంలోని పదునాలుగు పర్వాల దాకా యూనికోడ్ లోకి మార్చి భావి తరానికి అందిచారు. ఈ గుంపు ప్రస్తుతానికి అచేతనావస్థలో వుంది. ఇక్కడ పద్యాలు చూసిన తరువాత, మన బ్లాగర్లు తలపెట్టిన తెలుగు నిఘంటువులో ఉదాహరణలుగా చూపిస్తున్న ఒక్కలైను, అర లైను పద్యాలను పూర్తిగా చూపిస్తే బాగుంటుందని ఓ ఆలోచన వచ్చింది. ఆలోచన వరకూ బాగానే వుంది కానీ ఇప్పటికే తెలుగు నిఘంటువులో వున్న 2400 పై చిలుకు మహా భారత పద్య ఉదాహరణలను మహాభారత గూగుల్ గుంపులో టైపు చేసి వున్న పద్యాలతో ఎలా సరి చేయాలి? ఇది ఒక్క మనిషి యంత్ర సహాయం లేకుండా చేయడం సాధ్య మయ్యే పనేనా? అసలు మన బ్లాగర్లకు ఆలోచనంటూ రావాలేకానీ పోష్టులమీద పోష్టులు కుమ్మేస్తాంకదా :-). అలాగే నలుగుర్లో నారాయణ టైపు లో నేనూనూ ;-) మరి ఆలోచనొచ్చాక చెయ్యకపోతే బుఱ్ఱ ఒకటే జిల కాబట్టి మొదటి మెట్టుగా ముందుగా ఆ గూగుల్ గుంపులో వున్న పద్యాలన్నింటిని సాలీడు లెక్కన ఒక్కొక్కటి తెచ్చి text files లో భద్రపరచాను. [ enhanced haaram crawler to read google groups. haaram can spider any google group now. Soon it will post excellent articles on chandassu, posted by prominent bloggers in raccabanda]
ఇక్కడ నాకొచ్చిన తిప్పలు చాలానే వున్నాయి. అక్కడ టైపు చేసిన పద్యాలు ఒక నియమిత చట్రంలో అమరక పోవడంతో పద్యాలను దేనికి దాన్ని విడగొట్టడానికి చాలానే శ్రమ పడాల్సి వచ్చింది. ఐనా వాళ్ళు ఈ పర్వాలను యూనికోడ్ లోకి మార్చడానికి పడిన శ్రమ ముందు నాదేపాటిది? కానీ This took me almost 3-4 days out of total 10 days project. మొత్తానికి ఐదు శాతం manual work తో పద్యాలన్నింటిని విడగొట్టగలిగాను. పద్య ముల సంఖ్యాను క్రమణ మాత్రం కొంచెం అటూ ఇటూ అయినట్టు వుంది. ఎలాగైతేమి మొత్తం 14,500 పద్యాలను parse చేసి పెట్టుకున్నాను.
ఇక రెండవ మెట్టు, తెలుగు నిఘంటువు లో ఇప్పుడు పూర్తి అయిన పేజీల వరకే 2,400 పద్యాల దాకా వున్నాయి. ఇందులో టైపు చేసేటప్పుడు మానవ తప్పిదాల వల్లనో లేదా ముద్రణ సరిగా లేక కనిపించక పోవడం వల్లనో తప్పులు చాలా సహజంగా దొర్లుతున్నాయి. అదీకాక ఈ నిఘంటువులో ఉదాహరణలు ఆ పదము ఎక్కదైతే వస్తుందో ఆ పాదము మాత్రము పూర్తిగానో లేక కొద్ది పద్య పాదాన్నో ఇవ్వడం జరిగింది. మరి ఇప్పుడు ఈ ఉదాహరణలను ఆ గ్రూపు లో వున్న పద్యాలతో ఎలా పోల్చి చూడాలి.? దీనికి సమాధానం నేను అప్పుడెప్పుడో వూసుపోక ఆంధ్రామృతం బ్లాగుపై ఒక ప్రయోగం చేసి వున్నాను. దాన్ని ఇక్కడ చదవవచ్చు. వారాంతం మహా బోరుగా వుంది !!! Stop words and stemming for telugu. Similiarity measure for ఆంధ్రామృతం
అద్దీ, ఆ ప్రయోగం ఇప్పుడు పనికి వచ్చి పని మొదలు పెట్టాను. ప్రోగ్రాం ఈరోజు రాత్రి 11:30 PM EST కి మొదలు పెట్టాను. ఈ సారి N-gram algorithm లో N=5 తీసుకొని similarity index measure చేస్తున్నాను. intial results showed me that if the index is > 0.4 , then we have the match. Voila :-)
and finally here is how తెలుగు నిఘంటువు shows the complete padyam. ఇలా చూపిస్తే బాగుంటుందని సలహా ఇచ్చిన తెలుగునిఘంటు సభ్యురాలు వినీల గారికి ధన్యవాదాలు. అలాగే మహాభారత గూగుల్ గుంపు నుంచి తీసుకొన్న ప్రతి పద్యానికి, ఆ పద్యాలను టైపు చేసిన సహ బ్లాగర్లూ, సాహితీ వేత్తలకు మా నిఘంటువు తరపున అనేకానేక ధన్యవాదాలు. ఈ నెల చివరినాటికి ఈ feature తెలుగు నిఘంటువులో అందుబాటులోకి తీసుకురావడానికి ప్రయత్నిస్తున్నాము.
ఇంతకీ ఈ బొమ్మలో కనిపిస్తున్న పద్యాల్లో ( ఒకటి తెలుగు నిఘంటువు సభ్యులు మంజరి గారు టైపు చేసింది. మరొకటి గూగుల్ గుంపు సభ్యులు టైపు చేసింది ) కొద్ది తేడా కనిపిస్తున్నా, రెండూ ఒకే పద్యమని అర్థమవుతుంది కదా ! . ఇంతకీ అసలు ఏ పద్యము లోని పదము సరైనదో పండితులే తేల్చాలి.