19, ఏప్రిల్ 2011, మంగళవారం

తెలుగు నిఘంటువు - మహాభారత గూగుల్ గుంపు - పూర్తి పద్యము ఐక్యతా సూచిక ( similarity Index)


పోయిన వారం అంతర్జాలం లో అలా విహారం చేస్తుంటే నాకొక గూగుల్ గుంపు కనిపించింది. ఇందులో మహా భారతాన్ని దరిదాపు వందమంది ఔత్సాహిక సాహిత్య పరులు సుమారు ఐదు సంవత్సరాల పాటు శ్రమించి మహాభారతంలోని పదునాలుగు పర్వాల దాకా యూనికోడ్ లోకి మార్చి భావి తరానికి అందిచారు. ఈ గుంపు ప్రస్తుతానికి అచేతనావస్థలో వుంది. ఇక్కడ పద్యాలు చూసిన తరువాత, మన బ్లాగర్లు తలపెట్టిన తెలుగు నిఘంటువులో ఉదాహరణలుగా చూపిస్తున్న ఒక్కలైను, అర లైను పద్యాలను పూర్తిగా చూపిస్తే బాగుంటుందని ఓ ఆలోచన వచ్చింది. ఆలోచన వరకూ బాగానే వుంది కానీ ఇప్పటికే తెలుగు నిఘంటువులో వున్న 2400 పై చిలుకు మహా భారత పద్య ఉదాహరణలను మహాభారత గూగుల్ గుంపులో టైపు చేసి వున్న పద్యాలతో ఎలా సరి చేయాలి? ఇది ఒక్క మనిషి యంత్ర సహాయం లేకుండా చేయడం సాధ్య మయ్యే పనేనా? అసలు మన బ్లాగర్లకు ఆలోచనంటూ రావాలేకానీ పోష్టులమీద పోష్టులు కుమ్మేస్తాంకదా :-). అలాగే నలుగుర్లో నారాయణ టైపు లో నేనూనూ ;-) మరి ఆలోచనొచ్చాక చెయ్యకపోతే బుఱ్ఱ ఒకటే జిల కాబట్టి మొదటి మెట్టుగా ముందుగా ఆ గూగుల్ గుంపులో వున్న పద్యాలన్నింటిని సాలీడు లెక్కన ఒక్కొక్కటి తెచ్చి text files లో భద్రపరచాను. [ enhanced haaram crawler to read google groups. haaram can spider any google group now. Soon it will post excellent articles on chandassu, posted by prominent bloggers in raccabanda]

ఇక్కడ నాకొచ్చిన తిప్పలు చాలానే వున్నాయి. అక్కడ టైపు చేసిన పద్యాలు ఒక నియమిత చట్రంలో అమరక పోవడంతో పద్యాలను దేనికి దాన్ని విడగొట్టడానికి చాలానే శ్రమ పడాల్సి వచ్చింది. ఐనా వాళ్ళు ఈ పర్వాలను యూనికోడ్ లోకి మార్చడానికి పడిన శ్రమ ముందు నాదేపాటిది? కానీ This took me almost 3-4 days out of total 10 days project. మొత్తానికి ఐదు శాతం manual work తో పద్యాలన్నింటిని విడగొట్టగలిగాను. పద్య ముల సంఖ్యాను క్రమణ మాత్రం కొంచెం అటూ ఇటూ అయినట్టు వుంది. ఎలాగైతేమి మొత్తం 14,500 పద్యాలను parse చేసి పెట్టుకున్నాను.

ఇక రెండవ మెట్టు, తెలుగు నిఘంటువు లో ఇప్పుడు పూర్తి అయిన పేజీల వరకే 2,400 పద్యాల దాకా వున్నాయి. ఇందులో టైపు చేసేటప్పుడు మానవ తప్పిదాల వల్లనో లేదా ముద్రణ సరిగా లేక కనిపించక పోవడం వల్లనో తప్పులు చాలా సహజంగా దొర్లుతున్నాయి. అదీకాక ఈ నిఘంటువులో ఉదాహరణలు ఆ పదము ఎక్కదైతే వస్తుందో ఆ పాదము మాత్రము పూర్తిగానో లేక కొద్ది పద్య పాదాన్నో ఇవ్వడం జరిగింది. మరి ఇప్పుడు ఈ ఉదాహరణలను ఆ గ్రూపు లో వున్న పద్యాలతో ఎలా పోల్చి చూడాలి.? దీనికి సమాధానం నేను అప్పుడెప్పుడో వూసుపోక ఆంధ్రామృతం బ్లాగుపై ఒక ప్రయోగం చేసి వున్నాను. దాన్ని ఇక్కడ చదవవచ్చు. వారాంతం మహా బోరుగా వుంది !!! Stop words and stemming for telugu. Similiarity measure for ఆంధ్రామృతం

అద్దీ, ఆ ప్రయోగం ఇప్పుడు పనికి వచ్చి పని మొదలు పెట్టాను. ప్రోగ్రాం ఈరోజు రాత్రి 11:30 PM EST కి మొదలు పెట్టాను. ఈ సారి N-gram algorithm లో N=5 తీసుకొని similarity index measure చేస్తున్నాను. intial results showed me that if the index is > 0.4 , then we have the match. Voila :-)

and finally here is how తెలుగు నిఘంటువు shows the complete padyam. ఇలా చూపిస్తే బాగుంటుందని సలహా ఇచ్చిన తెలుగునిఘంటు సభ్యురాలు వినీల గారికి ధన్యవాదాలు. అలాగే మహాభారత గూగుల్ గుంపు నుంచి తీసుకొన్న ప్రతి పద్యానికి, ఆ పద్యాలను టైపు చేసిన సహ బ్లాగర్లూ, సాహితీ వేత్తలకు మా నిఘంటువు తరపున అనేకానేక ధన్యవాదాలు. ఈ నెల చివరినాటికి ఈ feature తెలుగు నిఘంటువులో అందుబాటులోకి తీసుకురావడానికి ప్రయత్నిస్తున్నాము.






ఇంతకీ ఈ బొమ్మలో కనిపిస్తున్న పద్యాల్లో ( ఒకటి తెలుగు నిఘంటువు సభ్యులు మంజరి గారు టైపు చేసింది. మరొకటి గూగుల్ గుంపు సభ్యులు టైపు చేసింది ) కొద్ది తేడా కనిపిస్తున్నా, రెండూ ఒకే పద్యమని అర్థమవుతుంది కదా ! . ఇంతకీ అసలు ఏ పద్యము లోని పదము సరైనదో పండితులే తేల్చాలి.

13 కామెంట్‌లు:

  1. పూర్తి పద్యం చూడగలగటం చదువరులను చాలా ప్రభావం చేయగల విషయం.
    ఇది చాలా గొప్పపని. శ్రమకోర్చి ఈ పని చేస్తున్న మీరు అభినందనీయులు.
    అందుకోండి ధన్యవాదాలను, అభినందనలను.

    రిప్లయితొలగించండి
  2. మందాకినీ గారూ, ఈ యజ్ఞంలో మీరు చేస్తున్న కృషి చిన్నదేమీ కాదు. ఇప్పటికే గుర్తించారనుకుంటాను :)

    రిప్లయితొలగించండి
  3. మీరు కత్తి అండి అసలు..అల అనుకోగానే ఇలా parse చేసేసారు. way to go !!

    రిప్లయితొలగించండి
  4. అప్పుడే రెడీ అయిపోయిందా...మీరు సూపరు ఫాస్ట్ లా ఉన్నారే :))

    రిప్లయితొలగించండి
  5. వావ్, ఇలా పద్యం వస్తుంది అనుకుంటేనే చాలా థ్రిల్లింగ్ గా ఉందండీ

    రిప్లయితొలగించండి
  6. wow......that is the only thing that I can say about you all techies.

    I wonder why I have never come across another medical practitioner blogging or doing such good work :-(

    anyways way to go.

    రిప్లయితొలగించండి
  7. వినీల, మీరు నన్ను బాకు అనకుండా కత్తి అని చిన్నబుచ్చుతున్నారు. ఇక నుంచి మీతో కటీఫ్ :-)
    ఇది లైవ్ ఐతే ఒకే రకమైన పద్యలక్షణాలు కలిగిన చాలా పద్యాలను ఒకే దగ్గర చూసుకొనే వీలు కూడా వుంటుంది. మీకు క్రొత్త పేజీలు పంపాను చూడగలరు.

    రిప్లయితొలగించండి
  8. ఒరెమున, వావ్ వావ్..నిజమేనండీ..రాత్రి మొదలైన ప్రోగ్రామ్ ప్రాసెసింగ్ పొద్దునకి దరిదాపు 200 పద్యాలను సరిచూసింది. ఇక ఆఫీస్ కు వస్తూ కంప్యూటర్ మూసేసా కదా... మళ్ళీ రాత్రికి మొదలు

    రిప్లయితొలగించండి
  9. సౌమ్యా..అంతే నంటారా..సరే అయితే.. :-). మరో వారం పదిరోజుల్లో రెడీ. మీకు కొత్త పేజీలు పంపాను. చూడగలరు

    రిప్లయితొలగించండి
  10. భావకుడన్ గారూ, మీ ప్రశంశ ను స్ఫూర్తి గా తీసుకొని ఆనందంగా జేబులో వేసుకుంటున్నాను.

    I am very much delighted for identifing the importance and the difficulty of the task :-)

    రిప్లయితొలగించండి
  11. శభాష్. ఇది మొదటి అంశాల్లో లేకపోయినా భలేగా అమిరింది. మీకు వినీల గారికి కృతజ్ఞతలు. ఇక, "చెప్పేవాడికి చేసేవాడు లోకువ" అనుకోకపోతే, అసలీ ప్రయత్నం తొలినాళ్ళ నాటి ఆలోచన. ఎన్నో జనపదాలు మరుగున పడిపోయాయి. మన తరానికే ఎన్నో తెలియవు. ఉదా: (రిఫరెన్స్ వ్యవసాయ పారిభాషిక పదాలు కూర్పు: http://diversityintelugu.blogspot.com/2007/03/blog-post_02.html )

    అంచె - బఱ్ఱెలకు దాణా పెట్టే బుట్ట

    నేను ఒక పదమే ఇచ్చానిక్కడ. ఆ టపాలో మరెన్నో ఉన్నాయి.

    ఆంగ్ల నిఘంటువులలో అన్నిటికీ కాకపోయినా కొన్ని పదాలకి బొమ్మల తో వివరణ ఉంటుంది. మనం ఆ పంధాని అనుసరించి కొన్నిటికి తరవాతి దశ నిఘంటువు రూపకల్పన లో ఈ రకంగా అమర్చగలమా? ఇతరుల సలహా/అభిప్రాయం/సహకారం కూడా వస్తుందని ఇక్కడ పెట్టానీ ఆలోచన.

    మన తరువాయి తరాలకీ ఇది ఉపయోగపడేదని నా ఊహ. అందుబాటులో ఉండని వాటికి వారికీ చిత్రసహిత అర్థాలు మంచి అక్కరకి రావచ్చు.

    రిప్లయితొలగించండి
  12. Thank you usha for your support on this nighantuvu work.
    ఇక మీ ఆలోచన బాగుంది. నిఘంటువు వేదిక లో చర్చించి బొమ్మలు కూడా చేర్చే ప్రయత్నం చేద్దాము. కానీ ఇప్పుడున్న బాధ్యతలకు అదనంగా ఈ బాధ్యతను నేను తీసుకోలేను. ఎవరైనా ముందుకొస్తే తప్పకుండా సాంకేతిక సహాయాన్ని అందిస్తాను.

    అవును, చాలా చాలా పదాలు నాకే ఇప్పుడు చాలా క్రొత్తగా అనిపిస్తున్నాయి. ఉదాహరణగా, జల్ల, గాదె, కొట్టం, గాడి, కందెన, మానిక, సోల, తవ్వ, చిక్కెం ...ఇలా చెప్పుకుంటూ పోతే ఎన్నెన్నో.

    రిప్లయితొలగించండి

Comment Form