మన బ్లాగు మిత్రులెవరి వద్దైనా తెలుగు పదాలకు మూలమైన పద నిఘంటువు ఏ రూపంలో వున్నా తెలియచేయ గలరని ప్రార్థన. ఈ నిఘంటువు key,Value pair కోసము గత వారం రోజులుగా వెదుకు తున్నా ఫలితము కనిపించలేదు. మీ వద్ద P.D.F format లో వున్నా నాకు దయచేసి తెలుపగలరు.
విపులంగా చెప్పాలంటే ఇది నేను గత నెలలో శ్రద్ధ గా మొదలు పెట్టిన తెలుగు వెదుకు యంత్రం కు చాలా అవసరము. హారం.కామ్ ( www.haaram.com ) పైకి ఎదో బ్లాగులు, సినిమాలు లాగా కనిపిస్తున్నా నేను తలపెట్టిన ఉద్దేశ్యము తెలుగు లో ఒక చాలా చిన్న వెదుకు యంత్రము చేద్దామని. spider, parser ప్రోగ్రామింగ్ అయిన తరువాత పదాలను ఎలా కలపాలో తెలియటము లేదు. ఇంగ్లీష్ కి వున్న సదుపాయము ఇక్కడ తెలుగులో లేక పోవడం చాలా ఇబ్బందిని కలిగిస్తుంది. విపులంగా చెప్పాలంటే ఇంగ్లీష్ లో పదానికి పదానికి కొంచెం ఖాళీ స్థలముండి ఏ పదానికాపదము , -ing,s,ed లు లాంటివి, prefix,siffix లు పక్కనబెడితే మనకు చాలావరకు మూల పదము దొరికి పోతుంది. అదే తెలుగు విషయానికి వస్తే పదాల మధ్య ఖాళీ స్థలమున్నా , ఆ ఖాళీ స్థలాన్ని వాడి పదాలని విరిచినా మూలపద సమూహాలను గుర్తించడము చాలా కష్టమౌతుంది. వుదాహరణ గా ఒక బ్లాగులో ఒక టపాలో వారికి వచ్చిన కామెంట్లు కూడా కలుపుకొని వాడిన పదాలలో కొన్ని ఇవి. ( మీకో పరీక్ష ఈ పదాలు ఎక్కువ ఏ బ్లాగులో వచ్చాయో చెప్పుకోండి,తెలిస్తే వారి అనుమతి లేకుండా spider run చేసినందుకు క్షమించండి ! తెలియక పొతే message పెట్టండి.)
దీన్ని నేను వ్రాసుకున్నఅతి చిన్న వెదుకు యంత్రము ఈ రకంగా విడగొట్టింది.ఈ యంత్రం లో చాలా పురుగులు ( బగ్స్ ) వున్నాయనుకోండి.
"ఆడపిల్లలు"
"అక్కలు"
"ఒకసారి"
"గమ్మున"
"లేస్తుండగానే"
"వెర్రిగా"
"మామయ్యలు"
"విరక్తి"
"వినోదభరితం"
"అమెరికాలో"
మరి వీటికి మూల పదాలు గుర్తించి కాడలు తయారు చేస్తే గాని నిజమైన search engine వాసనలు అబ్బినట్లు. మరి ఇది జరగాలంటే Stemming Algorithm వ్రాయాలి.
అంటే ఉదాహరణకి ( ఈ క్రింది పద సమూహంలో ఏ ఒక్కటికూడా ఆ టపాకి సంబంధంలేనివి )
ఆడపిల్ల - వెర్రి మామ
గమ్మున లేస్తుండగానే
ఆడపిల్లల వినోదం
అక్కల విరక్తి
మామయ్య-అక్క వెర్రి వినోదం
అమెరికాలో విరక్తి
అమెరికా మామయ్య
.
.
ఇలా చాలా చాల stems తయారు అవుతాయి. వీటిని సరిగా వాడి context ki తగ్గ విషయము చూపించాలంటే.. బట్టతల రావడం ఖాయం.
దీనికి మూలం నీఘంటువు. మరి ఆ నిఘంటువు ఏ మహాను భావుని వద్ద వుందో? అదీ Key,Value pairs gaa దొరికితే...నాకు సగం శ్రమ తగ్గినట్టే !
కామెంట్లు లేవు:
కామెంట్ను పోస్ట్ చేయండి
Comment Form