గత మూడురోజులుగా గూగిల్ కి నే నొక్కడినే దరిదాపు ౨౦౦-౩౦౦ హిట్లు ఇచ్చి వుంటాను. అనుకోని తలంపుగా తెలుగు అభివృద్ధి కోసం మొదలు పెట్టిన నా చిన్న వెబ్ సైట్ http://www.haaram.com ని తరువాత దశకి తీసుకు వెళ్ళడానికి చాలా చాలా చదవాల్సి వచ్చింది. page raniking,lexical grammar,variations of BTree,morphology of english sentenses, search query formation, voice browsers etc., etc.... అన్నీ చదవనైతే చదివాను కానీ ఎక్కడ మొదులు పెట్టాలో అర్థము కాలేదు. B+ tree C# code కోసము గూగిల్ లో తెగ తిరిగాను. నా requirements కి సరిపడిన కోడ్ ఎక్కడా దొరకలేదు. సరే తరువాత చూద్దమని తెలుగు వ్యాకరణం, పదాల అనుబంధం గూర్చి చదవాలని తెలుగు వ్యాకరణం పుస్తకం చదువుతూ నేను రాసుకున్న నోట్స్ ఇది. ఇది తెలుగు లో ఇంటెర్నెట్ సెర్చ్ కైనా లేకా voice based search కైనా పునాది లాంటిది. చాలా శ్రమతో కూడుకున్నది. 2 సంవత్సరాలు పదుతుందో లేక 5 సంవత్స్రరాలు పడుతుందో అసలు పూర్తవుతుందో ...తెలియదు కానీ ఓపిక ఉన్నన్ని నాళ్ళు చేయాలి. వ్యాకరణములో పద నిర్మాణ పద్ధతులు చూశాక ... పదములో ఉన్న సంధి నిర్మాణాన్ని ఎలా గుర్తించాలో .... A very big question mark.
B+ datastructure ( 1st draft notes )
---------------------------------------------
పదము
నామవాచకము
సర్వనామము
విశేషణము
క్రియ
క్రియా విశేషణము
విభక్తి
సముఛ్చయము
ఆశ్చర్యార్ధకము
అవ్యయములు.
ఏక వచనము
బహు వచనము : ఎక్కువగా "లు" చేర్చగా వచ్చేవి.
పుం లింగము
స్త్రీ లింగము
నపుంసక లింగము
ప్రధమ పురుష
మధ్యమ పురుష
ఉత్తమ పురుష
---విభక్తి పదములచే ఏర్పడు పద సమూహాలు ( వాక్య భాగములు ):
రాముడు ( రామ ) ,వీరుడు ( వీర ), చంద్రుడు ( చంద్ర )... ప్రధమా విభక్తి
నేనున్, మిమ్ములన్ , (? కూర్చి), తెలుగు గురించి, -- ద్వితీయా విభక్తి
మీచేతన్(ను), చంద్రబాబు చే, రాజశేఖరుని తోడన్ (ను), మీతో -- త్రుతీయా విభక్తి
నాకొరకున్, నాకై -- చతుర్ధీ విభక్తి
రాముని వలన, కృష్ణుని కంటె , చెర పట్టి -- పంచమీ విభక్తి
ఇంటి లోపల సంపంగి - షష్ఠీ విభక్తి
అందులో లేనిది - సప్తమీ విభక్తి
ఓరీ ఎంత పొగరు , ఓయీ కుర్రవాడా, ఓసీ చిన్నదానా - సంబోధనా ప్రధమా విభక్తి.
--- సముఛ్చయములు : పదములు కలుపుటకు వాడునవి. అవి రెండు ( యున్,నున్ ) . ఇప్పుడు వాడుకలో లేవి . వీనికి బదులు గా దీర్ఘములను మరియు కామా(,) వాడుచున్నారు.
----తత్సమము ( మూల భాష ) : సంస్కృత ప్రాకృత పదముల నుంచి కొద్ది మార్పులచే చేరిన పదము. ఆ భాషల ప్రత్యయము తొలగించి తెలుగు ప్రత్యయము చేర్చగా వచ్చిన పదము
---- తద్భవము: సంస్కృత ప్రాకృత పదముల నుండి పుట్టిన శబ్దముల మార్పుచే ఏర్పడినవి
---- దేశ్యము : దేశీయము గా అభివృద్ధి చెందినవి ( ఊరు, పేరు, ఇల్లు, ముల్లు ...)
----గ్రామ్యము : వ్యాకరణ విరుద్ధమైనవి. ( వస్తాడు, తెస్తాడు, వచ్చేడు,తెచ్చేవి,వచ్చేవాడు, తెచ్చేవాడు....)
----అన్య దేశములు : పర భషల నుండి వచ్చి చేరినవి. ( అసలు, సుమారు, హద్దు ...)
--ద్రుత ప్రకృతికములు : న కారము చివర వచ్చేవి. ఈ నకారము లేకపోయినా పదము అర్ఠము మారదు
చేతన్ - చేత, తోడన్ - తోడ
---- ముందు అక్షరము చేర్చిన ఏర్పడు పదములు :
అ, అన్ ( వ్యతిరేకార్థము ) : అసమానము, అచంచలము,అనుమానము,అనాదరణ
స, సత్ ( మంచి అర్ఠము ) : సపరివారము, సజ్జనుడు,సలలిత,
కా, కు ( చెడ్డ ) : కుజనుడు,
---- ప్రత్యయాంత శబ్దము :
తర-తమ : సుందర తీరము, సుందరతమము,
వంత-మంత : భగవంతుడు,ముత్యమంత,చేమంతి..
వతి-మతి : గుణవతి,శీలవతి,శ్రీమతి,మందమతి
---- ఇంచు చివరగల పదాలు : వచించు, హసించు,తపించు,ఆవులించు,జాడించు,తిలకించు,ఆరగించు,గాలించు,అప్పగించు ... ( గమనిక వీటిలో కొన్ని తత్సమములు కాదు )
---- తద్భవ పదాలు ( రూపాంతర పదాలు )
ఋ అక్షరము నకు రేఫము వచ్చేవి : ఋషి --రుసి ,ఋక్కము - రిక్క
ఖ,ఛ,ఠ,థ,ఫ లకు క,చ,ట,త,ప వచ్చేవి : ముఖము - మొకము ( మొగము ), ఛెవి -చెవి, పీఠ -పీట, కథ - కత, ఫలము - పలక
ఘ,ఝ,ఢ,ధ,భ లకు గ,జ,డ,ద,బ వచ్చి చేరేవి : ఘంట - గంట ,ఘటిక - గడియ, ప్రౌఢ -ప్రోడ , ధర్మము - దమ్మము, భక్తుడు- బత్తుడు
---- సంయుక్తాక్షరాల లో ఒకటి లోపించేవి : స్వామి - సామి ,పంక్తి - బంతి
----) క్ష కారానికి క-స-చ లలో ఏదైనా వచ్చేవి :
లాక్ష - లక్క , క్షేమము - సేమము , భిక్షము - బిచ్చము
---- ఙ్ఞ కారమునకు న కారము వచ్చేవి
ఆఙ్ఞ - ఆన
---- స్వ - కారమునకు సొ- వచ్చేవి
స్వర్గము - సొన్నము
స్వత్వము - సొత్తు
---- క్యా - నుడి తొలిగేవి
మాణిక్యము - మానికము
జ్యోతి - జోతి
---- క్యా వడి తొలగి ఎత్వదిత్వములు వచ్చేవి
పద్యము - పద్దెము, పుణ్యము - పున్నెము, కన్య - కన్నె,విద్య- విద్దె
----రేఫము తొలిగి ద్విత్వము వచ్చెవి
సర్పము - సప్పము
అర్పణము - అప్పనము
---- క్రావడి లోపించేవి
ప్రసాదము - పసాదము
ప్రాయము - పాయము
---- ఉ కారము, ఒ కారమయ్యేవి
కుంతి - గొంతి
కులము - గొలము
----ణ కారము , న కారమయ్యేవి
ప్ర్రయాణము - పయనము
ద్రోణి - దోనె
---- శ, ష లకు స కారము వచ్చేవి
శాల - సాల
రోషము - రోసము
31, జనవరి 2009, శనివారం
27, జనవరి 2009, మంగళవారం
ఈ రోజు డైరి. ( 01/27/2008)
1) తెలుగు పద పట్టిక లింకు కనిపించినది.
http://te.wiktionary.org/wiki/%E0%B0%AE%E0%B1%8A%E0%B0%A6%E0%B0%9F%E0%B0%BF_%E0%B0%AA%E0%B1%87%E0%B0%9C%E0%B1%80
2) ఈ రోజు చదివిన research paper
Efficient Techniques for Computing Pagerank (Yen-Yu Chen, Qingqing Gan, Torsten Suel) 11/08/2002
ఇందులో వీరు వెబ్ కాగితం లకు ర్యాంకులు ఎలా ఇవ్వాలో , వేరు వేరు విధానాల్లోని లోపాలను చూపిస్తూ ఒక మంచి విధానం వివరించారు.
క్లుప్తంగా పేజ్ ర్యాంకు ని ఈ విధంగా నిర్వచించ వచ్చు.
ప్రతి సెర్చ్ ఇంజన్ వెబ్ లో వెదికిన ప్రతి పేజి కి ఒక ర్యాక్ ఇస్తుంది.ఆ ర్యాకును తిరిగి తిరిగి గణించడము ద్వారా ఎప్పటికప్పుడు మారుస్తుంటారు.( ఇంచు మించు google ranking)
ఉజ్జాఇంపుగా చెప్పాలంటే,
0.15 + 0.85 * (a "share" of the PageRank of every page that links to it)
"share" = the linking page's PageRank divided by the number of outbound links on the page.
మిగతా వివరణ ఇంగ్లీష్ లో క్రింద ఇవ్వబడినది.
పూర్తి వివరాల కోసం లింకు. http://www.haaram.com/searcharticles/efficient%20techniques%20for%20computing%20Pagerank.pdf
౩) వెదగ్గా వెదగ్గా తెలుగు పదాల పట్టిక నెట్ లో ఈ రోజు నా కంట పడింది. మీలో ఎవరైనా చూడాలంటే లింకు ఇది
http://te.wiktionary.org/wiki/%E0%B0%AE%E0%B1%8A%E0%B0%A6%E0%B0%9F%E0%B0%BF_%E0%B0%AA%E0%B1%87%E0%B0%9C%E0%B1%80
విపులంగా చెప్పాలంటే ఇది నేను గత నెలలో శ్రద్ధ గా మొదలు పెట్టిన తెలుగు వెదుకు యంత్రం కు ఇది చాలా అవసరము ( http://www.haaram.com). ఇంగ్లీష్ కి వున్న సదుపాయము ఇక్కడ తెలుగులో లేక పోవడం చాలా ఇబ్బందిని కలిగిస్తుంది. విపులంగా చెప్పాలంటే ఇంగ్లీష్ లో పదానికి పదానికి కొంచెం ఖాళీ స్థలముండి ఏ పదానికాపదము , -ing,s,ed లు లాంటివి, prefix,siffix లు పక్కనబెడితే మనకు చాలావరకు మూల పదము దొరికి పోతుంది. అదే తెలుగు విషయానికి వస్తే పదాల మధ్య ఖాళీ స్థలమున్నా , ఆ ఖాళీ స్థలాన్ని వాడి పదాలని విరిచినా మూలపద సమూహాలను గుర్తించడము చాలా కష్టమౌతుంది.
ఉదాహరణ గా ఒక బ్లాగులో ఒక టపాలో వారికి వచ్చిన కామెంట్లు కూడా కలుపుకొని వాడిన పదాలలో కొన్ని ఇవి.
దీన్ని నేను వ్రాసుకున్నఅతి చిన్న వెదుకు యంత్రము ఈ రకంగా విడగొట్టింది.ఈ యంత్రం లో చాలా పురుగులు ( బగ్స్ ) వున్నాయి.
"ఆడపిల్లలు"
"అక్కలు"
"ఒకసారి"
"గమ్మున"
"లేస్తుండగానే"
"వెర్రిగా"
"మామయ్యలు"
"విరక్తి"
"వినోదభరితం"
"అమెరికాలో"
మరి వీటికి మూల పదాలు గుర్తించి పద సమూహాలు తయారు చేస్తే గాని నిజమైన search engine వాసనలు అబ్బినట్లు. మరి ఇది జరగాలంటే Stemming Algorithm వ్రాయాలి.
ఉదాహరణ కు "మామయ్యలు" అనే పదం కి మూలం మామ,
మామ నుంచి చాలా పదాలు తయారు అవుతాయి.ఇవిగో ఇలా...
మామ+కి
మా+మామ
మీ+మామ
మామయ్య
మామయ్యలు
పెద్ద+మామ ( 2 stems)
చిన్న+మామ ( 2 stems)
బుల్లి+మామ ( 2 stems)
మాయ+దారి+మామ (3 stems)
రూపాంతరాలు
మావ, మా మావ,...
పై వాటన్నిటికి మూలం "మామ" -- ఇక్కడ మామ అనే పదం ధాతువు ( మూలము )
మరి సెర్చ్ చాలావరకు మూల పదాలకి డాక్యుమెంట్ కి లింక్ మీద జరుగుతుంది.మరి అలా జరిగేటప్పుడు పద సమూహ అర్థములు చాల విచిత్రంగా మారుతుంటాయి. ఉదాహరణగా ఈ క్రింది పద సమూహంలో ఏ ఒక్కటికూడా ఆ టపాకి సంబంధంలేనివి మరి మీరు ఈ క్రింది పదాలకోసం వెదికే టప్పుడు search engine పై టపా చూపిస్తే ... ? Google కి ముందు సెర్చ్ ఇంజన్స్ పరాజయం పొందటానికి ఇదొక కారణమేమో !
ఆడపిల్ల - వెర్రి మామ
గమ్మున లేస్తుండగానే
ఆడపిల్లల వినోదం
అక్కల విరక్తి
మామయ్య-అక్క వెర్రి వినోదం
అమెరికాలో విరక్తి
అమెరికా మామయ్య
.
.
వీటిని సరిగా వాడి context ki తగ్గ విషయము చూపించాలంటే.. బట్టతల రావడం ఖాయం.
**************************************************************************************************
The equation shows clearly how a page's PageRank is arrived at. But what isn't immediately obvious is that it can't work if the calculation is done just once. Suppose we have 2 pages, A and B, which link to each other, and neither have any other links of any kind. This is what happens:-
Step 1: Calculate page A's PageRank from the value of its inbound links
Page A now has a new PageRank value. The calculation used the value of the inbound link from page B. But page B has an inbound link (from page A) and its new PageRank value hasn't been worked out yet, so page A's new PageRank value is based on inaccurate data and can't be accurate.
Step 2: Calculate page B's PageRank from the value of its inbound links
Page B now has a new PageRank value, but it can't be accurate because the calculation used the new PageRank value of the inbound link from page A, which is inaccurate.
It's a Catch 22 situation. We can't work out A's PageRank until we know B's PageRank, and we can't work out B's PageRank until we know A's PageRank.
Now that both pages have newly calculated PageRank values, can't we just run the calculations again to arrive at accurate values? No. We can run the calculations again using the new values and the results will be more accurate, but we will always be using inaccurate values for the calculations, so the results will always be inaccurate.
The problem is overcome by repeating the calculations many times. Each time produces slightly more accurate values. In fact, total accuracy can never be achieved because the calculations are always based on inaccurate values. 40 to 50 iterations are sufficient to reach a point where any further iterations wouldn't produce enough of a change to the values to matter. This is precisiely what Google does at each update, and it's the reason why the updates take so long.
http://te.wiktionary.org/wiki/%E0%B0%AE%E0%B1%8A%E0%B0%A6%E0%B0%9F%E0%B0%BF_%E0%B0%AA%E0%B1%87%E0%B0%9C%E0%B1%80
2) ఈ రోజు చదివిన research paper
Efficient Techniques for Computing Pagerank (Yen-Yu Chen, Qingqing Gan, Torsten Suel) 11/08/2002
ఇందులో వీరు వెబ్ కాగితం లకు ర్యాంకులు ఎలా ఇవ్వాలో , వేరు వేరు విధానాల్లోని లోపాలను చూపిస్తూ ఒక మంచి విధానం వివరించారు.
క్లుప్తంగా పేజ్ ర్యాంకు ని ఈ విధంగా నిర్వచించ వచ్చు.
ప్రతి సెర్చ్ ఇంజన్ వెబ్ లో వెదికిన ప్రతి పేజి కి ఒక ర్యాక్ ఇస్తుంది.ఆ ర్యాకును తిరిగి తిరిగి గణించడము ద్వారా ఎప్పటికప్పుడు మారుస్తుంటారు.( ఇంచు మించు google ranking)
ఉజ్జాఇంపుగా చెప్పాలంటే,
0.15 + 0.85 * (a "share" of the PageRank of every page that links to it)
"share" = the linking page's PageRank divided by the number of outbound links on the page.
మిగతా వివరణ ఇంగ్లీష్ లో క్రింద ఇవ్వబడినది.
పూర్తి వివరాల కోసం లింకు. http://www.haaram.com/searcharticles/efficient%20techniques%20for%20computing%20Pagerank.pdf
౩) వెదగ్గా వెదగ్గా తెలుగు పదాల పట్టిక నెట్ లో ఈ రోజు నా కంట పడింది. మీలో ఎవరైనా చూడాలంటే లింకు ఇది
http://te.wiktionary.org/wiki/%E0%B0%AE%E0%B1%8A%E0%B0%A6%E0%B0%9F%E0%B0%BF_%E0%B0%AA%E0%B1%87%E0%B0%9C%E0%B1%80
విపులంగా చెప్పాలంటే ఇది నేను గత నెలలో శ్రద్ధ గా మొదలు పెట్టిన తెలుగు వెదుకు యంత్రం కు ఇది చాలా అవసరము ( http://www.haaram.com). ఇంగ్లీష్ కి వున్న సదుపాయము ఇక్కడ తెలుగులో లేక పోవడం చాలా ఇబ్బందిని కలిగిస్తుంది. విపులంగా చెప్పాలంటే ఇంగ్లీష్ లో పదానికి పదానికి కొంచెం ఖాళీ స్థలముండి ఏ పదానికాపదము , -ing,s,ed లు లాంటివి, prefix,siffix లు పక్కనబెడితే మనకు చాలావరకు మూల పదము దొరికి పోతుంది. అదే తెలుగు విషయానికి వస్తే పదాల మధ్య ఖాళీ స్థలమున్నా , ఆ ఖాళీ స్థలాన్ని వాడి పదాలని విరిచినా మూలపద సమూహాలను గుర్తించడము చాలా కష్టమౌతుంది.
ఉదాహరణ గా ఒక బ్లాగులో ఒక టపాలో వారికి వచ్చిన కామెంట్లు కూడా కలుపుకొని వాడిన పదాలలో కొన్ని ఇవి.
దీన్ని నేను వ్రాసుకున్నఅతి చిన్న వెదుకు యంత్రము ఈ రకంగా విడగొట్టింది.ఈ యంత్రం లో చాలా పురుగులు ( బగ్స్ ) వున్నాయి.
"ఆడపిల్లలు"
"అక్కలు"
"ఒకసారి"
"గమ్మున"
"లేస్తుండగానే"
"వెర్రిగా"
"మామయ్యలు"
"విరక్తి"
"వినోదభరితం"
"అమెరికాలో"
మరి వీటికి మూల పదాలు గుర్తించి పద సమూహాలు తయారు చేస్తే గాని నిజమైన search engine వాసనలు అబ్బినట్లు. మరి ఇది జరగాలంటే Stemming Algorithm వ్రాయాలి.
ఉదాహరణ కు "మామయ్యలు" అనే పదం కి మూలం మామ,
మామ నుంచి చాలా పదాలు తయారు అవుతాయి.ఇవిగో ఇలా...
మామ+కి
మా+మామ
మీ+మామ
మామయ్య
మామయ్యలు
పెద్ద+మామ ( 2 stems)
చిన్న+మామ ( 2 stems)
బుల్లి+మామ ( 2 stems)
మాయ+దారి+మామ (3 stems)
రూపాంతరాలు
మావ, మా మావ,...
పై వాటన్నిటికి మూలం "మామ" -- ఇక్కడ మామ అనే పదం ధాతువు ( మూలము )
మరి సెర్చ్ చాలావరకు మూల పదాలకి డాక్యుమెంట్ కి లింక్ మీద జరుగుతుంది.మరి అలా జరిగేటప్పుడు పద సమూహ అర్థములు చాల విచిత్రంగా మారుతుంటాయి. ఉదాహరణగా ఈ క్రింది పద సమూహంలో ఏ ఒక్కటికూడా ఆ టపాకి సంబంధంలేనివి మరి మీరు ఈ క్రింది పదాలకోసం వెదికే టప్పుడు search engine పై టపా చూపిస్తే ... ? Google కి ముందు సెర్చ్ ఇంజన్స్ పరాజయం పొందటానికి ఇదొక కారణమేమో !
ఆడపిల్ల - వెర్రి మామ
గమ్మున లేస్తుండగానే
ఆడపిల్లల వినోదం
అక్కల విరక్తి
మామయ్య-అక్క వెర్రి వినోదం
అమెరికాలో విరక్తి
అమెరికా మామయ్య
.
.
వీటిని సరిగా వాడి context ki తగ్గ విషయము చూపించాలంటే.. బట్టతల రావడం ఖాయం.
**************************************************************************************************
The equation shows clearly how a page's PageRank is arrived at. But what isn't immediately obvious is that it can't work if the calculation is done just once. Suppose we have 2 pages, A and B, which link to each other, and neither have any other links of any kind. This is what happens:-
Step 1: Calculate page A's PageRank from the value of its inbound links
Page A now has a new PageRank value. The calculation used the value of the inbound link from page B. But page B has an inbound link (from page A) and its new PageRank value hasn't been worked out yet, so page A's new PageRank value is based on inaccurate data and can't be accurate.
Step 2: Calculate page B's PageRank from the value of its inbound links
Page B now has a new PageRank value, but it can't be accurate because the calculation used the new PageRank value of the inbound link from page A, which is inaccurate.
It's a Catch 22 situation. We can't work out A's PageRank until we know B's PageRank, and we can't work out B's PageRank until we know A's PageRank.
Now that both pages have newly calculated PageRank values, can't we just run the calculations again to arrive at accurate values? No. We can run the calculations again using the new values and the results will be more accurate, but we will always be using inaccurate values for the calculations, so the results will always be inaccurate.
The problem is overcome by repeating the calculations many times. Each time produces slightly more accurate values. In fact, total accuracy can never be achieved because the calculations are always based on inaccurate values. 40 to 50 iterations are sufficient to reach a point where any further iterations wouldn't produce enough of a change to the values to matter. This is precisiely what Google does at each update, and it's the reason why the updates take so long.
25, జనవరి 2009, ఆదివారం
పద మూల - తెలుగు నిఘంటువు
మన బ్లాగు మిత్రులెవరి వద్దైనా తెలుగు పదాలకు మూలమైన పద నిఘంటువు ఏ రూపంలో వున్నా తెలియచేయ గలరని ప్రార్థన. ఈ నిఘంటువు key,Value pair కోసము గత వారం రోజులుగా వెదుకు తున్నా ఫలితము కనిపించలేదు. మీ వద్ద P.D.F format లో వున్నా నాకు దయచేసి తెలుపగలరు.
విపులంగా చెప్పాలంటే ఇది నేను గత నెలలో శ్రద్ధ గా మొదలు పెట్టిన తెలుగు వెదుకు యంత్రం కు చాలా అవసరము. హారం.కామ్ ( www.haaram.com ) పైకి ఎదో బ్లాగులు, సినిమాలు లాగా కనిపిస్తున్నా నేను తలపెట్టిన ఉద్దేశ్యము తెలుగు లో ఒక చాలా చిన్న వెదుకు యంత్రము చేద్దామని. spider, parser ప్రోగ్రామింగ్ అయిన తరువాత పదాలను ఎలా కలపాలో తెలియటము లేదు. ఇంగ్లీష్ కి వున్న సదుపాయము ఇక్కడ తెలుగులో లేక పోవడం చాలా ఇబ్బందిని కలిగిస్తుంది. విపులంగా చెప్పాలంటే ఇంగ్లీష్ లో పదానికి పదానికి కొంచెం ఖాళీ స్థలముండి ఏ పదానికాపదము , -ing,s,ed లు లాంటివి, prefix,siffix లు పక్కనబెడితే మనకు చాలావరకు మూల పదము దొరికి పోతుంది. అదే తెలుగు విషయానికి వస్తే పదాల మధ్య ఖాళీ స్థలమున్నా , ఆ ఖాళీ స్థలాన్ని వాడి పదాలని విరిచినా మూలపద సమూహాలను గుర్తించడము చాలా కష్టమౌతుంది. వుదాహరణ గా ఒక బ్లాగులో ఒక టపాలో వారికి వచ్చిన కామెంట్లు కూడా కలుపుకొని వాడిన పదాలలో కొన్ని ఇవి. ( మీకో పరీక్ష ఈ పదాలు ఎక్కువ ఏ బ్లాగులో వచ్చాయో చెప్పుకోండి,తెలిస్తే వారి అనుమతి లేకుండా spider run చేసినందుకు క్షమించండి ! తెలియక పొతే message పెట్టండి.)
దీన్ని నేను వ్రాసుకున్నఅతి చిన్న వెదుకు యంత్రము ఈ రకంగా విడగొట్టింది.ఈ యంత్రం లో చాలా పురుగులు ( బగ్స్ ) వున్నాయనుకోండి.
"ఆడపిల్లలు"
"అక్కలు"
"ఒకసారి"
"గమ్మున"
"లేస్తుండగానే"
"వెర్రిగా"
"మామయ్యలు"
"విరక్తి"
"వినోదభరితం"
"అమెరికాలో"
మరి వీటికి మూల పదాలు గుర్తించి కాడలు తయారు చేస్తే గాని నిజమైన search engine వాసనలు అబ్బినట్లు. మరి ఇది జరగాలంటే Stemming Algorithm వ్రాయాలి.
అంటే ఉదాహరణకి ( ఈ క్రింది పద సమూహంలో ఏ ఒక్కటికూడా ఆ టపాకి సంబంధంలేనివి )
ఆడపిల్ల - వెర్రి మామ
గమ్మున లేస్తుండగానే
ఆడపిల్లల వినోదం
అక్కల విరక్తి
మామయ్య-అక్క వెర్రి వినోదం
అమెరికాలో విరక్తి
అమెరికా మామయ్య
.
.
ఇలా చాలా చాల stems తయారు అవుతాయి. వీటిని సరిగా వాడి context ki తగ్గ విషయము చూపించాలంటే.. బట్టతల రావడం ఖాయం.
దీనికి మూలం నీఘంటువు. మరి ఆ నిఘంటువు ఏ మహాను భావుని వద్ద వుందో? అదీ Key,Value pairs gaa దొరికితే...నాకు సగం శ్రమ తగ్గినట్టే !
విపులంగా చెప్పాలంటే ఇది నేను గత నెలలో శ్రద్ధ గా మొదలు పెట్టిన తెలుగు వెదుకు యంత్రం కు చాలా అవసరము. హారం.కామ్ ( www.haaram.com ) పైకి ఎదో బ్లాగులు, సినిమాలు లాగా కనిపిస్తున్నా నేను తలపెట్టిన ఉద్దేశ్యము తెలుగు లో ఒక చాలా చిన్న వెదుకు యంత్రము చేద్దామని. spider, parser ప్రోగ్రామింగ్ అయిన తరువాత పదాలను ఎలా కలపాలో తెలియటము లేదు. ఇంగ్లీష్ కి వున్న సదుపాయము ఇక్కడ తెలుగులో లేక పోవడం చాలా ఇబ్బందిని కలిగిస్తుంది. విపులంగా చెప్పాలంటే ఇంగ్లీష్ లో పదానికి పదానికి కొంచెం ఖాళీ స్థలముండి ఏ పదానికాపదము , -ing,s,ed లు లాంటివి, prefix,siffix లు పక్కనబెడితే మనకు చాలావరకు మూల పదము దొరికి పోతుంది. అదే తెలుగు విషయానికి వస్తే పదాల మధ్య ఖాళీ స్థలమున్నా , ఆ ఖాళీ స్థలాన్ని వాడి పదాలని విరిచినా మూలపద సమూహాలను గుర్తించడము చాలా కష్టమౌతుంది. వుదాహరణ గా ఒక బ్లాగులో ఒక టపాలో వారికి వచ్చిన కామెంట్లు కూడా కలుపుకొని వాడిన పదాలలో కొన్ని ఇవి. ( మీకో పరీక్ష ఈ పదాలు ఎక్కువ ఏ బ్లాగులో వచ్చాయో చెప్పుకోండి,తెలిస్తే వారి అనుమతి లేకుండా spider run చేసినందుకు క్షమించండి ! తెలియక పొతే message పెట్టండి.)
దీన్ని నేను వ్రాసుకున్నఅతి చిన్న వెదుకు యంత్రము ఈ రకంగా విడగొట్టింది.ఈ యంత్రం లో చాలా పురుగులు ( బగ్స్ ) వున్నాయనుకోండి.
"ఆడపిల్లలు"
"అక్కలు"
"ఒకసారి"
"గమ్మున"
"లేస్తుండగానే"
"వెర్రిగా"
"మామయ్యలు"
"విరక్తి"
"వినోదభరితం"
"అమెరికాలో"
మరి వీటికి మూల పదాలు గుర్తించి కాడలు తయారు చేస్తే గాని నిజమైన search engine వాసనలు అబ్బినట్లు. మరి ఇది జరగాలంటే Stemming Algorithm వ్రాయాలి.
అంటే ఉదాహరణకి ( ఈ క్రింది పద సమూహంలో ఏ ఒక్కటికూడా ఆ టపాకి సంబంధంలేనివి )
ఆడపిల్ల - వెర్రి మామ
గమ్మున లేస్తుండగానే
ఆడపిల్లల వినోదం
అక్కల విరక్తి
మామయ్య-అక్క వెర్రి వినోదం
అమెరికాలో విరక్తి
అమెరికా మామయ్య
.
.
ఇలా చాలా చాల stems తయారు అవుతాయి. వీటిని సరిగా వాడి context ki తగ్గ విషయము చూపించాలంటే.. బట్టతల రావడం ఖాయం.
దీనికి మూలం నీఘంటువు. మరి ఆ నిఘంటువు ఏ మహాను భావుని వద్ద వుందో? అదీ Key,Value pairs gaa దొరికితే...నాకు సగం శ్రమ తగ్గినట్టే !
14, జనవరి 2009, బుధవారం
చిరుస్పందన నుంచి హారం.కామ్ దాకా...
టపా వ్రాసి చాలా రోజులైంది. గత నెలంతా ఎప్పటికప్పుడు వాయిదాల మీద వాయిదాలేస్తూ కాలం గడిపేశాను. డిసెంబర్ లో ఒకానొక రోజు దేవుడు కలలో కనిపించి, భక్తా ఇలా నువ్వు ఎక్కడ వేసిన గొంగళి అక్కడే అన్నట్టు ఎప్పుడో తాతల కాలము నాటి టెక్నాలజి పట్టుకొని ఊగులాడితే వెన్నుముక విరిగి ఎందుకూ పనికి రాకుండా పోతావు ! కొంచెం కళ్ళు తెరచి చూడు, నీ చుట్టూ అందరూ ఎలా వెలిగి పోతున్నరో ! మరి నువ్వో ? ...... చూశావా ? వాళ్ళు మాట్లాడే మాటలు ఒక్కటన్నా గతం లో విన్నావా ? ఇలా అయితే దేవుడినైన నేను కూడా నిన్న ర॒క్షించలేను.తరువాత నీ ఇష్టం.
దెబ్బకు మెలుకువ వచ్చింది. ఏం చేద్దాం? ......... ఏం చేద్దాం? .......... ఏదో ఒకటి చెయ్యలి. 2008 కి ఒక మంచి పని తో సాగనంపి 2009 ని ఒక మంచి పని తో ఆహ్వానించాలి.
మళ్ళీ ఆలోచనలు మొదటికి....... ఇంత వరకు నేను చేయని పని......నాకు కొత్తగా ఉండాలి........పది మందికి ఉపయోగ పడేలా ఉండాలి.
టెక్నాలజి పుస్తకము చదివి సంవత్సరాలైంది. పుస్తకము తెరిస్తే నిద్ర. ఇలా లాభం లేదనుకొని టపా వ్రాయడం మొదలు పెట్టాను. 2 వాక్యాలు రాసి , ౩ వ వాక్యం రాస్తుంటే వీపు విమానం మోత మోగింది. తిరిగి చూస్తే ఈసారి దేవుడు చింత మెల్లెతో నిలబడి వున్నాడు.
కోపమొచ్చింది. నువ్వెవడివి నన్ను కొట్టడానికి ?
నీ అంతరాత్మ ను , నీ ఇష్ట దైవాన్ని.....నీ మంచి కోరే వాడిని..... నీ స్వధర్మాన్ని విస్మరిస్తే చూసి వుండలేక చేయి చేసుకున్నా.....
మళ్ళీ అలోచిస్తుంటే, ఏంటో అంత దీర్ఘాలోచన? అని అడిగాడు.
అదికాదు ... నువ్వు చెప్పేది నా మంచికే అని అనిపిస్తుంది కానీ....
కానీ?
అది, అది, పుస్తకము ముట్టుకుంటే నిద్..............ర.. వస్తుంది.
తెలుగు పుస్తకాలైతే రాత్రంతా మేల్కొని మరీ చదువుతావు కదా?
అదంటే...నాకు ఇష్టమైన పని. మరి ఇదేమో కష్టమైన పని...
ఇలా కాదు కానీ ఎలాగూ బ్లాగుతున్నావు కదా ! అది నీకు ఇష్టమైన పనే కదా ? మరి టెక్నాలజీ నేర్చుకుంటూ నువ్వే ఒక ఙ్ఞాన హారాన్ని తయారు చేయి అని హితబోధ చేసి, ఇక వస్తా టైం అయింది అని లేచాడు.
ఎక్కడికి ఇంత త్వరగా అని అడిగా ?
నాకు నీలాంటి వాళ్ళు కోకొల్లలు. నీ దగ్గరే వుంటే ఎలా ? అదీ కాక అలివేలు మంగ లేచే వేళయింది. ప్రక్కన నేను లేకపొతే .... ఇంకేమైనా వుందా? రాత్రికి బీబీ నాంచారి ఇంటికి వెళ్ళానని నాష్టా ( టిఫిన్) పెట్టకపోతే ? అమ్మో అసలే ఈ రోజు నాకిష్టమైన ఇడ్లీ చేస్తానంది. మిమ్మలని బాగు ( బ్లాగు) చేయాలని నేను ఇరుక్కునేట్టు వున్నాను..అని మాయమైనాడు.
డిసెంబర్ 20, 2008 , హారం... ఙ్ఞాన హారం.................విఙ్ఞాన హారం అంకురార్పణ.
జనవరి 14,2009 , మకర సంక్రాంతి.... సంక్రాంతి శుభాకాంక్షలతో www.haaram.com
ఈ మధ్య రోజులు చిత్రాతి చిత్రాలు...ఉదయము 8 నుండి రాత్రి 8 దాకా ఆఫీస్ లో తీరిక లేని పని. రాత్రి 9 నుండి అమెరికా కోడి కూసే దాకా www.haaram.com
ఆ వివరాలు, తదుపరి టపాలో.......అంటే వెదుకు యంత్రము ( search engine ), హెచ్.టి.యం.యల్ విభాగిని ( HTML parser ), విశ్లేషిణి ( categorization engine) లాంటి వివరాలు.
అప్పటిదాకా గారెలు,బూరెలు,పులిహోరా, గుమ్మడికాయ కూర, సొజ్జ రొట్టె .......చాలా చాలా తినాలి......మీరూ తినండి....మా ఇంటికి వచ్చినా సరే !
దెబ్బకు మెలుకువ వచ్చింది. ఏం చేద్దాం? ......... ఏం చేద్దాం? .......... ఏదో ఒకటి చెయ్యలి. 2008 కి ఒక మంచి పని తో సాగనంపి 2009 ని ఒక మంచి పని తో ఆహ్వానించాలి.
మళ్ళీ ఆలోచనలు మొదటికి....... ఇంత వరకు నేను చేయని పని......నాకు కొత్తగా ఉండాలి........పది మందికి ఉపయోగ పడేలా ఉండాలి.
టెక్నాలజి పుస్తకము చదివి సంవత్సరాలైంది. పుస్తకము తెరిస్తే నిద్ర. ఇలా లాభం లేదనుకొని టపా వ్రాయడం మొదలు పెట్టాను. 2 వాక్యాలు రాసి , ౩ వ వాక్యం రాస్తుంటే వీపు విమానం మోత మోగింది. తిరిగి చూస్తే ఈసారి దేవుడు చింత మెల్లెతో నిలబడి వున్నాడు.
కోపమొచ్చింది. నువ్వెవడివి నన్ను కొట్టడానికి ?
నీ అంతరాత్మ ను , నీ ఇష్ట దైవాన్ని.....నీ మంచి కోరే వాడిని..... నీ స్వధర్మాన్ని విస్మరిస్తే చూసి వుండలేక చేయి చేసుకున్నా.....
మళ్ళీ అలోచిస్తుంటే, ఏంటో అంత దీర్ఘాలోచన? అని అడిగాడు.
అదికాదు ... నువ్వు చెప్పేది నా మంచికే అని అనిపిస్తుంది కానీ....
కానీ?
అది, అది, పుస్తకము ముట్టుకుంటే నిద్..............ర.. వస్తుంది.
తెలుగు పుస్తకాలైతే రాత్రంతా మేల్కొని మరీ చదువుతావు కదా?
అదంటే...నాకు ఇష్టమైన పని. మరి ఇదేమో కష్టమైన పని...
ఇలా కాదు కానీ ఎలాగూ బ్లాగుతున్నావు కదా ! అది నీకు ఇష్టమైన పనే కదా ? మరి టెక్నాలజీ నేర్చుకుంటూ నువ్వే ఒక ఙ్ఞాన హారాన్ని తయారు చేయి అని హితబోధ చేసి, ఇక వస్తా టైం అయింది అని లేచాడు.
ఎక్కడికి ఇంత త్వరగా అని అడిగా ?
నాకు నీలాంటి వాళ్ళు కోకొల్లలు. నీ దగ్గరే వుంటే ఎలా ? అదీ కాక అలివేలు మంగ లేచే వేళయింది. ప్రక్కన నేను లేకపొతే .... ఇంకేమైనా వుందా? రాత్రికి బీబీ నాంచారి ఇంటికి వెళ్ళానని నాష్టా ( టిఫిన్) పెట్టకపోతే ? అమ్మో అసలే ఈ రోజు నాకిష్టమైన ఇడ్లీ చేస్తానంది. మిమ్మలని బాగు ( బ్లాగు) చేయాలని నేను ఇరుక్కునేట్టు వున్నాను..అని మాయమైనాడు.
డిసెంబర్ 20, 2008 , హారం... ఙ్ఞాన హారం.................విఙ్ఞాన హారం అంకురార్పణ.
జనవరి 14,2009 , మకర సంక్రాంతి.... సంక్రాంతి శుభాకాంక్షలతో www.haaram.com
ఈ మధ్య రోజులు చిత్రాతి చిత్రాలు...ఉదయము 8 నుండి రాత్రి 8 దాకా ఆఫీస్ లో తీరిక లేని పని. రాత్రి 9 నుండి అమెరికా కోడి కూసే దాకా www.haaram.com
ఆ వివరాలు, తదుపరి టపాలో.......అంటే వెదుకు యంత్రము ( search engine ), హెచ్.టి.యం.యల్ విభాగిని ( HTML parser ), విశ్లేషిణి ( categorization engine) లాంటి వివరాలు.
అప్పటిదాకా గారెలు,బూరెలు,పులిహోరా, గుమ్మడికాయ కూర, సొజ్జ రొట్టె .......చాలా చాలా తినాలి......మీరూ తినండి....మా ఇంటికి వచ్చినా సరే !