27, జనవరి 2009, మంగళవారం

ఈ రోజు డైరి. ( 01/27/2008)

1) తెలుగు పద పట్టిక లింకు కనిపించినది.
http://te.wiktionary.org/wiki/%E0%B0%AE%E0%B1%8A%E0%B0%A6%E0%B0%9F%E0%B0%BF_%E0%B0%AA%E0%B1%87%E0%B0%9C%E0%B1%80

2) ఈ రోజు చదివిన research paper
Efficient Techniques for Computing Pagerank (Yen-Yu Chen, Qingqing Gan, Torsten Suel) 11/08/2002

ఇందులో వీరు వెబ్ కాగితం లకు ర్యాంకులు ఎలా ఇవ్వాలో , వేరు వేరు విధానాల్లోని లోపాలను చూపిస్తూ ఒక మంచి విధానం వివరించారు.
క్లుప్తంగా పేజ్ ర్యాంకు ని ఈ విధంగా నిర్వచించ వచ్చు.
ప్రతి సెర్చ్ ఇంజన్ వెబ్ లో వెదికిన ప్రతి పేజి కి ఒక ర్యాక్ ఇస్తుంది.ఆ ర్యాకును తిరిగి తిరిగి గణించడము ద్వారా ఎప్పటికప్పుడు మారుస్తుంటారు.( ఇంచు మించు google ranking)





ఉజ్జాఇంపుగా చెప్పాలంటే,
0.15 + 0.85 * (a "share" of the PageRank of every page that links to it)
"share" = the linking page's PageRank divided by the number of outbound links on the page.

మిగతా వివరణ ఇంగ్లీష్ లో క్రింద ఇవ్వబడినది.
పూర్తి వివరాల కోసం లింకు. http://www.haaram.com/searcharticles/efficient%20techniques%20for%20computing%20Pagerank.pdf

౩) వెదగ్గా వెదగ్గా తెలుగు పదాల పట్టిక నెట్ లో ఈ రోజు నా కంట పడింది. మీలో ఎవరైనా చూడాలంటే లింకు ఇది

http://te.wiktionary.org/wiki/%E0%B0%AE%E0%B1%8A%E0%B0%A6%E0%B0%9F%E0%B0%BF_%E0%B0%AA%E0%B1%87%E0%B0%9C%E0%B1%80

విపులంగా చెప్పాలంటే ఇది నేను గత నెలలో శ్రద్ధ గా మొదలు పెట్టిన తెలుగు వెదుకు యంత్రం కు ఇది చాలా అవసరము ( http://www.haaram.com). ఇంగ్లీష్ కి వున్న సదుపాయము ఇక్కడ తెలుగులో లేక పోవడం చాలా ఇబ్బందిని కలిగిస్తుంది. విపులంగా చెప్పాలంటే ఇంగ్లీష్ లో పదానికి పదానికి కొంచెం ఖాళీ స్థలముండి ఏ పదానికాపదము , -ing,s,ed లు లాంటివి, prefix,siffix లు పక్కనబెడితే మనకు చాలావరకు మూల పదము దొరికి పోతుంది. అదే తెలుగు విషయానికి వస్తే పదాల మధ్య ఖాళీ స్థలమున్నా , ఆ ఖాళీ స్థలాన్ని వాడి పదాలని విరిచినా మూలపద సమూహాలను గుర్తించడము చాలా కష్టమౌతుంది.
ఉదాహరణ గా ఒక బ్లాగులో ఒక టపాలో వారికి వచ్చిన కామెంట్లు కూడా కలుపుకొని వాడిన పదాలలో కొన్ని ఇవి.

దీన్ని నేను వ్రాసుకున్నఅతి చిన్న వెదుకు యంత్రము ఈ రకంగా విడగొట్టింది.ఈ యంత్రం లో చాలా పురుగులు ( బగ్స్ ) వున్నాయి.

"ఆడపిల్లలు"
"అక్కలు"
"ఒకసారి"
"గమ్మున"
"లేస్తుండగానే"
"వెర్రిగా"
"మామయ్యలు"
"విరక్తి"
"వినోదభరితం"
"అమెరికాలో"

మరి వీటికి మూల పదాలు గుర్తించి పద సమూహాలు తయారు చేస్తే గాని నిజమైన search engine వాసనలు అబ్బినట్లు. మరి ఇది జరగాలంటే Stemming Algorithm వ్రాయాలి.

ఉదాహరణ కు "మామయ్యలు" అనే పదం కి మూలం మామ,
మామ నుంచి చాలా పదాలు తయారు అవుతాయి.ఇవిగో ఇలా...

మామ+కి
మా+మామ
మీ+మామ
మామయ్య
మామయ్యలు
పెద్ద+మామ ( 2 stems)
చిన్న+మామ ( 2 stems)
బుల్లి+మామ ( 2 stems)
మాయ+దారి+మామ (3 stems)

రూపాంతరాలు
మావ, మా మావ,...

పై వాటన్నిటికి మూలం "మామ" -- ఇక్కడ మామ అనే పదం ధాతువు ( మూలము )

మరి సెర్చ్ చాలావరకు మూల పదాలకి డాక్యుమెంట్ కి లింక్ మీద జరుగుతుంది.మరి అలా జరిగేటప్పుడు పద సమూహ అర్థములు చాల విచిత్రంగా మారుతుంటాయి. ఉదాహరణగా ఈ క్రింది పద సమూహంలో ఏ ఒక్కటికూడా ఆ టపాకి సంబంధంలేనివి మరి మీరు ఈ క్రింది పదాలకోసం వెదికే టప్పుడు search engine పై టపా చూపిస్తే ... ? Google కి ముందు సెర్చ్ ఇంజన్స్ పరాజయం పొందటానికి ఇదొక కారణమేమో !

ఆడపిల్ల - వెర్రి మామ
గమ్మున లేస్తుండగానే
ఆడపిల్లల వినోదం
అక్కల విరక్తి
మామయ్య-అక్క వెర్రి వినోదం
అమెరికాలో విరక్తి
అమెరికా మామయ్య
.
.

వీటిని సరిగా వాడి context ki తగ్గ విషయము చూపించాలంటే.. బట్టతల రావడం ఖాయం.


**************************************************************************************************
The equation shows clearly how a page's PageRank is arrived at. But what isn't immediately obvious is that it can't work if the calculation is done just once. Suppose we have 2 pages, A and B, which link to each other, and neither have any other links of any kind. This is what happens:-

Step 1: Calculate page A's PageRank from the value of its inbound links

Page A now has a new PageRank value. The calculation used the value of the inbound link from page B. But page B has an inbound link (from page A) and its new PageRank value hasn't been worked out yet, so page A's new PageRank value is based on inaccurate data and can't be accurate.

Step 2: Calculate page B's PageRank from the value of its inbound links

Page B now has a new PageRank value, but it can't be accurate because the calculation used the new PageRank value of the inbound link from page A, which is inaccurate.

It's a Catch 22 situation. We can't work out A's PageRank until we know B's PageRank, and we can't work out B's PageRank until we know A's PageRank.

Now that both pages have newly calculated PageRank values, can't we just run the calculations again to arrive at accurate values? No. We can run the calculations again using the new values and the results will be more accurate, but we will always be using inaccurate values for the calculations, so the results will always be inaccurate.

The problem is overcome by repeating the calculations many times. Each time produces slightly more accurate values. In fact, total accuracy can never be achieved because the calculations are always based on inaccurate values. 40 to 50 iterations are sufficient to reach a point where any further iterations wouldn't produce enough of a change to the values to matter. This is precisiely what Google does at each update, and it's the reason why the updates take so long.

కామెంట్‌లు లేవు:

కామెంట్‌ను పోస్ట్ చేయండి

Comment Form