17 Aralık 2007 Pazartesi

Google nasıl çalışıyor?


Google kuşkusuz 2000li yıllara damgasını vuran bir firma oldu. Peki Google'in sırrı ne? Orjinal google ilk defa google.stanford.edu sitesinde başladı ve bu siteye ön ayak olan makale is "The Anatomy of a Large-Scale Hypertextual Web Search Engine" adıyla bilinen Sergey Brin (solda resimde) ve Lawrence Page'in makalesidir.

Daha önce de yazmıştım. Google'dan önce yahoo, altavista.com gibi arama motorlarını kullanıyorduk. Google'ı farklı yapan ise PageRank algoritmasıdır. PageRank formulu yada algoritmasi kısaca şöyledir. (Orjinal makaledeki kısmı - 2.1.1 De******ion of PageRank[SayfaSıralaması ]Calculation)

"A sayfasını işaret eden T1,T2.. Tn sayfa olduğunu varsayıyoruz. D parametresi damping(bir anlamda azaltma) faktörü ki 1 ile 0 arasında bir değer alabilir. Biz genellikle d'yi 0.85 alıyoruz. d ile ilgili sonraki bölümlerde daha detaylı açıklamaları bulabilirsiniz. Ayrıca C(A) da, sayfa A'dan dışarı giden bağlantı sayısı olsun. A sayfasının PageRank'ı (Sayfa sıralaması) şöyle bulunur:

PR(A)=(1-d) + d * ( PR(T1)/C(T1) + .. ... . + PR(Tn)/C(Tn))

PageRank(PR)'ler web sayfalarının olasılık dağılımını verir....."

Peki bu karışık formul ne anlam ifade ediyor, Bunun için de bir başka siteye bakıyoruz. "PageRank explained correctly". Bu makalenin başlığı "The Google PageRank Algorihtm and How it Works" ve Ian Rogers tarafından yazılmıştır. Link için sayfa altına bakınız.

İki sayfa sadece birbirlerini işaret ediyorlar. Dolayısıyla A'dan dışarı giden sayfa sayısı 1. C(A)=1

d faktorunu 0.85 kabul edersek:

PR(A)=(1-d) + d * ( PR(B) / 1 )
PR(B)=(1-d)+ d * ( PR(A) / 1 )

peki ilke defa alacağımız PR(A) ve PR(B) değerleri ne? Bunun için iterative yani kendi üstünden tekrar eden bir algoritma yazıyoruz.

sıra PR(A) PR(B)
ilk kez 0 0
formulde çözünce 0.15 0.15 + 0.85* ( 0.15 /1) = 0.15+0.1275
2. sefer 0.38 0.47
3.sefer 0.55 0.622

Sonucunda sonuç iki sayfa için de 1'e yakınsar. Peki ya ötesi

'nin nasıl hesaplandığını öğrenmeyi de size bırakıyorum,linklerde de var ama sorun olursa bana mail atın.

Bu hesaplamadan sonra da sayfaların önem sırası ( PR değerleri) ortaya çıkmış oluyor. Aradığınız anahtar kelimeler de en önemli sayfadan en önemsize doğru sıralanıyor.

0 yorum:

Yahoo! News: Science News