Google的成功意味著PageRank算法值得特別的關(guān)注。PageRank算法是少數(shù)幾個(gè)公開(kāi)的排序算法之一。PageRank算法對(duì)數(shù)學(xué)要求很高,但可以做些簡(jiǎn)單的解釋?zhuān)苑治鏊鼘?duì)網(wǎng)絡(luò)空間的影響。搜索引擎的其他排序算法也可能獲得與PageRank算法相同的結(jié)果,盡管他們沒(méi)有公開(kāi)任何與其相關(guān)的信息。HITS算法是另一個(gè)基于鏈接的排序算法,與PageRank算法形成鮮明對(duì)比,下面的引述概括了鏈接對(duì)于搜索引擎的價(jià)值。 “通過(guò)分析網(wǎng)頁(yè)間的鏈接關(guān)系,搜索引擎可以判定出一個(gè)網(wǎng)頁(yè)是關(guān)于什么的,也可以判斷它是否很重要并值得列入排序列表中去?!?
搜索引擎在排序過(guò)程中不考慮鏈接因素,而使用一個(gè)基于關(guān)鍵詞詞頻的公式,該公式在潛在匹配文檔中統(tǒng)計(jì)以用戶(hù)為中心的查詢(xún)的關(guān)鍵詞的詞頻。例如,檢索“動(dòng)物學(xué)”時(shí),引擎可能返回文檔標(biāo)題、頭部和正文或是在URL中出現(xiàn)該詞語(yǔ)的擁有
網(wǎng)頁(yè)。這種排序算法可能無(wú)法判定哪些是關(guān)于“動(dòng)物學(xué)”的更
權(quán)威的網(wǎng)頁(yè),而只能判定哪些頁(yè)面中與“動(dòng)物學(xué)”相關(guān)的詞語(yǔ)更
多。但PageRank算法卻可以通過(guò)鏈接結(jié)構(gòu),判別出哪個(gè)是更
權(quán)威的網(wǎng)頁(yè)——排名位于更
前面的那個(gè),即擁有更
多入鏈的網(wǎng)頁(yè)。這就使得引擎能夠返回一個(gè)真正的權(quán)威網(wǎng)頁(yè),而不是一個(gè)類(lèi)似于“動(dòng)物學(xué)”課程表的網(wǎng)頁(yè)。
1998年Google的PageRank算法的設(shè)計(jì)者和奠基者Brin和Page將其核心部分公開(kāi)。隨后,在1999年他們和Motwani、Winogriad對(duì)其進(jìn)行了更為詳細(xì)地闡述。直到2004年,該算法仍在使用,只是作為一個(gè)更大規(guī)模的算法集的一部分,該算法集采用100多個(gè)指標(biāo)來(lái)判定網(wǎng)頁(yè)是否和用戶(hù)的查詢(xún)相關(guān),并對(duì)它們進(jìn)行排序。Google官方聲明:“雖然我們有許多工程師在為全面提高Google的各個(gè)方面而努力,但PageRank算法仍然是我們網(wǎng)絡(luò)搜索工具技術(shù)的基礎(chǔ)。”下面是支撐PageRank算法的兩個(gè)基本理念:
·人鏈?zhǔn)呛饬磕繕?biāo)網(wǎng)頁(yè)重要性的很好的指標(biāo)。
·源于重要網(wǎng)頁(yè)的人鏈比源于次要網(wǎng)頁(yè)的人鏈更能說(shuō)明該網(wǎng)頁(yè)的重要性。
將對(duì)PageRank算法進(jìn)行闡述。在這里,使用Google網(wǎng)站和其他地方所用的“投票”這一比喻代替原來(lái)的“隨機(jī)沖浪”一詞所表達(dá)的含義。
在一個(gè)簡(jiǎn)單的基于鏈接的投票系統(tǒng)中,可以給每個(gè)網(wǎng)頁(yè)投票,并允許網(wǎng)頁(yè)將其一票平分后投給它所鏈接的網(wǎng)頁(yè),更
后統(tǒng)計(jì)每個(gè)網(wǎng)頁(yè)的更
終票數(shù)便可形成一個(gè)排序系統(tǒng)。在這一過(guò)程中,擁有較多人鏈的網(wǎng)站能獲得較高的票數(shù)。然而,這個(gè)簡(jiǎn)單的投票系統(tǒng)不足以說(shuō)明問(wèn)題。如受歡迎的列表網(wǎng)頁(yè)的入鏈很多,就會(huì)獲得很多投票,但該頁(yè)面只有一票,可平分給它所鏈接的目標(biāo)網(wǎng)頁(yè),這些目標(biāo)網(wǎng)頁(yè)中可能含有有價(jià)值的內(nèi)容。重復(fù)這個(gè)投票過(guò)程,使得每個(gè)網(wǎng)頁(yè)在前一輪中獲得的票數(shù)平分給其目標(biāo)網(wǎng)頁(yè)。然而遺憾的是,當(dāng)投票系統(tǒng)陷入循環(huán)時(shí),或遇到一個(gè)沒(méi)有出鏈的網(wǎng)頁(yè)時(shí),投票的重復(fù)過(guò)程便無(wú)法進(jìn)行下去了。
對(duì)此,Brin和Page提出的解決方案是,在每次投票時(shí),網(wǎng)頁(yè)回收一部分票數(shù),而不大部
傳遞給它的鏈接目標(biāo)網(wǎng)頁(yè)。他們建議保留15%的票數(shù),這樣,每次投票時(shí),網(wǎng)頁(yè)只將其85%的票數(shù)平分給其鏈接目標(biāo)網(wǎng)頁(yè),而另外15%的票數(shù)供系統(tǒng)中擁有
的URL平分。運(yùn)用數(shù)學(xué)算法可以有效地實(shí)現(xiàn)這一投票系統(tǒng)。重復(fù)這樣的投票過(guò)程,直至擁有
網(wǎng)頁(yè)的票數(shù)都趨于穩(wěn)定,即在新的一輪投票中,網(wǎng)頁(yè)票數(shù)的變化很小,這樣,PageRank算法便誕生了。
有兩種PageRank算法和修正算法,修正后的算法有明顯的不同。實(shí)踐中,Google采用的可能是PageRank修正算法。
種修正算法是由Lifantsel在2000年提出的,即將PageRank的投票統(tǒng)計(jì)建立在網(wǎng)站的基礎(chǔ)上,而不是對(duì)單個(gè)網(wǎng)頁(yè)進(jìn)行投票統(tǒng)計(jì)。第二種修正算法是由Page、Brin、Motwain和Winograd于1999年提出的,即自動(dòng)賦予一個(gè)網(wǎng)站的壹
頁(yè)較高的票數(shù)。Google似乎同時(shí)采用了這兩種修正算法,可能是與基于網(wǎng)頁(yè)的標(biāo)準(zhǔn)算法相結(jié)合,也可能是完全將其取代,但這些都只是猜測(cè) 。
鄭州路普科技(微信:qinjie76)公司一直致力于網(wǎng)站運(yùn)營(yíng)、網(wǎng)絡(luò)整合營(yíng)銷(xiāo)、互聯(lián)網(wǎng)贏利模式、電子商務(wù)、搜索引擎優(yōu)化(SEO)等方面研究工作,提供專(zhuān)業(yè)網(wǎng)絡(luò)推廣、seo優(yōu)化推廣服務(wù).
版權(quán)聲明:本站部分文章,由 鄭州路普科技整理發(fā)表(信息來(lái)自互聯(lián)網(wǎng),不代表本站觀點(diǎn)),如有冒犯請(qǐng)聯(lián)系我們
網(wǎng)頁(yè)標(biāo)簽:百度 url 加密算法