解讀百度站長學(xué)院中的《搜索引擎工作原理》之

來源:南充領(lǐng)跑網(wǎng)絡(luò)技術(shù)有限公司   發(fā)布時(shí)間:2016-07-27

很早之前就看過百度官方發(fā)布的搜索引擎工作原理,最近百度站長平臺(tái)改版,將原來的資訊改成了站長學(xué)院,其中也對搜索引擎工作原理進(jìn)行了更新。

今日又看了一遍,發(fā)現(xiàn)還有很多值得琢磨的地方,下面我就對我比較感興趣的段落摘錄下來并大概解讀一下。

一,抓取篇

spider抓取系統(tǒng)包括鏈接存儲(chǔ)系統(tǒng)、鏈接選取系統(tǒng)、dns解析服務(wù)系統(tǒng)、抓取調(diào)度系統(tǒng)、網(wǎng)頁分析系統(tǒng)、鏈接提取系統(tǒng)、鏈接分析系統(tǒng)、網(wǎng)頁存儲(chǔ)系統(tǒng)。

蜘蛛從鏈接庫中選取鏈接,對鏈接對應(yīng)的頁面進(jìn)行抓取,保存網(wǎng)頁到網(wǎng)頁庫的同時(shí)再提取抓取頁面中的鏈接,并對這些鏈接和鏈接庫進(jìn)行對照、合并重復(fù)鏈接、建立新鏈接入庫。其中在抓取頁面的時(shí)候,已經(jīng)對頁面進(jìn)行簡單分析,過濾掉垃圾頁面。這是一個(gè)不斷循環(huán)的過程。

Baiduspider根據(jù)上述網(wǎng)站設(shè)置的協(xié)議對站點(diǎn)頁面進(jìn)行抓取,但是不可能做到對所有站點(diǎn)一視同仁,會(huì)綜合考慮站點(diǎn)實(shí)際情況確定一個(gè)抓取配額,每天定量抓取站點(diǎn)內(nèi)容,即我們常說的抓取頻次。那么百度搜索引擎是根據(jù)什么指標(biāo)來確定對一個(gè)網(wǎng)站的抓取頻次的呢,主要指標(biāo)有四個(gè):
1,網(wǎng)站更新頻率:更新快多來,更新慢少來,直接影響B(tài)aiduspider的來訪頻率
2,網(wǎng)站更新質(zhì)量:更新頻率提高了,僅僅是吸引了Baiduspier的注意,Baiduspider對質(zhì)量是有嚴(yán)格要求的,如果網(wǎng)站每天更新出的大量內(nèi)容都被Baiduspider判定為低質(zhì)頁面,依然沒有意義。
3,連通度:網(wǎng)站應(yīng)該安全穩(wěn)定、對Baiduspider保持暢通,經(jīng)常給Baiduspider吃閉門羹可不是好事情
4,站點(diǎn)評價(jià):百度搜索引擎對每個(gè)站點(diǎn)都會(huì)有一個(gè)評價(jià),且這個(gè)評價(jià)會(huì)根據(jù)站點(diǎn)情況不斷變化,是百度搜索引擎對站點(diǎn)的一個(gè)基礎(chǔ)打分(絕非外界所說的百度權(quán)重),是百度內(nèi)部一個(gè)非常機(jī)密的數(shù)據(jù)。站點(diǎn)評級從不獨(dú)立使用,會(huì)配合其它因子和閾值一起共同影響對網(wǎng)站的抓取和排序。
如果你的網(wǎng)站新更新的文章百度收錄慢或者不收錄,就可以從以上四點(diǎn)上找下原因,其中影響最大的就是更新頻率,也就是我們常說的,要學(xué)會(huì)養(yǎng)蜘蛛,更新頻率不但指更新量上,還要注意每日的更新篇數(shù)不要懸殊太大。另外,網(wǎng)站訪問穩(wěn)定也要注意,打開速度過慢或者無法打開都會(huì)影響到收錄問題。

Baiduspider抓了多少頁面并不是最重要的,重要的是有多少頁面被建索引庫,即我們常說的“建庫”。眾所周知,搜索引擎的索引庫是分層級的,優(yōu)質(zhì)的網(wǎng)頁會(huì)被分配到重要索引庫,普通網(wǎng)頁會(huì)待在普通庫,再差一些的網(wǎng)頁會(huì)被分配到低級庫去當(dāng)補(bǔ)充材料。目前60%的檢索需求只調(diào)用重要索引庫即可滿足,這也就解釋了為什么有些網(wǎng)站的收錄量超高流量卻一直不理想。
我認(rèn)為,這三個(gè)等級的索引庫也是有相互轉(zhuǎn)化的,比如普通庫的頁面會(huì)被提升到優(yōu)質(zhì)庫中,對于很多新站或者信任度不高的站點(diǎn),新發(fā)布的頁面很難直接進(jìn)入到優(yōu)質(zhì)庫中,但后期如果經(jīng)過搜索用戶檢驗(yàn),以及大量的外鏈導(dǎo)入可能會(huì)轉(zhuǎn)化到優(yōu)質(zhì)庫中。

哪些網(wǎng)頁可以進(jìn)入優(yōu)質(zhì)索引庫呢。其實(shí)總的原則就是一個(gè):對用戶的價(jià)值。
包括卻不限于:
1,有時(shí)效性且有價(jià)值的頁面:在這里,時(shí)效性和價(jià)值是并列關(guān)系,缺一不可。有些站點(diǎn)為了產(chǎn)生時(shí)效性內(nèi)容頁面做了大量采集工作,產(chǎn)生了一堆無價(jià)值面頁,也是百度不愿看到的.
2,內(nèi)容優(yōu)質(zhì)的專題頁面:專題頁面的內(nèi)容不一定完全是原創(chuàng)的,即可以很好地把各方內(nèi)容整合在一起,或者增加一些新鮮的內(nèi)容,比如觀點(diǎn)和評論,給用戶更豐富全面的內(nèi)容。
3,高價(jià)值原創(chuàng)內(nèi)容頁面:百度把原創(chuàng)定義為花費(fèi)一定成本、大量經(jīng)驗(yàn)積累提取后形成的文章。千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)
4,重要個(gè)人頁面:這里僅舉一個(gè)例子,科比在新浪微博開戶了,需要他不經(jīng)常更新,但對于百度來說,它仍然是一個(gè)極重要的頁面。
請注意這里面的時(shí)效性、價(jià)值性、整合、成本、獨(dú)立無二,特別是里面的成本,復(fù)制粘貼的無成本、標(biāo)題黨無成本、所以,就算你不原創(chuàng),你也要讓人感覺你的文章是花了很大時(shí)間成本或金錢成本搞成的。上面百度所講的四個(gè)點(diǎn)中不包含權(quán)威性,但權(quán)威性也是一個(gè)很很關(guān)鍵的因素,同樣一個(gè)文章,大門戶復(fù)制和一個(gè)小站長復(fù)制,那層次是不一樣的。

哪些網(wǎng)頁無法建入索引庫

上述優(yōu)質(zhì)網(wǎng)頁進(jìn)了索引庫,那其實(shí)互聯(lián)網(wǎng)上大部分網(wǎng)站根本沒有被百度收錄。并非是百度沒有發(fā)現(xiàn)他們,而是在建庫前的篩選環(huán)節(jié)被過濾掉了。那怎樣的網(wǎng)頁在最初環(huán)節(jié)就被過濾掉了呢:

1, 重復(fù)內(nèi)容的網(wǎng)頁:互聯(lián)網(wǎng)上已有的內(nèi)容,百度必然沒有必要再收錄。

2, 主體內(nèi)容空短的網(wǎng)頁

1)有些內(nèi)容使用了百度spider無法解析的技術(shù),如JS、AJAX等,雖然用戶訪問能看到豐富的內(nèi)容,依然會(huì)被搜索引擎拋棄

2)加載速度過慢的網(wǎng)頁,也有可能被當(dāng)作空短頁面處理,注意廣告加載時(shí)間算在網(wǎng)頁整體加載時(shí)間內(nèi)。

3)很多主體不突出的網(wǎng)頁即使被抓取回來也會(huì)在這個(gè)環(huán)節(jié)被拋棄。

3, 部分作弊網(wǎng)頁

了解搜索引擎的工作原理,對從事seo是十分關(guān)鍵的,有時(shí)候,我們不需要刻意研究怎樣才能獲取好的排名,只要你站在搜索引擎的角度上,了解其基本工作原理,如果整個(gè)抓取和排序系統(tǒng)讓你去開發(fā)的話,你會(huì)怎樣做?換位思考后,千萬別再去考慮站長的利益,而是更多地去考慮搜索用戶喜歡什么,他們想要什么。

 

   
標(biāo)簽:
上一篇:揭秘手機(jī)在QQ空間首發(fā)奧秘
下一篇:360推出獨(dú)立搜索產(chǎn)品 好搜

網(wǎng)站建設(shè)知識網(wǎng)站建設(shè)知識

企業(yè)官方網(wǎng)站建設(shè) 品牌創(chuàng)意網(wǎng)站建設(shè) B2C電子商務(wù)網(wǎng)站建設(shè) 其他web應(yīng)用開發(fā)
微信官網(wǎng)建設(shè) 微信影響活動(dòng) 微信點(diǎn)餐系統(tǒng) 其他微信應(yīng)用開發(fā)

更多 +聯(lián)系我們

業(yè)務(wù)范圍:南充、遂寧、巴中、廣安、達(dá)州

業(yè)務(wù)電話:156-0827-8880180-8154-3787

業(yè)務(wù)合作:  278422624 地圖導(dǎo)航: 點(diǎn)擊查看

E-mail:  lingpaonc@qq.com 渠道合作 : 278422624

我們的認(rèn)知

當(dāng)對手還在將注意力停留在碎片化的互聯(lián)網(wǎng)設(shè)計(jì)或程序?qū)崿F(xiàn)時(shí),領(lǐng)跑早已開始將數(shù)字品牌的建設(shè)和傳播進(jìn)一步整合。只有通過整體的互聯(lián)網(wǎng)品牌分析,幫助品牌建立互聯(lián)網(wǎng)品牌傳播價(jià)值,并圍繞價(jià)值建立品牌粘性,提升品牌與用戶的互動(dòng),更好的幫助品牌傳播,觸發(fā)用戶的行動(dòng)力才是我們工作的終極目標(biāo),這正是一流品牌的成功秘訣。
不可否認(rèn),建立互聯(lián)網(wǎng)品牌傳播價(jià)值的確是門藝術(shù),但互聯(lián)網(wǎng)不同于藝術(shù)涂鴉,企業(yè)投資品牌絕不是希望品牌成為某個(gè)藝術(shù)家的實(shí)驗(yàn)品?;ヂ?lián)網(wǎng)傳播的對象是用戶,用戶擁有自己的文化體系,群落共性才是互聯(lián)網(wǎng)品牌傳播創(chuàng)意的源頭,如果我們不能幫助企業(yè)激發(fā)目標(biāo)用戶的共鳴,產(chǎn)生購買沖動(dòng),那將是品牌的悲??! 因此,互聯(lián)網(wǎng)傳播必須建立品牌傳播價(jià)值,為夢想者創(chuàng)造夢想品牌,領(lǐng)跑與您同行!