新聞中心
運營(yíng)知識 | 網(wǎng)站運營(yíng)之解析百度蜘蛛如何抓取網(wǎng)站和提高抓取頻率
做SEO的小伙伴對百度搜索引擎和蜘蛛是情有獨鐘啊,因為目前百度是國內PC端和移動(dòng)端搜索引擎的老大,seo的小伙伴當然是希望百度蜘蛛能夠更多的抓取網(wǎng)站,只有抓取的頁(yè)面多了,才有可能獲得更好的收錄、排名和流量。
下面就先和各位分享一下百度蜘蛛是如何從最原始的策略制定到抓取的。
一、百度蜘蛛抓取規則
1、對網(wǎng)站抓取的友好性
百度蜘蛛在抓取互聯(lián)網(wǎng)上的信息時(shí)為了更多、更準確的獲取信息,會(huì )制定一個(gè)規則最大限度的利用帶寬和一切資源獲取信息,同時(shí)也會(huì )僅最大限度降低對所抓取網(wǎng)站的壓力。
2、識別url重定向
互聯(lián)網(wǎng)信息數據量很龐大,涉及眾多的鏈接,但是在這個(gè)過(guò)程中可能會(huì )因為各種原因頁(yè)面鏈接進(jìn)行重定向,在這個(gè)過(guò)程中就要求百度蜘蛛對url重定向進(jìn)行識別。
3、百度蜘蛛抓取優(yōu)先級合理使用
由于互聯(lián)網(wǎng)信息量十分龐大,在這種情況下是無(wú)法使用一種策略規定哪些內容是要優(yōu)先抓取的,這時(shí)候就要建立多種優(yōu)先抓取策略,目前的策略主要有:深度優(yōu)先、寬度優(yōu)先、PR優(yōu)先、反鏈優(yōu)先,在我接觸這么長(cháng)時(shí)間里,PR優(yōu)先是經(jīng)常遇到的。
4、無(wú)法抓取數據的獲取
在互聯(lián)網(wǎng)中可能會(huì )出現各種問(wèn)題導致百度蜘蛛無(wú)法抓取信息,在這種情況下百度開(kāi)通了手動(dòng)提交數據。
5、對作弊信息的抓取
在抓取頁(yè)面的時(shí)候經(jīng)常會(huì )遇到低質(zhì)量頁(yè)面、買(mǎi)賣(mài)鏈接等問(wèn)題,百度出臺了綠蘿、石榴等算法進(jìn)行過(guò)濾,據說(shuō)內部還有一些其他方法進(jìn)行判斷,這些方法沒(méi)有對外透露。
上面介紹的是百度設計的一些抓取策略,內部有更多的策略咱們是不得而知的。
二、百度蜘蛛抓取過(guò)程中涉及的協(xié)議
1、http協(xié)議:超文本傳輸協(xié)議
2、https協(xié)議:目前百度已經(jīng)全網(wǎng)實(shí)現https,這種協(xié)議更加安全。
3、robots協(xié)議:這個(gè)文件是百度蜘蛛訪(fǎng)問(wèn)的第一個(gè)文件,它會(huì )告訴百度蜘蛛,哪個(gè)頁(yè)面可以抓取,哪個(gè)不可以抓取。
三、如何提高百度蜘蛛抓取頻次
百度蜘蛛會(huì )根據一定的規則對網(wǎng)站進(jìn)行抓取,但是也沒(méi)法做到一視同仁,以下內容會(huì )對百度蜘蛛抓取頻次起重要影響。
1、網(wǎng)站權重:權重越高的網(wǎng)站百度蜘蛛會(huì )更頻繁和深度抓取
2、網(wǎng)站更新頻率:更新的頻率越高,百度蜘蛛來(lái)的就會(huì )越多
3、網(wǎng)站內容質(zhì)量:網(wǎng)站內容原創(chuàng )多、質(zhì)量高、能解決用戶(hù)問(wèn)題的,百度會(huì )提高抓取頻次。
4、導入鏈接:鏈接是頁(yè)面的入口,高質(zhì)量的鏈接可以更好的引導百度蜘蛛進(jìn)入和爬取。
5、頁(yè)面深度:頁(yè)面在首頁(yè)是否有入口,在首頁(yè)有入口能更好的被抓取和收錄。
6、抓取頻次決定著(zhù)網(wǎng)站有多少頁(yè)面會(huì )被建庫收錄,這么重要的內容站長(cháng)該去哪里進(jìn)行了解和修改,可以到百度站長(cháng)平臺抓取頻次功能進(jìn)行了解,
四、什么情況下會(huì )造成百度蜘蛛抓取失敗等異常情況
有一些網(wǎng)站的網(wǎng)頁(yè)內容優(yōu)質(zhì)、用戶(hù)訪(fǎng)問(wèn)正常,但是百度蜘蛛無(wú)法抓取,不但會(huì )損失流量和用戶(hù)還會(huì )被百度認為網(wǎng)站不友好,造成網(wǎng)站降權、評分下降、導入網(wǎng)站流量減少等問(wèn)題。
在這里簡(jiǎn)單介紹一下造成百度蜘蛛抓取一場(chǎng)的原因:
1、服務(wù)器連接異常:出現異常有兩種情況,一是網(wǎng)站不穩定,造成百度蜘蛛無(wú)法抓取,二是百度蜘蛛一直無(wú)法連接到服務(wù)器,這時(shí)候您就要仔細檢查了。
2、網(wǎng)絡(luò )運營(yíng)商異常:目前國內網(wǎng)絡(luò )運營(yíng)商分電信和聯(lián)通,如果百度蜘蛛通過(guò)其中一種無(wú)法訪(fǎng)問(wèn)您的網(wǎng)站,還是趕快聯(lián)系網(wǎng)絡(luò )運營(yíng)商解決問(wèn)題吧。
3、無(wú)法解析IP造成dns異常:當百度蜘蛛無(wú)法解析您網(wǎng)站IP時(shí)就會(huì )出現dns異常,可以使用WHOIS查詢(xún)自己網(wǎng)站IP是否能被解析,如果不能需要聯(lián)系域名注冊商解決。
4、IP封禁:IP封禁就是限制該IP,只有在特定情況下才會(huì )進(jìn)行此操作,所以如果希望網(wǎng)站百度蜘蛛正常訪(fǎng)問(wèn)您的網(wǎng)站最好不要進(jìn)行此操作。
5、死鏈:表示頁(yè)面無(wú)效,無(wú)法提供有效的信息,這個(gè)時(shí)候可以通過(guò)百度站長(cháng)平臺提交死鏈。
通過(guò)以上信息可以大概了解百度蜘蛛爬去原理,收錄是網(wǎng)站流量的保證,而百度蜘蛛抓取則是收錄的保證,所以網(wǎng)站只有符合百度蜘蛛的爬去規則才能獲得更好的排名、流量。