石家莊網(wǎng)站優(yōu)化/百度針對網(wǎng)站爬行原理探究
閱讀 ?·? 發(fā)布日期 2019-01-07 15:37 ?·? admin石家莊網(wǎng)站優(yōu)化/百度針對網(wǎng)站爬行原理探究,正常情況下網(wǎng)站上線后,百度通過對網(wǎng)站核查后就會對網(wǎng)站進行收錄,之后會根據(jù)網(wǎng)站的質(zhì)量對網(wǎng)站進行爬行評分,然后匹配排名。而如果網(wǎng)站的某些頁面或者針對某些搜索引擎的特殊要求不希望被其爬行收錄的話,我們也可使用robot文件等操作方式來屏蔽搜索引擎蜘蛛的爬行。那么,搜索引擎之于網(wǎng)站的爬行是依照什么原理來進行的呢?這就是今天筆者小丹和大家一起來探究的問題了。
robots.txt文件是為了告訴百度哪些頁面你可以爬行但是不可以留存快照,或者說你不可以爬行。而收錄快照則是百度需要對網(wǎng)站頁面進行評分,且用如果我們的網(wǎng)站打不開了,用戶也可以通過快照打開。正確的理解就是百度快照就是百度抓取網(wǎng)站頁面后,保存在自己數(shù)據(jù)庫中的我們的網(wǎng)站數(shù)據(jù)。為了減少百度資源浪費,抓取的快照有時候無法完全保存你的整個頁面,例如大圖和動態(tài)特效位置就無法保存。
百度爬行網(wǎng)站,更新的捏快照,其實并不百分百是爬行了網(wǎng)站頁面,也有可能是爬行了百度的數(shù)據(jù)庫快照索引,這樣可以增加百度爬行速度,減少百度蜘蛛資源浪費。那么不允許百度保存你的快照的作用就是每一次來人,每一次百度評分你的頁面,那么百度都必須去完全的分析你的頁面,而不是去分析你的百度數(shù)據(jù)庫保存的老頁面,這樣幫助你的網(wǎng)站頁面實時獲得最新的評分。告訴百度不允許爬行某個頁面的命令來源于robots文件,百度爬到這個文件的時候不會給這個頁面權(quán)重,但是如果百度從別的頁面進入這個網(wǎng)站這個頁面依然可以獲得權(quán)重。
同樣的,第二個可以達到屏蔽抓取的就是nofollow標簽,當我們在網(wǎng)站中任何位置給某一個鏈接添加了nofollow標簽屬性的時候,就是告訴百度這個鏈接將不會獲得我的網(wǎng)站的任何權(quán)重。如,首頁域名的帶www域名本身極少內(nèi)容頁和欄目頁,所有欄目做二級域名,首頁的外部指向鏈接做nofollow不給其權(quán)重而自己的二級域名不做nofollow則本身帶www頁面無欄目、無內(nèi)容、權(quán)重有限,就一個單獨的網(wǎng)站頁面,所有的二級域名網(wǎng)站整站傳遞權(quán)重給帶www的頁面,則帶www頁面只給部分二級域名站內(nèi)容頁和二級域名站首頁傳遞權(quán)重,這樣帶www的網(wǎng)站首頁依然獲得比傳出去多得多的權(quán)重,累計權(quán)重排名。
當然上面講到的操作方式適合大型網(wǎng)站站點的集權(quán)操作,而小型站點則不必。因為小型網(wǎng)站尤其是普通的企業(yè)站點欄目分類本來就很少,如果我們做成網(wǎng)站二級域名的形式則我們二級站點域名傳遞給主站的權(quán)重就會很少,這樣不但不能夠幫助主站提上權(quán)重排名,還會影響二級域名站點的獨立成長,得不償失。
為您推薦
- 襯塑管網(wǎng)站建設(shè)_網(wǎng)頁定制制作與開發(fā) 2020-01-12
- 保溫管網(wǎng)站建設(shè)_網(wǎng)頁定制制作與開發(fā) 2020-01-12
- 玻璃管網(wǎng)站建設(shè)_網(wǎng)頁定制制作與開發(fā) 2020-01-12
- 鍍鋅方矩管網(wǎng)站建設(shè)_網(wǎng)頁定制制作與 2020-01-12
- PVC管材網(wǎng)站建設(shè)_網(wǎng)頁定制制作與開發(fā) 2020-01-12