許多在給網(wǎng)站做seo的站長都會遇到這樣一個問題,就是動態(tài)的網(wǎng)站似乎不太受搜索引擎蜘蛛的歡迎,因此許多站長都會選擇做成靜態(tài)生成的網(wǎng)站。但靜態(tài)生成的網(wǎng)站在日常的維護和更新上,總是多多少少有點不方便。因此,究竟有沒有什么方法,能提高搜索引擎蜘蛛對動態(tài)網(wǎng)站的抓取頻率呢?答案是有的,那就是好好利用robots文件!今天就跟隨深圳市星翼創(chuàng)想網(wǎng)絡(luò)科技有限公司一起來閱讀以下這篇文章,學(xué)習(xí)一下如何利用robots文件來提高蜘蛛對動態(tài)網(wǎng)站的抓取頻率吧!相信看完之后,你會忍不住立即就動手操作的!
動態(tài)網(wǎng)站并不值得擔(dān)心,搜索引擎可以正常抓取動態(tài)鏈接,但利用robots文件可以輕松提高動態(tài)網(wǎng)站的抓取效率。我們都知道,robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協(xié)議的本質(zhì)是網(wǎng)站和搜索引擎爬蟲的溝通方式,用來指導(dǎo)搜索引擎更好地抓取網(wǎng)站內(nèi)容。
百度官方是推薦所有的網(wǎng)站都使用robots文件,以便更好地利用蜘蛛的抓取。其實robots不僅僅是告訴搜索引擎哪些不能抓取,更是網(wǎng)站優(yōu)化的重要工具之一。
robots文件實際上就是一個txt文件。其基本的寫法如下:
User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網(wǎng)站中所有的動態(tài)頁面
Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件?!?/p>
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL?!?/p>
Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
在網(wǎng)站優(yōu)化方面,利用robots文件告訴搜索引擎哪些是重要的內(nèi)容,不重要的內(nèi)容均推薦用robots文件來禁止抓取。不重要的內(nèi)容的典型代表:網(wǎng)站的搜索結(jié)果頁面。
對于靜態(tài)網(wǎng)站來說,我們可以利用Disallow: /*?*來禁止動態(tài)頁面抓取。但對于動態(tài)網(wǎng)站來說,就不能簡單地這樣做了。不過對于動態(tài)網(wǎng)站的站長來說,也無需過于擔(dān)心,搜索引擎現(xiàn)在可以正常地抓取動態(tài)頁面。那么在寫的時候,就要注意了,我們可以具體到搜索文件的名稱來寫。比如你的站是search.asp?后面一大串,那么可以這樣寫:
Disallow: /search.asp?*
這樣就可以屏蔽搜索結(jié)果頁面了,寫好了可以到百度站長平臺檢測robots一下,看看有沒有錯誤!可以輸入網(wǎng)址檢測一下,是不是正常生效了。
在這里建議動態(tài)網(wǎng)站的站長,一定要用robots文件屏蔽不重要的內(nèi)容動態(tài)鏈接,提高蜘蛛的抓取效率!
文章轉(zhuǎn)載請保留網(wǎng)址:http://waterplane.cn/news/solutions/1516.html