在優(yōu)化網(wǎng)站過程中,有一些場(chǎng)景中,我們是不想讓蜘蛛來抓取網(wǎng)站內(nèi)容的,比如:網(wǎng)站中重要及私密的內(nèi)容、后臺(tái)的數(shù)據(jù)、測(cè)試階段的網(wǎng)站,這些都是我們不想展示給用戶看的,所以就沒必要讓這些內(nèi)容收錄,就需要禁止蜘蛛抓取。網(wǎng)站建設(shè)★網(wǎng)站設(shè)計(jì)★網(wǎng)站制作★網(wǎng)頁設(shè)計(jì)-599元全包;企業(yè)網(wǎng)絡(luò)推廣☆網(wǎng)站優(yōu)化☆seo☆關(guān)鍵詞排名☆百度快照-2200元全年展示;做網(wǎng)站優(yōu)化排名-網(wǎng)站建設(shè)公司
另外還有一種情況,很多電子商務(wù)的網(wǎng)站,有很多通過條件去篩選、過濾的頁面,這些頁面通常沒有什么意義,我們也不希望浪費(fèi)蜘蛛的抓取份額,所以也要禁止蜘蛛的抓取。
如何禁止蜘蛛抓取特定的頁面呢?
robots(蜘蛛?yún)f(xié)議)是其中一種方式,也是最常用的一種。
robots是一個(gè)純文本文件,用于聲明該網(wǎng)站中不想被蜘蛛訪問的部分,或者指定蜘蛛抓取的部分。
當(dāng)蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)是否存在robots.txt 文件,如果找到,蜘蛛就會(huì)按照該文件中的內(nèi)容來確定抓取的范圍;如果該文件不存在,那么蜘蛛就會(huì)沿著鏈接直接抓取。
即,只有在需要禁止抓取某些內(nèi)容時(shí),寫robots.txt才有意義。
robots.txt 文件放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫,正確的寫法是robots.txt。
要查看某網(wǎng)站的robots.txt文件,在瀏覽器中輸入的網(wǎng)址:
http://robots.txt
其中是要查詢網(wǎng)站的域名。
一、robots.txt的語法
robots.txt文件的常用語法有3種,分別是User-agent、Allow、Disallow,下面講解3種語法的具體用法。
(1) User-agent
指定robots.txt 中的規(guī)則針對(duì)哪個(gè)搜索引擎蜘蛛(每種搜索引擎的蜘蛛都不一樣)。
針對(duì)所有搜索引擎蜘蛛的寫法是User-agent:*,通配符*代表所有搜索引擎。只適用于百度蜘蛛的正確寫法是User-agent:Baiduspider。不同的搜索引擎,其蜘蛛名稱也不相同。
不同搜索引擎的蜘蛛名
(2 )Allow
允許搜索引擎蜘蛛抓取某些文件。例如允許蜘蛛訪問網(wǎng)站中的/a/目錄,正確寫法是Allow: /a/。
$: 表示匹配URL結(jié)尾的字符。例如允許搜索引擎抓蜘蛛取以.htm為后綴的URL,寫法是Allow:.htm$。
(3) Disallow
告訴搜索引擎不要抓取某些文件或目錄。例如禁止蜘蛛抓取/admin/目錄的寫法是 Disallow:/admin/。
禁止的目錄或文件必須分開寫,每個(gè)一行,例如禁止所有的搜索引擎蜘蛛抓取/a/、/b/、/c/目錄,正確的寫法是:
User-agent:
Disallow:/a/
Disallow:/b/
Disallow:/c/
在網(wǎng)站優(yōu)化中,SEOer需要熟練掌握robots.txt的基本語法。下面分享一些常見的robots.txt語法使用案例,如圖所示。
二、robots.txt應(yīng)用
robots.txt 文件的一個(gè)用法是在robots.txt 文件中指定 sitemap 的位置。具體的用法是 sitemap:http://www.matuzi.cn/sitemap.xml,這樣就告訴搜索引擎蜘蛛這個(gè)頁面是網(wǎng)站地圖。
robots.txt 文件是搜索引擎蜘蛛進(jìn)入網(wǎng)站后訪問的第一個(gè)文件,在編寫時(shí)確實(shí)有很多需要注意的地方,如果日常使用中不注意語法的正確使用,有些語句可能就發(fā)揮不了應(yīng)有的作用,會(huì)影響搜索引擎蜘蛛對(duì)網(wǎng)站的訪問,因此要正確編寫。
對(duì)于SEOer來講,在優(yōu)化網(wǎng)站過程中,當(dāng)發(fā)現(xiàn)網(wǎng)站中有隱私文件需要屏蔽搜索引擎蜘蛛抓取時(shí),可以設(shè)置robots.txt 屏蔽搜索引擎蜘蛛抓取這些隱私文件。如果網(wǎng)站只是一般的企業(yè)展示網(wǎng)站,可以不添加robots.txt。
三、robots meta標(biāo)簽(更精準(zhǔn)的禁止蜘蛛抓?。?/p>
如果搜索引擎已經(jīng)收錄網(wǎng)頁,而這個(gè)網(wǎng)頁是我們不想讓搜索引擎收錄的,robots.txt 文件解決不了這個(gè)問題,而robots meta標(biāo)簽卻可以解決。
robots.txt 文件主要是限制整個(gè)站點(diǎn)或者目錄的蜘蛛訪問情況,而robots meta標(biāo)簽則主要是針對(duì)某個(gè)具體的頁面。robots meta標(biāo)簽放在頁面中,專門用來告訴搜索引擎蜘蛛如何抓取該頁的內(nèi)容。
robots meta標(biāo)簽的基本寫法是:
<meta name="robots" content="index.folow>
其中有幾項(xiàng)需要特別注意的內(nèi)容。
(1)在robots meta 標(biāo)簽中,name="robots"表示所有的搜索引擎,也可以針對(duì)某個(gè)具體的搜索引擎,如針對(duì)百度搜索引擎可以寫為name="Baiduspider"。
(2)content部分有4個(gè)指令選項(xiàng),以英文逗號(hào)“,”隔開,分別是:index、follow、noindex、nofollow。
● index指令告訴搜索引擎蜘蛛可以抓取該頁面。
● noindex指令與index指令相反,表示搜索引擎蜘蛛不可以抓取該頁面。
● follow 指令表示搜索引擎蜘蛛可以爬行該頁面上的鏈接。
● nofolow指令與follow指令相反,表示搜索引擎蜘蛛不可以爬行該頁面上的其他鏈接。
綜上所述,robots meta標(biāo)簽有以下4種組合:
<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">
當(dāng)robots meta 標(biāo)簽的content值為"index,follow"時(shí),表示該頁面可以被抓取,該頁面上的鏈接也可以被繼續(xù)爬行下去,robots meta標(biāo)簽可以簡(jiǎn)寫為:
meta name="robots" content="all"
當(dāng)robots meta標(biāo)簽的content值為”noindex,nofolow"時(shí),表示該頁面不可以被抓取,該頁面上的鏈接也不可以被繼續(xù)爬行,robots meta標(biāo)簽可以簡(jiǎn)寫為:
meta name="robots" content="none"
robots meta標(biāo)簽是限制某個(gè)具體頁面的蜘蛛訪問情況,因此當(dāng)發(fā)現(xiàn)網(wǎng)站中某個(gè)頁面需要屏蔽蜘蛛抓取時(shí),可以在該頁面的源代碼中添加robots meta標(biāo)簽,robots meta標(biāo)簽添加在頁面的<head></head>之間。
當(dāng)然,有時(shí)候即使設(shè)置了禁止抓取的協(xié)議也是沒用的,有些搜索引擎就是死皮賴臉要來抓取你,不遵循這些協(xié)議,這種情況比較少,遇到的概率也很低,所以現(xiàn)在不必要考慮這種情況。
猜你喜歡
聯(lián)絡(luò)方式:
電話:181-0734-0881
郵箱:1713521713@qq.com
-
網(wǎng)站建設(shè)要花多少錢?做一個(gè)網(wǎng)站要多少錢?
網(wǎng)站建設(shè)要花多少錢?傳統(tǒng)的網(wǎng)站建設(shè)模式下,門檻太高,不是每個(gè)人都能做到的。很多企業(yè)對(duì)市場(chǎng)不了解,到外面找人建站很容易吃虧。實(shí)際上只要掌握了一些基本知識(shí),就會(huì)知道建網(wǎng)站建設(shè)...
-
百度驚雷算法首推,快排行業(yè)將退出SEO江湖
近幾年,百度在保障用戶體驗(yàn)提升內(nèi)容生態(tài)良性發(fā)展方面下了很多功夫,從打擊外鏈、采集、站群、頁面友好度等方面都經(jīng)過了多次的算法調(diào)整,例如:青藤算法、綠蘿算法、颶風(fēng)算法、清風(fēng)...
-
線上營(yíng)銷線下消費(fèi) 小程序開啟流量爭(zhēng)奪戰(zhàn)
不知不覺,小程序也已上線一周年了,小程序的出現(xiàn)為創(chuàng)業(yè)者們打開了一個(gè)新的程序入口,僅僅一年的時(shí)間,小程序已經(jīng)涵蓋了衣食住行各個(gè)方面。甚至支付寶、美團(tuán)、滴滴、京東,還有三大運(yùn)...
-
什么是抖音搜索SEO排名優(yōu)化?
2021年11月22日,抖音日活躍用戶超過6億,這意味著每天有一半的中國(guó)網(wǎng)民使用抖音。抖音電子商務(wù)剛剛獨(dú)立,在品牌商店廣播方面做出了全面努力。許多企業(yè)和機(jī)構(gòu)認(rèn)為,2022年將是抖店...
-
網(wǎng)站如何選擇合適的關(guān)鍵詞
對(duì)于網(wǎng)站SEO,選好關(guān)鍵詞是搜索引擎營(yíng)銷至關(guān)重要的一步,選對(duì)關(guān)鍵詞能讓網(wǎng)站權(quán)重快速提高,今天我就教大家如何選擇網(wǎng)站SEO關(guān)鍵詞。...