1樓:手機使用者
搜尋引擎爬去我們頁面的工具叫做搜尋引擎機器人,也生動的叫做“蜘蛛”
蜘蛛在爬去**頁面之前,會先去訪問**根目錄下面的一個檔案,就是robots.txt。這個檔案其實就是給“蜘蛛”的規則,如果沒有這個檔案,蜘蛛會認為你的**同意全部抓取網頁。
robots.txr檔案是一個純文字檔案,可以告訴蜘蛛哪些頁面可以爬取(收錄),哪些頁面不能爬取。
舉個例子:建立一個名為robots.txt的文字檔案,然後輸入
user-agent: * 星號說明允許所有搜尋引擎收錄
disallow: index.php? 表示不允許收錄以index.php?字首的連結,比如index.php?=865
disallow: /tmp/ 表示不允許收錄根目錄下的tmp目錄,包括目錄下的檔案,比如tmp/232.html
2樓:匿名使用者
robots.txt基本介紹
robots.txt是一個純文字檔案,在這個檔案中**管理者可以宣告該**中不想被robots訪問的部分,或者指定搜尋引擎只收錄指定的內容。
當一個搜尋機器人(有的叫搜尋蜘蛛)訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機器人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,那麼搜尋機器人就沿著連結抓取。
另外,robots.txt必須放置在一個站點的根目錄下,而且檔名必須全部小寫。
robots.txt 允許收錄**所有頁面 怎麼寫 20
3樓:
什麼是robots.txt?
搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問一個**時,會首先會檢查該**的根域下是否有一個叫做robots.txt的純文字檔案。
您可以在您的**中建立一個純文字檔案robots.txt,在檔案中宣告該**中不想被robot訪問的部分或者指定搜尋引擎只收錄特定的部分。
請注意,僅當您的**包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt檔案。如果您希望搜尋引擎收錄**上所有內容,請勿建立robots.
txt檔案或者建立一個內容為空的robots.txt檔案。
robots.txt 放置位置
robots.txt檔案應該放置在**根目錄下。舉例來說,當spider訪問一個**(比如http:
//www.180186.com)時,首先會檢查該**中是否存在http:
txt這個檔案,如果 spider找到這個檔案,它就會根據這個檔案的內容,來確定它訪問許可權的範圍。
robots.txt 格式
檔案包含一條或更多的記錄,這些記錄通過空行分開(以cr,cr/nl, or nl作為結束符),每一條記錄的格式如下所示:”:”。
在該檔案中可以使用#進行註解。該檔案中的記錄通常以一行或多行user-agent開始,後面加上若干disallow和allow行,詳細情況如下。
user-agent:
該項的值用於描述搜尋引擎robot的名字。在”robots.txt”檔案中,如果有多條user-agent記錄說明有多個robot會受到”robots.
txt”的限制,對該檔案來說,至少要有一條user-agent記錄。 如果該項的值設為*,則對任何robot均有效,在”robots.txt”檔案中,”user-agent:
*”這樣的記錄只能有一條。如果在”robots.txt”檔案中,加入”user- agent:
somebot”和若干disallow、allow行,那麼名為”somebot”只受到”user-agent:somebot”後面的 disallow和allow行的限制。 disallow:
該項的值用於描述不希望被訪問的一組url,這個值可以是一條完整的路徑,也可以是路徑的非空字首,以disallow項的值開頭的url不會被robot訪問。例 如”disallow: /help”禁止robot訪問/help*.
html、/help/index.html, 而”disallow: /help/”則允許robot訪問/help*.
html,不能訪問/help/index.html。
"disallow:"說明允許robot訪問該**的所有url,在”/robots.txt”檔案中,至少要有一條disallow記錄。
如果”/robots.txt”不存在或者為空檔案,則對於所有的搜尋引擎robot,該**都是開放的。
allow:
該項的值用於描述希望被訪問的一組url,與disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的字首,以allow項的值開頭的url是允許robot訪問的。例如”allow:/hibaidu”允許robot訪問/hibaidu.
一個**的所有url預設是allow的,所以allow通常與disallow搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有url的功能。
需要特別注意的是disallow與allow行的順序是有意義的,robot會根據第一個匹配成功的 allow或disallow行確定是否訪問某個url。
使用”*”和”$”: baiduspider 支援使用萬用字元”*”和”$”來模糊匹配url。 “$” 匹配行結束符。 “*” 匹配0或多個任意字元。
robots.txt檔案用法舉例:
1. 允許所有的robot訪問
user-agent: * allow: / 或者 user-agent: * disallow:
2. 禁止所有搜尋引擎訪問**的任何部分
user-agent: *
disallow: /
3. 僅禁止baiduspider訪問您的**
4. 僅允許baiduspider訪問您的**
5. 禁止spider訪問特定目錄
user-agent: *
disallow: /cgi-bin/
disallow: /tmp/
disallow: /~joe/
6. 允許訪問特定目錄中的部分url
user-agent: *
allow: /cgi-bin/see
allow: /tmp/hi
allow: /~joe/look
disallow: /cgi-bin/
disallow: /tmp/
disallow: /~joe/
7. 使用”*”限制訪問url
禁止訪問/cgi-bin/目錄下的所有以”.htm”為字尾的url(包含子目錄)。
user-agent: *
disallow: /cgi-bin/*.htm
8. 使用”$”限制訪問url
僅允許訪問以”.htm”為字尾的url。
user-agent: *
allow: .htm$
disallow: /
例9. 禁止訪問**中所有的動態頁面
user-agent: *
disallow: /*?*
僅允許抓取網頁,禁止抓取任何**。
11. 僅允許baiduspider抓取網頁和.gif格式**
允許抓取網頁和gif格式**,不允許抓取其他格式**
12. 僅禁止baiduspider抓取.jpg格式**
還有其他不懂,可以看看我寫的方案,應該對你有啟發
4樓:三源茶行
user-agent: *
disallow:
allow: /
怎麼把robots.txt檔案放在**根目錄下?**根目錄是什麼?在哪個位置?能詳細一些嗎
5樓:李明傑
你通過ftp連線你**的空間,這個空間一般就是**的根目錄;
通過ftp直接將robots.txt上傳到空間就行;
**根目錄可以簡單理解為可以放置子目錄或者說資料夾的地方。
6樓:匿名使用者
ftp登陸**後,一般會有資料夾www,進入www資料夾(這才是**的根目錄,**中可以訪問的程式檔案都要放在這個資料夾內),上傳robots.txt到www資料夾內。為了形象說明,見附圖:
7樓:萌起來
**根目錄copy,可以這樣理解:比如你的c盤裡有一個資料夾叫img,img資料夾中有一個123.txt,
c:/ -> img資料夾 -> 123.txt那麼c:盤就是根目錄,img則算是一個子目錄。
**的道理也是一樣,一般來說,
當用ftp連線到**的空間時,直接開啟的就是**的根目錄。
robots.txt必須放在**根目錄中才是有效的,放在子目錄中是無效的。
比如http://www.xiuzheng.net/robots.txt
是正確的。
藍芽究竟是幹什麼用的?什麼是藍芽?它是幹什麼用的?
藍芽是一種低成本大容量的短距離無線通訊規範。藍芽膝上型電腦,就是具有藍芽無線通訊功能的膝上型電腦。藍芽這個名字還有一段傳奇故事呢。公元10世紀,北歐諸侯爭霸,丹麥國王挺身而出,在他的不懈努力下,血腥的戰爭被制止了,各方都坐到了談判桌前。通過溝通,諸侯們冰釋前嫌,成為朋友。由於丹麥國王酷愛吃藍梅,以至...
人究竟是自由自在想幹什麼就幹什麼還是要受一定的約束更為符合存在的本質呢
夏流煙 人是在不斷超越約束中達到更加自由自在的。約束之所以存在,有其存在的原因,有原因就可以解決問題。解決不了就區域性解決,區域性也解決不了就減少損失。約束是死的,人是活的。人之自由不在於上帝一般萬能,而是在不能之中達到能。 存在不是以自由與否為基礎的,所以你這個問題本身就有點矛盾在裡面。考察一下你...
請問義和團究竟是幹什麼的,義和團有什麼意義?
雨落雁歸 義和團運動 中國清末群眾性的反帝愛國運動。它是中日甲午戰爭後中國人民反瓜分 反侵略鬥爭的發展,又是長期以來遍及全國各地的反教會鬥爭的總爆發。義和團興起 簡單的說是一個農民自動組織的山東的愛國起義軍,曾豎起扶清滅洋的大旗,在帝國主義侵略我國時發揮了一定的作用,但是最後被慈禧太后下令剿滅,在中...