1樓:匿名使用者
disallow: 後面就是跟的你禁止蜘蛛抓取的目錄或檔案 如果全部允許就寫/
2樓:聚名
robots 是站點與 spider 溝通的重要渠道,站點通過 robots 檔案宣告該**中不想被搜尋引擎收錄的部分或者指定搜尋引擎只收錄特定的部分。請注意,僅當您的**包含不希望被搜尋引擎收錄的內容時,才需要使用 robots.txt 檔案。
如果您希望搜尋引擎收錄**上所有內容,請勿建立 robots.txt 檔案。
robots 檔案往往放置於根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以 cr,cr/nl, or nl 作為結束符),每一條記錄的格式如下所示: :
在該檔案中可以使用#進行註解,具體使用方法和 unix 中的慣例一樣。該檔案中的記錄通常以一行或多行 user-agent 開始,後面加上若干 disallow 和 allow 行 , 詳細情況如下:
user-agent:該項的值用於描述搜尋引擎 robot 的名字。在 "robots.
txt" 檔案中,如果有多條- user-agent 記錄說明有多個 robot 會受到 "robots.txt" 的限制,對該檔案來說,至少要有一條 user-agent 記錄。如果該項的值設為 ,則對任何 robot 均有效,在 "robots.
txt" 檔案中,"user-agent:" 這樣的記錄只能有一條。如果在 "robots.
txt" 檔案中,加入 "user-agent:somebot" 和若干 disallow、allow 行,那麼名為 "somebot" 只受到 "user-agent:somebot" 後面的 disallow 和 allow 行的限制。
disallow:該項的值用於描述不希望被訪問的一組 url,這個值可以是一條完整的路徑,也可以是路徑的非空字首,以 disallow 項的值開頭的 url 不會被 robot 訪問。例如 "disallow:
/help" 禁止 robot 訪問 /help.html、/helpabc.html、/help/index.
html,而 "disallow:/help/" 則允許 robot 訪問 /help.html、/helpabc.
html,不能訪問 /help/index.html。"disallow:
" 說明允許 robot 訪問該**的所有 url,在 "/robots.txt" 檔案中,至少要有一條 disallow 記錄。如果 "/robots.
txt" 不存在或者為空檔案,則對於所有的搜尋引擎 robot,該**都是開放的。
allow:該項的值用於描述希望被訪問的一組 url,與 disallow 項相似,這個值可以是一條完整的路徑,也可以是路徑的字首,以 allow 項的值開頭的 url 是允許 robot 訪問的。例如 "allow:
/hibaidu" 允許 robot 訪問 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.
html。一個**的所有 url 預設是 allow 的,所以 allow 通常與 disallow 搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有 url 的功能。
使用 "*"and"$":baiduspider 支援使用萬用字元 "" 和 "$" 來模糊匹配 url。 "" 匹配 0 或多個任意字元 "$" 匹配行結束符。
robots.txt怎麼寫?robots.txt怎麼設定
3樓:賁德桑詞
robots.txt的使用方法和詳細解釋
robots.txt對於大多數有**優化經驗抄的朋友來說並不算太陌生,用過的朋友肯定會有感受,設定好robots.txt對**優化來說利遠遠大於弊。
今天彭宇誠就與大家分享一下robots.txt的使用方法襲,希望對大家有所幫助。
我們先來認識一下什麼是robots.txt?
我理解的是robots.txt是通過**控制搜尋引擎蜘蛛索引的一個手段,百以便減輕**伺服器的頻寬使用率,從而讓**的空間更穩定,同時也可以提高**其他頁面的索引效率,提高**收錄。
下面我們再來熟悉一下怎樣使度用robots.txt?
首先,我們需要建立一個robots.txt文字檔案,然後在文件內設定好**,告訴搜尋引擎我**的哪些檔案你不能知訪問。然後上傳到**根目錄下面,因為當搜尋引擎蜘蛛在索引一個**時,會先爬行檢視**根目錄下是否有robots.
txt檔案。
robots.txt檔案內的**書寫規範我們也要注意,其中user-agent:*是必須存在的,表示對所有搜尋引擎蜘蛛有效。道disallow:是說明不允許索引哪些資料夾
一個新**,怎麼寫robots協議
4樓:天偉網路公司
user-agent: * 這裡的*代表copy的所有的搜尋引擎種類,bai*是一個通du配符
disallow: /admin/ 這裡定義是禁止爬尋
zhiadmin目錄dao下面的目錄
disallow: /require/ 這裡定義是禁止爬尋require目錄下面的目錄
disallow: /abc 這裡定義是禁止爬尋abc整個目錄
disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為字尾的url(包含子目錄)。
disallow: /*?* 禁止訪問**中所有的動態頁面
disallow: .jpg$ 禁止抓取網頁所有的.jpg格式的**
disallow:/ab/adc.html 禁止爬去ab資料夾下面的adc.html所有檔案
user-agent: * 這裡的*代表的所有的搜尋引擎種類,*是一個萬用字元
allow: /cgi-bin/ 這裡定義是允許爬尋cgi-bin目錄下面的目錄
allow: /tmp 這裡定義是允許爬尋tmp的整個目錄
allow: .htm$ 僅允許訪問以".htm"為字尾的url。
allow: .gif$ 允許抓取網頁和gif格式**robots.txt檔案用法舉例
鏈結a標籤如何呼叫php寫的函式
不用ajax也行。如 刪除單條記錄刪除。用js才用onclick 按你寫的應該用url傳值。刪除全部刪除。在頁面寫刪除語句,先接收上面傳過來的條件 action gte action 的值來選擇執行刪除還是刪除全部。if action delete mysql query sql if id 刪除。...
nofollow標籤怎麼應用?
按照這個樣子加,加了nofollow可以抓取該位址,但是不會傳遞權重,針對的投票機制來說,該站對此鏈結不是一條信任的票,也就不會傳遞給該鏈結權重啦。nofollow是不傳遞權重,是設定指定頁面是否被抓取。一般引用站外資訊,又不想權重被傳遞出去時會用到nofollow這一標籤。這答案完全就是不對的,為...
關於用JS字串寫HTML標籤的問題
網海1書生 alert彈出的是系統對話方塊 意思就是說,這個對話方塊是瀏覽器呼叫window系統的,不是瀏覽器自己生成的對話方塊 它不支援html標籤,只能顯示字串,你甚至連它的字型和顏色都沒法改變,更別說玩其他花樣了! 1.首先 alert 函式 的引數 只能是字串!所以 你只可以 alert 2...