見心與您談心

去我執‧順佛心‧息緣慮‧隨份行

禁止搜尋引擎收錄學校網頁的方法

  1. 所需檔案:以記事本建立,檔名為robots.txt之文字檔即可。

當貴校網站包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt文字檔。沒有建立robots.txt文字檔或者建立一個內容為空的robots.txt文字檔,搜尋引擎將收錄網站上所有內容。

以下為robots.txt範例:左邊欄位為範例說明,右邊欄位為在文字檔內所需填寫的文字

範例說明(例:http://www.abc.tyc.edu.tw)

robots.txt文字檔內容
例1. 禁止所有搜尋引擎訪問貴校網站的任何部分 User-agent: *
Disallow: /
例2. 允許所有的robot訪問 文字檔內容空白即可
例3. 僅禁止特定搜尋引擎(例baiduspider)訪問貴校網站 User-agent:baiduspider
Disallow: /
例4. 僅允許特定搜尋引擎(例baiduspider)訪問貴校網站 User-agent: baiduspider
Disallow:

User-agent: *
Disallow: /
例5.禁止spider訪問特定目錄  貴校網站若有三個目錄禁止被搜尋,則每個目錄必須分開聲明,而不能寫成』Disallow: /cgi-bin/ /tmp/』。 User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允許訪問特定目錄中的部分url (該目錄下see開頭將允許搜尋引擎搜尋)http://www.abc.tyc.edu.tw/cgi-bin/seea.htm   (可被搜尋)

http://www.abc.tyc.edu.tw/cgi-bin/index.htm (不可被搜尋)

User-agent: *
Allow: /cgi-bin/see
Disallow: /cgi-bin/
例7. 使用』*』限制訪問url   禁止訪問/cgi-bin/目錄下的所有以』.htm』為結尾的URL (包含子目錄)。

http://www.abc.tyc.edu.tw/cgi-bin/index.htm (不可被搜尋)

http://www.abc.tyc.edu.tw/cgi-bin/a/a.htm   (不可被搜尋)

http://www.abc.tyc.edu.tw/cgi-bin/index.asp   (可被搜尋)

User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用』$』限制訪問url   僅允許訪問以』.htm』為結尾的URL。

http://www.abc.tyc.edu.tw/index.htm   (可被搜尋)

http://www.abc.tyc.edu.tw/index.asp   (不可被搜尋)

User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止訪問網站中所有的動態頁面 User-agent: *
Disallow: /*?*
  1. robots.txt放置位置:貴校欲禁止搜尋的網站底下的根目錄
網站 URL(例:學校網域名稱為abc) 相對應存放robots.txt的 URL位置
http://www.abc.tyc.edu.tw/ http://www.abc.tyc.edu.tw/robots.txt
http://www.abc.tyc.edu.tw:80/ http://www.abc.tyc.edu.tw:80/robots.txt
http://www.abc.tyc.edu.tw:1234/ http://www.abc.tyc.edu.tw:1234/robots.txt
http://abc.tyc.edu.tw/ http://www.abc.tyc.edu.tw/robots.txt
  1. robots.txt放置後生效時間:各搜尋引擎時間不同。(例:百度搜尋為兩週)

若禁止收錄檔案為已被搜尋並收錄之舊資料,依各搜尋引擎判斷robots.txt時間不同,從搜尋結果中移除所需時間也不同,可能需數月的時間。

  1. robots.txt放置後,會再出現在搜尋結果中的原因。(以百度搜尋為例)

  如果其他網站連結了貴校在robots.txt文件中設定禁止收錄的網頁,那麼這些網頁仍然可能會出現在搜尋結果中,但網頁上的內容不會被抓取、建入索引和顯示,搜尋結果中展示的僅是其他網站對貴校相關網頁的描述。

  1. 以下為robots.txt範例,將內容存成robots.txt文字檔即可:

===================以下為robots.txt文字檔內容==========================

#此行為註記,以下為指定對象為全部搜尋引擎,並依序判定允許或禁止搜尋

User-agent: *

#此行為註記,以下為允許搜尋並收錄在/cgi-bin/下see開頭的檔案
Allow: /cgi-bin/see

#此行為註記,以下為禁止搜尋並收錄在/cgi-bin/下的檔案
Disallow: /cgi-bin/

#此行為註記,若沒此行結尾,則除了以上所禁止檔案外,其他所有目錄及所有檔案將被允許搜尋

Disallow: / 

====================robots.txt內容結束=================================

留下您對於本篇文章的看法