Zi 字媒體
2017-07-25T20:27:27+00:00
有時候有一些網頁不希望被搜尋引擎與爬衝進行索引,像是後台管理入口、訂單資訊等等不希望被索引的頁面。其實可以透過 HTML 中繼標籤來告知搜尋引擎爬蟲不要進行索引。當然如果可以,直接擋下權限是必要的手段,如果有一些不方便或業務邏輯上無法透過登入權限進行阻擋,那麼可以參考以下幾種方法:
第一招、透過 robots.txt 標記
可以在網頁根目錄底下加上 robots.txt 檔案,裡面包含以下設定:
disallow: /admin
如上述表示 /admin 目錄底下的資料都不進行索引,詳細的 robots.txt 規範可以參考這份文件。
第二招、透過 HTML 中繼標籤
如要防止「大部分的搜尋引擎網路檢索器」建立網站網頁的索引,也可以在網頁的 區段放置下列中繼標記,簡單的範例如下:
1
2
3
4
5
name="robots" content="noindex, nofollow">
...
Google 爬蟲自己有專用的 Meta Tag,如下:
1
2
3
4
5
name="googlebot" content="noindex, nofollow">
...
第三招、加入禁止索引的 HTTP Response Header
這一招就需要後台程式支援了,也可以透過 HTTP Server 直接送出這個 Header。如下:
X-Robots-Tag: noindex
如果是 PHP 就用以下方法送出 Header:
1
2
3
寫了
5860316篇文章,獲得
23313次喜歡