Zi 字媒體

2017-07-25T20:27:27+00:00

爬行是什麼爬行指的是搜索引擎蜘蛛從已知頁面上解析出鏈接指向的URL，然後沿著鏈接發現新頁面（也就是鏈接指向的URL）的過程。當然，蜘蛛並不是發現新URL馬上就爬過去抓取新頁面，而是把發現的URL存放到待抓地址庫中，蜘蛛按照一定順序從地址庫中提取要抓取的URL。抓取是什麼抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL，訪問這個URL，把讀取的HTML代碼存入資料庫。蜘蛛的抓取就是像瀏覽器一樣打開這個頁面，和用戶瀏覽器訪問一樣，也會在伺服器原始日誌中留下記錄。索引是什麼索引指的是將一個URL的信息進行整理，存入資料庫，也就是索引庫，用戶搜索時，搜索引擎從索引庫中提取URL信息並排序展現出來。索引的英文是index。索引庫是用於搜索的，所以被索引的URL是可以被用戶搜索到的，沒有被索引的URL用戶在搜索結果中是看不到的。抓取和索引不是一回事。收錄是什麼收錄和索引沒有太大的區別。收錄和索引是包含的關係，先收錄才可以建索引，收錄量大於索引量。只不過收錄是從搜索用戶角度看的，搜索時能找到這個URL，就是這個URL被收錄了。從搜索引擎角度看，URL被收錄了，也就是這個URL的信息在索引庫中存在。英文並沒有收錄這個詞，和索引用的是同一個詞index。noindex的作用是什麼頁面頭信息中放上meta noindex標籤是告訴搜索引擎不要索引這個URL，也就是用戶搜索時找不到這個URL的信息，這個URL不會返回在搜索結果列表中。robots文件的作用是什麼robots文件是告訴搜索引擎，某些URL不要抓取。nofollow的作用是什麼給鏈接加上nofollow屬性是告訴搜索引擎，不要沿著這個鏈接爬行，就當這個鏈接不存在。沒有被抓取的頁面是可以被索引的也就是說，蜘蛛沒有訪問和抓取這個頁面（比如被robots文件禁止抓取），這個頁面卻有信息存在索引庫中，用戶搜索時還能看到。比如，淘寶整個網站用robots文件禁止百度蜘蛛抓取，但沒有用noindex禁止索引（如上面說的，禁止抓取后，就沒辦法禁止索引了，不抓取，就看不到noindex標籤了），所以即使百度沒有訪問和抓取淘寶頁面，但淘寶很多頁面是被百度索引的，用戶可以搜到的：被抓取的頁面是可以不被索引的最常見的就是上面說過的，頁面頭信息使用noindex禁止索引，頁面被抓取，讀到noindex后，不被索引，不會在搜索結果中返回。還有可能是因為頁面內容是抄襲、轉載、低質量的，搜索引擎雖然抓取了頁面，索引過程中檢測出這些內容問題，被丟棄，沒有被索引。加了nofollow的鏈接目標頁面可以被抓取和索引nofollow的作用是告訴蜘蛛不要跟著這個鏈接爬，就當這個鏈接不存在，但nofollow只對這個鏈接起作用，對別的鏈接沒作用，這個鏈接加了nofollow，不意味著別的地方就沒有正常的指向這個URL的鏈接，只要別的地方出現了沒加nofollow的鏈接，目標URL還是會被發現、抓取、索引。

本文由yidianzixun提供原文連結

一點資訊

寫了 5860316篇文章，獲得 23313次喜歡

精彩推薦

推薦搜尋

Zi 字媒體

查看更多推薦