search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

個人微信公眾號如何開通原創和讚賞功能?

爬行是什麼

爬行指的是搜索引擎蜘蛛從已知頁面上解析出鏈接指向的URL,然後沿著鏈接發現新頁面(也就是鏈接指向的URL)的過程。當然,蜘蛛並不是發現新URL馬上就爬過去抓取新頁面,而是把發現的URL存放到待抓地址庫中,蜘蛛按照一定順序從地址庫中提取要抓取的URL。

抓取是什麼

抓取是搜索引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個URL,把讀取的HTML代碼存入資料庫。蜘蛛的抓取就是像瀏覽器一樣打開這個頁面,和用戶瀏覽器訪問一樣,也會在伺服器原始日誌中留下記錄。

索引是什麼

索引指的是將一個URL的信息進行整理,存入資料庫,也就是索引庫,用戶搜索時,搜索引擎從索引庫中提取URL信息並排序展現出來。索引的英文是index。索引庫是用於搜索的,所以被索引的URL是可以被用戶搜索到的,沒有被索引的URL用戶在搜索結果中是看不到的。

抓取和索引不是一回事。

收錄是什麼

收錄和索引沒有太大的區別。收錄和索引是包含的關係,先收錄才可以建索引,收錄量大於索引量。只不過收錄是從搜索用戶角度看的,搜索時能找到這個URL,就是這個URL被收錄了。從搜索引擎角度看,URL被收錄了,也就是這個URL的信息在索引庫中存在。英文並沒有收錄這個詞,和索引用的是同一個詞index。

noindex的作用是什麼

頁面頭信息中放上meta noindex標籤是告訴搜索引擎不要索引這個URL,也就是用戶搜索時找不到這個URL的信息,這個URL不會返回在搜索結果列表中。

robots文件的作用是什麼

robots文件是告訴搜索引擎,某些URL不要抓取。

nofollow的作用是什麼

給鏈接加上nofollow屬性是告訴搜索引擎,不要沿著這個鏈接爬行,就當這個鏈接不存在。

沒有被抓取的頁面是可以被索引的

也就是說,蜘蛛沒有訪問和抓取這個頁面(比如被robots文件禁止抓取),這個頁面卻有信息存在索引庫中,用戶搜索時還能看到。

比如,淘寶整個網站用robots文件禁止百度蜘蛛抓取,但沒有用noindex禁止索引(如上面說的,禁止抓取后,就沒辦法禁止索引了,不抓取,就看不到noindex標籤了),所以即使百度沒有訪問和抓取淘寶頁面,但淘寶很多頁面是被百度索引的,用戶可以搜到的:

被抓取的頁面是可以不被索引的

最常見的就是上面說過的,頁面頭信息使用noindex禁止索引,頁面被抓取,讀到noindex后,不被索引,不會在搜索結果中返回。

還有可能是因為頁面內容是抄襲、轉載、低質量的,搜索引擎雖然抓取了頁面,索引過程中檢測出這些內容問題,被丟棄,沒有被索引。

加了nofollow的鏈接目標頁面可以被抓取和索引

nofollow的作用是告訴蜘蛛不要跟著這個鏈接爬,就當這個鏈接不存在,但nofollow只對這個鏈接起作用,對別的鏈接沒作用,這個鏈接加了nofollow,不意味著別的地方就沒有正常的指向這個URL的鏈接,只要別的地方出現了沒加nofollow的鏈接,目標URL還是會被發現、抓取、索引。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦