search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

乾貨 SEO網站優化,搜索引擎預處理規則

上篇文章我們大概介紹了搜索引擎工作原理,與我們關係最大的還是搜索引擎的預處理規則,他的規則是什麼呢?

搜索引擎工作原理—預處理

搜索引擎蜘蛛抓取的原始頁面,並不能直接用於查詢排名處理,搜索引擎資料庫中的頁面都在數萬億級別以上,用戶輸入搜索詞后,靠排名程序實習對這麼多頁面分析相關性,計算量太大,不可能在一兩秒內返回結果,所以必須對抓取來的頁面進行預處理,為最後的查詢排名做好準備。

搜索引擎預處理-九大規則

1、提取文字

2、中文分詞

3、去停止詞

4、去處噪音

5、去重

6、正向索引

7、倒序索引

8、鏈接關係計算

9、特殊文件處理

搜索引擎工作原理(預處理)

1、提取文字

現在的搜索引擎還是以文字內容為基礎,蜘蛛抓取到的頁面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見文字處,還包含了大量的HTML格式標籤,JavaScript 程序等無法用於排名的內容,搜索引擎預處理首先要做的就是從HTML文件中去除標籤、程序,提取出可以用於排名處理的網頁面文字內容。

比如這段代碼:

<div id=「post-1100」 class=「post-1100 post hentry category-seo」>

<div class=「posttitle」>

<h2><a href=「http://www.huatu.com/seobog/2010/04/01/fools-day/」 href=「bookmark」

Title=「Permanent Link to 今天愚人節哈」>今天愚人節哈 </a></h2>

除去HTML代碼后,剩下的用於排名的文字只有這一句: 今天愚人節哈

2、中文分詞

分詞是中文搜索引擎特有的步驟。搜索引擎存儲和處理頁面及用戶搜索都是以詞為基礎的。英文等語言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子劃分為單詞的集合。而中文詞與詞之間沒有任何分隔符,一個句子中所有字和詞都是連在一起的。搜索引擎必須首先分辨哪幾個片語成一個詞,哪些字本身就是一個詞。比如「公務員考試」將被分詞為「公務員」和「考試」兩個詞。

中文分詞方法基本上有兩種,一種是基於詞典匹配,另一種是基於統計。

基於詞典匹配:將待分析的一段漢字與一個事先選好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有一詞條匹配成功,或者說切他出一個單詞。

基於統計匹配:分析大量文字樣本,計算機出字與字相鄰出現的統計概率,幾個字相鄰出現越多,就越可能形成一個單詞。基本統計的方法的優勢是對新出現的詞反應更快速,有利於消除歧義。

3、去停止詞

無論是英文還是中文,頁面內容中都會有一些出現頻率很高,卻對內容沒有任何影響的詞,如「的」、「地」、「得」之類的助詞,「阿」、「哈」、「呀」之類的感嘆詞,「從而」、「以」、「卻」之類的副詞或介詞。這些詞被稱為停止詞,因為它們對頁面的主要意思沒什麼影響。英文中的常見停止詞有the ,a ,an ,to ,of 等。

搜索引擎在索引頁面之前 會去掉這些停止詞,使索引數據主題更為突出,減少無謂的計算量。

4、去除噪音

絕大部分頁面上還有一部分內容對頁面主題也沒有什麼貢獻,比如版權聲明文字,導航條、廣告等。以常見的博客導航為例,幾乎每個博客頁面上都會出現文章分類、歷史存檔等導航內容,這些頁面本身與「分類」、「歷史」這些詞都沒有任何關係。用戶搜索「歷史」、「分類「 這些關鍵詞時僅僅因為頁面上有這些詞出現而返回博客貼子是毫無意義的,完全不相關。所以這些區城都司於雜訊,對頁面主題只能起到分散作用。

搜索引擎需要識別並消除這些雜訊,排名時不使用雜訊內容。消噪的基本方法是根據HTML標籤對頁面分塊,區分出頁頭、導航、正文、頁腳、廣告等區域,在網站上大量重複出現的區塊往往屬於雜訊。對頁面進行消噪后,剩下的才是頁面主體內容。

5、去重

去重的基本方法是對頁面特徵關係 詞計算指指紋,也就是說從頁面主體內容中選取最有的一部分關鍵詞(經常是出現頻率最高的關係詞),然後計算這些關鍵詞的數字指紋。這些關鍵詞選取是在分詞、去停止詞、消噪之後。通常選取10個特徵關鍵詞就可以達到比較高的計算準備性,再選取更多詞對去重準確性提高的貢獻也就不大了。

簡單的增加「的」「地」「得」調換文欄位落的位置等偽原創的方法並不能逃避搜索引擎去重的演算法。

6、正向索引

7、倒序索引

8、鏈接關係計算

頁面上有哪些鏈接指向哪些其他頁面,每個頁面有哪些導入鏈接,鏈接使用了什麼錨文字,這些複雜的鏈接指向關係形成了網站和頁面的鏈接權重。

9、特殊文件處理

除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們在搜索結果中也經常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內容,也不能執行腳本和程序。

雖然搜索引擎在識別圖片及從Flash中提取文字內容方面有些進上,不過距離直接靠讀取圖片、視頻、Flash內容返回結果的目標還很遠。對圖片、視頻內容的排名還往往是依據與之相關的文字內容。

以上就是SEO網站優化搜索引擎預處理規則,對SEO網站優化感興趣,歡迎持續關注。每天更新……



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦