2015年9月7日 星期一

搜尋引擎工作原理-頁面分析

頁面分析



頁面抓取回來後並不代表搜尋引擎可以馬上向使用者提供查詢服務,因為在查詢時使用的是一個詞或短語,目前雖然可以做到加入特殊符號「" "」做嚴格查詢動作,不過一般搜尋時使用上不會特別加入,所以連相關查詢都會一起被顯示。因此搜尋引擎還得對抓取回來的原始頁面進行一系列的分析才會迎合使用者查詢的習慣。


《網頁分析、處理流程》:建網頁索引→正文資訊提取→關鍵字列表→關鍵字索引→網頁


1.URL是頁面的入口,為了提高頁面檢索效率,需對抓取回來的原始頁面URL建立索引,這樣就可以根據URL快速定位對應的頁面。


2.網頁正文資訊提取實際上就是對網頁中非中文資訊過濾。最重要是對網頁中標籤資訊過濾(HTML標籤、JavaScript標籤、PHP標籤),過濾後就可得到正文資訊。


3.提取正文資訊後,搜尋引擎有了實質內容。但為了更進一步接近使用者習慣,搜尋引擎還需要對頁面中的內容進行切分(也就是切詞、分詞),最後得到與使用者查詢準則相匹配的關鍵字列表。


每個搜尋引擎的切詞系統會都有所差別,切詞系統好壞取決於開發者對語言的理解能力。像中文語言環境裡,切詞演算法直接會影響產生出來的關鍵字,這些關鍵字是否和使用者搜尋習慣一致會直接決定搜尋引擎的品質,從事網路上相關行業的人,若善加利用更可創造不同的商業行為。


常見分詞有兩種:

字串分詞:是在一個夠大、夠權威的詞典上進行的,若出現與詞典相符,則得到一個詞或短語。

統計分詞:是根據相鄰的兩個(或多個)字出現的機率,來判斷組合後是否會形成一個詞,通常也結合詞典進行匹配,常用在新詞彙。例:魯蛇、博客‧‧‧等


4.經過切詞系統後形成關鍵字列表。這列表中包括該關鍵字的關鍵字編號、網頁編號、關鍵字出現次數、關鍵字在文件中位置‧‧‧等資訊。因為使用者是通過關鍵字取尋找相關資訊頁面,所以有了關鍵字列表後,搜尋引擎還需要對這些資訊進行相應的處理,才可達到關鍵字快速定位到多個頁面的功能。



目的:實際操作上可利用搜尋引擎本身的管理員工具,找到合適的關鍵字!




每天學一點快樂輕鬆學~
「往上走的人沒時間往後看,因為你不會發現你們正在拉開差距。」

沒有留言:

張貼留言