2015年9月4日 星期五

搜尋引擎抓取策略-網頁更新策略-頁面儲存

搜尋引擎抓取策略



頁面儲存:

前面SEO文章提到搜尋引擎頁面抓取及維護方式,接下來需要知道一下搜尋引擎在抓取頁面後,究竟儲存那些資訊才可以滿足比對工作的需求。

通常來說頁面是搜尋引擎進行資訊處裡的基礎,大部份的工作都是從頁面開始的,但就算抓取頁面中所有的內容其實也不能滿足搜尋引擎對資料處理的需求。搜尋引擎必須在抓取頁面的過程中取得更多、更有價值的資訊會影響搜尋引擎的工作效率、排序結果的品質‧‧‧等。


所以在抓取時,除了儲存原始頁面外,還會附加一系列的資訊(例:檔案類型、檔案大小、最後修改時間、URL、IP地址、抓取時間‧‧‧等),未來再把這些資訊做為某項展開工作的依據。

例:

1.檔案過大,搜尋引擎可能會放棄檢索。

2.最後修改日期,意味著最後頁面更新日期。

3.若附加資訊使用在購物網站,就可對消費者進行針對性行銷。(這就是所謂大數據時代)


目的:搜尋引擎會針對這些資訊對網站/網頁評分、排序。所以盡可能讓這些資訊情楚、簡單易查詢。







每天學一點快樂輕鬆學~
「往上走的人沒時間往後看,因為你不會發現你們正在拉開差距。」

沒有留言:

張貼留言