2015年8月19日 星期三

搜尋引擎抓取策略-頁面抓取方式-用戶提交

搜尋引擎抓取策略



用戶提交

為了抓取更多的網頁,搜尋引擎還允許網站管理員主動提交頁面(如Sitemap方式提交)。網站管理員只需要把網站中頁面的URL按照指定的格式製作成檔案,提交給搜尋引擎,搜尋引擎就可以通過該檔案對網站中的頁面進行抓取及更新。

這種由網站管理員主動提交頁面的方式大大提高了搜尋引擎抓取頁面的效率,也大大增加了網站頁面被抓取的數量(目前主流的搜尋引擎都支援這種頁面抓取方式,如Google、百度、Bing等)


為了提高抓取頁面效率及品質,搜尋引擎會結合多種策略去抓取頁面。


如以下的順序抓取:

  1. 先使用廣度優先,抓取範圍盡可能廣、擷取盡可能多的重要頁面。
  2. 再使用深度優先,抓取隱蔽的頁面。
  3. 最後,結合暗網抓取使用者提交,抓取被遺漏的頁面。

目的:學會主動提交方式和多種被動搜尋引擎抓取策略方式。






每天學一點快樂輕鬆學~

「往上走的人沒時間往後看,因為你不會發現你們正在拉開差距。」

沒有留言:

張貼留言