(1)選擇策略,到底該獲取那些網頁。
(2)重訪策略,多久重新獲取已經訪問過的網頁。
(3)并行策略,如何安排分散式的資料獲取。
(4)不擾策略,如何在獲取資料時,不影響網站的效能。
并行策略與搜索引擎優化沒有太大的關聯,我們不再深入討論。后續就來談搜索引擎的選擇策略、重訪策略與不擾策略。
不同的搜索引擎有不同的資料獲取策略,不過最終目的都是希望把力氣花在優秀的資料上,如果余力再去獲取其他的資料。因此選擇策略就主宰了獲取優秀資料的重任。
計算機不會知道什么樣的資料才是優秀的資料,因此起點就由人來決定。多數搜索引擎會由可以信賴的第三方開始,這個可以信賴的第三方就是具有公信力的目錄網站、學術單位、公家單位與非營利的組織團體。因此被這個可以信賴的第三方所連接的網站就具備較優勢的起點,但是并非保證能夠有優秀的結果。
因此許多人認為被目錄網站或被學術單位收錄可以有較好的搜索結果,其實只是一個誤會,最后結果是否能過如愿,ahi牽涉太多的因素。有太多網站沒有被信賴的第三方連接,卻比被信賴的第三方連接的網站有更優秀的搜索結果。
不管如何,有個優勢的起點總是好事,因此搜索引擎優化操作還是盡量要被信賴的第三方連接。如果還是無法被連接的話,那么使用各搜索引擎的登錄網站也是一個方法。