- 瀏覽與檢索
- 網頁目錄
- 搜尋引擎
- 爬梳器
- 索引機
- 檢索處理器
- 結論
有兩種方式查看網頁的資訊: 瀏覽與檢索。
跟著超連結到處遊走, 稱為瀏覽, 非常容易且直觀; 以軟體檢索特定鍵詞, 找到相關的網頁, 稱為檢索, 需要一點技巧。
網頁量少時, 瀏覽即夠用。
網頁目錄(Web directory)及搜尋引擎(Search engines)是兩個找尋網頁資訊的工具。網頁目錄源自於Archie及
Gopher, 有點像是圖書的目次; 搜尋引擎則以鍵詞在網路裡比對相同的文字, 像是書後的索引。
瀏覽是使用網頁目錄的最佳方法, 檢索是使用搜尋引擎的最佳手段。祗是網頁目錄與搜尋引擎的界限, 並不那麼明白。網頁目錄常伴隨全文搜尋機制,
搜尋引擎也常與其他網頁目錄搭配, 形成共生現象。
全球25個主要搜索站佔95%以上的全球搜索市場, http://promote168.com.tw/search-engine-list.htm
Alta Vista http://www.altavista.com Yahoo Search http://search.yahoo.com MSN http://search.msn.com Excite http://www.excite.com Alltheweb http://www.alltheweb.com Terra http://www.terra.com http://www.google.com LookSmart http://www.looksmart.com AOL Search http://search.aol.com Netscape http://search.netscape.com Lycos http://www.lycos.com DMOZ http://www.dmoz.com Evreka http://evreka.com Hotbot http://www.hotbot.com DogPile http://www.dogpile.com Overture http://www.overture.com Mamma http://www.mamma.com WebCrawler http://www.webcrawler.com EuroSeek http://www.euroseek.com Go Network http://www.go.com About http://www.about.com TOCC http://www.tocc.co.jp iWon http://www.iwon.com Ask Jeeves http://www.ask.com WWW.FI http://www.fi
人工編製, 由大類陸續細分, 很像圖書館的分類目錄。透過超連結的方式, 找到需要的資訊。
有些網頁在款目之下, 還有簡短的說明, 在連結之前, 就可以知道大概。
網頁目錄有兩種類型, 開放性及封閉性。
開放式網頁目錄
封閉式網頁目錄
Open Directory Project(ODP):
- AOL
- Google、HotBot、Lycos
- 100多家搜尋公司
LookSmart:
- MSN
- Time Warner
- 200多家ISP
Yahoo!
Zeal
About.com
Go Guide
NBCi
網頁目錄的搜尋服務, 針對網頁目錄, 祗比對連結及摘要, 不是全文。
網頁目錄的類目固定, 人工編製, 適合特定型態的檢索; 它的涵蓋範圍有限, 還是有些議題待澄清:
內容及範圍較小。人工編製目錄及摘要, 需要時間,
相對於搜尋引擎, 它的規模不可能太大。這個特性有好有壞, 正向的思考, 有助於縮小找尋面, 被列入的網頁, 多半是通過編輯的審核,
品質比較穩定, 沒有特別的差異。它的摘要經過編輯的評估, 較為詳細、客觀、精準。
反過來說, 常因為編輯的時間不夠、缺乏知識或技巧, 使其利用度受限。
編輯政策不明。有些網頁目錄有編輯政策, 但是仍有若干網頁目錄沒有說明。在開放式網頁目錄裡, 部份編輯運用其優勢, 阻止其對手的網頁被列入。偏見仍不可免。
時間差。人工編製的網頁目錄, 在新穎性及維護上,
都有相當盲點。網頁本身的變動性極強, 改變網址、公司併購等因素, 都可能造成連結的中斷。
部份網頁主利用時間差, 避過編輯的審核, 把有爭議的網頁納入目錄內。例如, 以一般網頁內容, 送請編輯審核, 通過之後, 在不改變網址的前提下, 掉包為色情資訊。
內容不均衡。特別的專門網頁目錄, 專精於特定領域,
沒有什麼影響, 但是通用型網頁目錄的內容不均衡, 常造成使用者的困擾。有些網頁目錄基於特別的編輯政策, 即使已有千百個網頁在特定類目下,
仍再加入新的網頁; 如Yahoo!的商業(Business)及ODP的會社(society)。
登錄服務。向網頁主收費, 優先讓其網頁納入目錄。更有些網頁目錄, 把關鍵字的搜尋結果排序, 向網頁主收費,
造成使用者的困惑。Yahoo!奇摩有「付費優先處理網站登錄服務」、「搜尋排序優先服務」, Google有贊助商連結。
不經人工以軟體(robot)爬梳網路, 建立資料庫。使用者以鍵詞檢索後, 在資料庫裡搜尋, 不是在真實的網路世界裡找資料。
搜尋引擎是一組複雜的軟體, 從外面看, 它分為三個部份:
在網路上發現、取回網頁, 把它置入索引機裡。其實它像是瀏覽器, 順著超連結, 把網頁內容取回, 當然, 它的速度很快,
可以同時讀取千百個網頁, 不影響伺服器的效能, 也不太佔用頻寬。
有兩種方法找到網頁。由網頁主登錄它的網址, 是很好的方法。不過, 由於軟體技術進步, 已有網頁主採取炸彈式的登錄, 讓網頁目錄不勝其煩。
第二個方法是順著網頁的超連結, 把網址列入待爬梳的行列裡, 理論上, 應該可以連結至所有的網頁, 而且是高品質的網頁。
爬梳器同時送出千百個連結請求, 必須有能力處理取回的網址, 並與資料庫裡的網址比對, 刪除重複的網址; 評估已拜訪過的網址,
是否已經過了相當時日, 需要再次拜訪。
研究指出, 經過爬梳之後, 幾乎所有的可見網頁都被拜訪過。隨機挑選的兩個網頁, 瀏覽器經過16次連結, 就可以互通。透過爬梳機的連結,
6次即可互通。9成的網頁, 可以爬梳機的連結互通。
爬梳器得到的資料, 交給索引機, 以字順排序, 每個款目包括鍵詞、相關文件、實際的位置等, 非常適合鍵詞檢索。
為了增加檢索的效率, 高頻字被刪除, 不計入標點符號、空格祗留一個、全部轉為小寫等, 都是節省資料庫容量的方法。有些搜尋引擎祗儲存字根,
根據查詢的方法, 再加上字首字尾。
全文檢索不祗是比對單一的鍵詞, 還有接近(NEAR)運算, 對html檔的運算, 還可針對標題、網址、內文等特定欄位, 進行檢索。
這是搜尋引擎裡最複雜的地方, 包括檢索介面、評估及比對的引擎、格式化的產出結果。
可以搜尋中文的搜尋引擎,
搜尋引擎的覆蓋率、新穎性及完整性出入甚大。必須選對搜尋引擎, 才能得到正確的答案。
介面、語法及功能等方面, 還沒有一致的看法。爬梳網路的方式、處理檢索的程序、相關性排序的基礎等,
都有很大的出入。很多人祗用一種搜尋引擎, 即使找不到資料, 也是更換鍵詞, 而不會試試其他的搜尋引擎。
瞭解各搜尋引擎的特性, 隨時切換至適合的搜尋引擎; 實在找不到資料, 也不要灰心, 可能就在隱形網頁裡。
爬梳網頁是複雜且耗資源的工作。已經被拜訪過的網頁, 隔一段時間才會再度拜訪, 以結省成本。這種時間差, 常造成檢索結果的異常。
搜尋引擎的差異在於輸出的結果, 各有不同的參數, 計算每個款目的相關度。
超強的伺服器及高速頻寬是搜尋引擎的兩大法寶, 維持高量的資料庫很昂貴。必須做若干犧牲,
限制索引的總量、放棄部份舊資料、拉長再度拜訪網頁的頻率等, 都是可能的措施。
沒有被其他網頁連結的資料, 爬梳器無法取得其內容。爬梳器的時間差有兩大議題:
搜尋引擎的對象以文字為主, 對於靜畫、聲音及影片, 祗能記錄其檔名及位置。
網頁目錄
搜尋引擎
規模較小
規模沒有限制
選擇高品質的連結
大量的連結, 沒有品質管制
全面搜尋成效較差
全面搜尋成效好
包括有限的隱形網頁內容, 但不能直接檢索
技術上, 可以檢索部份隱形網頁內容
通常指向網站上的首頁
對整個網站內容做全文索引
早期的搜尋引擎可以跟上網頁的發展腳步, 後來轉而收錄其他多樣化的資訊。