可見網頁

毛慶禎 輔仁大學圖書資訊學系副教授
http://www.lins.fju.edu.tw/mao/internet/visibleweb.htm
2004/9/22 上次更新日期: 2004/9/23

  1. 瀏覽與檢索
  2. 網頁目錄
  3. 搜尋引擎
    1. 爬梳器
    2. 索引機
    3. 檢索處理器
  4. 結論

1. 瀏覽與檢索

有兩種方式查看網頁的資訊: 瀏覽與檢索。

跟著超連結到處遊走, 稱為瀏覽, 非常容易且直觀; 以軟體檢索特定鍵詞, 找到相關的網頁, 稱為檢索, 需要一點技巧。

網頁量少時, 瀏覽即夠用。

網頁目錄(Web directory)及搜尋引擎(Search engines)是兩個找尋網頁資訊的工具。網頁目錄源自於Archie及 Gopher, 有點像是圖書的目次; 搜尋引擎則以鍵詞在網路裡比對相同的文字, 像是書後的索引。

瀏覽是使用網頁目錄的最佳方法, 檢索是使用搜尋引擎的最佳手段。祗是網頁目錄與搜尋引擎的界限, 並不那麼明白。網頁目錄常伴隨全文搜尋機制, 搜尋引擎也常與其他網頁目錄搭配, 形成共生現象。

全球25個主要搜索站佔95%以上的全球搜索市場, http://promote168.com.tw/search-engine-list.htm

Alta Vista http://www.altavista.com
Yahoo Search http://search.yahoo.com
MSN http://search.msn.com
Excite http://www.excite.com
Alltheweb http://www.alltheweb.com
Terra http://www.terra.com
Google http://www.google.com
LookSmart http://www.looksmart.com
AOL Search http://search.aol.com
Netscape http://search.netscape.com
Lycos http://www.lycos.com
DMOZ http://www.dmoz.com
Evreka http://evreka.com
Hotbot http://www.hotbot.com
DogPile http://www.dogpile.com
Overture http://www.overture.com
Mamma http://www.mamma.com
WebCrawler http://www.webcrawler.com
EuroSeek http://www.euroseek.com
Go Network http://www.go.com
About http://www.about.com
TOCC http://www.tocc.co.jp
iWon http://www.iwon.com
Ask Jeeves http://www.ask.com
WWW.FI http://www.fi

2. 網頁目錄

人工編製, 由大類陸續細分, 很像圖書館的分類目錄。透過超連結的方式, 找到需要的資訊。

有些網頁在款目之下, 還有簡短的說明, 在連結之前, 就可以知道大概。

網頁目錄有兩種類型, 開放性及封閉性。

開放式網頁目錄
封閉式網頁目錄
Open Directory Project(ODP):
  • AOL
  • Google、HotBot、Lycos
  • 100多家搜尋公司
LookSmart:
  • MSN
  • Time Warner
  • 200多家ISP

Yahoo!
Zeal
About.com
Go Guide
NBCi

網頁目錄的搜尋服務, 針對網頁目錄, 祗比對連結及摘要, 不是全文。

網頁目錄的類目固定, 人工編製, 適合特定型態的檢索; 它的涵蓋範圍有限, 還是有些議題待澄清:

3. 搜尋引擎

不經人工以軟體(robot)爬梳網路, 建立資料庫。使用者以鍵詞檢索後, 在資料庫裡搜尋, 不是在真實的網路世界裡找資料。

搜尋引擎是一組複雜的軟體, 從外面看, 它分為三個部份:

3.1 爬梳器, web crawler

在網路上發現、取回網頁, 把它置入索引機裡。其實它像是瀏覽器, 順著超連結, 把網頁內容取回, 當然, 它的速度很快, 可以同時讀取千百個網頁, 不影響伺服器的效能, 也不太佔用頻寬。

有兩種方法找到網頁。由網頁主登錄它的網址, 是很好的方法。不過, 由於軟體技術進步, 已有網頁主採取炸彈式的登錄, 讓網頁目錄不勝其煩。

第二個方法是順著網頁的超連結, 把網址列入待爬梳的行列裡, 理論上, 應該可以連結至所有的網頁, 而且是高品質的網頁。

爬梳器同時送出千百個連結請求, 必須有能力處理取回的網址, 並與資料庫裡的網址比對, 刪除重複的網址; 評估已拜訪過的網址, 是否已經過了相當時日, 需要再次拜訪。

研究指出, 經過爬梳之後, 幾乎所有的可見網頁都被拜訪過。隨機挑選的兩個網頁, 瀏覽器經過16次連結, 就可以互通。透過爬梳機的連結, 6次即可互通。9成的網頁, 可以爬梳機的連結互通。

3.2 索引機

爬梳器得到的資料, 交給索引機, 以字順排序, 每個款目包括鍵詞、相關文件、實際的位置等, 非常適合鍵詞檢索。

為了增加檢索的效率, 高頻字被刪除, 不計入標點符號、空格祗留一個、全部轉為小寫等, 都是節省資料庫容量的方法。有些搜尋引擎祗儲存字根, 根據查詢的方法, 再加上字首字尾。

全文檢索不祗是比對單一的鍵詞, 還有接近(NEAR)運算, 對html檔的運算, 還可針對標題、網址、內文等特定欄位, 進行檢索。

3.3 檢索處理器

這是搜尋引擎裡最複雜的地方, 包括檢索介面、評估及比對的引擎、格式化的產出結果。

可以搜尋中文的搜尋引擎,

  1. Google
  2. Openfind網路資源搜尋, http://www.openfind.com.tw/

搜尋引擎的覆蓋率、新穎性及完整性出入甚大。必須選對搜尋引擎, 才能得到正確的答案。

介面、語法及功能等方面, 還沒有一致的看法。爬梳網路的方式、處理檢索的程序、相關性排序的基礎等, 都有很大的出入。很多人祗用一種搜尋引擎, 即使找不到資料, 也是更換鍵詞, 而不會試試其他的搜尋引擎。

瞭解各搜尋引擎的特性, 隨時切換至適合的搜尋引擎; 實在找不到資料, 也不要灰心, 可能就在隱形網頁裡。

爬梳網頁是複雜且耗資源的工作。已經被拜訪過的網頁, 隔一段時間才會再度拜訪, 以結省成本。這種時間差, 常造成檢索結果的異常。

搜尋引擎的差異在於輸出的結果, 各有不同的參數, 計算每個款目的相關度。

超強的伺服器及高速頻寬是搜尋引擎的兩大法寶, 維持高量的資料庫很昂貴。必須做若干犧牲, 限制索引的總量、放棄部份舊資料、拉長再度拜訪網頁的頻率等, 都是可能的措施。

沒有被其他網頁連結的資料, 爬梳器無法取得其內容。爬梳器的時間差有兩大議題:

4. 結論

搜尋引擎的對象以文字為主, 對於靜畫、聲音及影片, 祗能記錄其檔名及位置。

網頁目錄
搜尋引擎
規模較小
規模沒有限制
選擇高品質的連結
大量的連結, 沒有品質管制
全面搜尋成效較差
全面搜尋成效好
包括有限的隱形網頁內容, 但不能直接檢索
技術上, 可以檢索部份隱形網頁內容
通常指向網站上的首頁
對整個網站內容做全文索引

早期的搜尋引擎可以跟上網頁的發展腳步, 後來轉而收錄其他多樣化的資訊。

參考資料

Creative Commons License
採用Creative Commons授權條款