可見網頁

毛慶禎輔仁大學圖書資訊學系副教授
http://www.lins.fju.edu.tw/mao/internet/visibleweb.htm
2004/9/22 上次更新日期: 2004/9/23

瀏覽與檢索

網頁目錄

搜尋引擎

爬梳器

索引機

檢索處理器

結論

1. 瀏覽與檢索

有兩種方式查看網頁的資訊: 瀏覽與檢索。

跟著超連結到處遊走, 稱為瀏覽, 非常容易且直觀; 以軟體檢索特定鍵詞, 找到相關的網頁, 稱為檢索, 需要一點技巧。

網頁量少時, 瀏覽即夠用。

網頁目錄(Web directory)及搜尋引擎(Search engines)是兩個找尋網頁資訊的工具。網頁目錄源自於Archie及 Gopher, 有點像是圖書的目次; 搜尋引擎則以鍵詞在網路裡比對相同的文字, 像是書後的索引。

瀏覽是使用網頁目錄的最佳方法, 檢索是使用搜尋引擎的最佳手段。祗是網頁目錄與搜尋引擎的界限, 並不那麼明白。網頁目錄常伴隨全文搜尋機制, 搜尋引擎也常與其他網頁目錄搭配, 形成共生現象。

全球25個主要搜索站佔95%以上的全球搜索市場, http://promote168.com.tw/search-engine-list.htm

Alta Vista http://www.altavista.com

Yahoo Search http://search.yahoo.com

MSN http://search.msn.com

Excite http://www.excite.com

Alltheweb http://www.alltheweb.com

Terra http://www.terra.com

Google http://www.google.com

LookSmart http://www.looksmart.com

AOL Search http://search.aol.com

Netscape http://search.netscape.com

Lycos http://www.lycos.com

DMOZ http://www.dmoz.com

Evreka http://evreka.com

Hotbot http://www.hotbot.com

DogPile http://www.dogpile.com

Overture http://www.overture.com

Mamma http://www.mamma.com

WebCrawler http://www.webcrawler.com

EuroSeek http://www.euroseek.com

Go Network http://www.go.com

About http://www.about.com

TOCC http://www.tocc.co.jp

iWon http://www.iwon.com

Ask Jeeves http://www.ask.com

WWW.FI http://www.fi

2. 網頁目錄

PChome Online 網路家庭- 搜尋引擎, http://dir.pchome.com.tw/
Yahoo!奇摩, http://tw.yahoo.com/
Open Directory Project, http://dmoz.org/
LookSmart, http://search.looksmart.com/
About.com, http://about.com/

人工編製, 由大類陸續細分, 很像圖書館的分類目錄。透過超連結的方式, 找到需要的資訊。

有些網頁在款目之下, 還有簡短的說明, 在連結之前, 就可以知道大概。

網頁目錄有兩種類型, 開放性及封閉性。

開放式網頁目錄
封閉式網頁目錄

Open Directory Project(ODP):

AOL

Google、HotBot、Lycos

100多家搜尋公司

LookSmart:

MSN

Time Warner

200多家ISP

Yahoo!

Zeal
About.com

Go Guide
NBCi

網頁目錄的搜尋服務, 針對網頁目錄, 祗比對連結及摘要, 不是全文。

網頁目錄的類目固定, 人工編製, 適合特定型態的檢索; 它的涵蓋範圍有限, 還是有些議題待澄清:

內容及範圍較小。人工編製目錄及摘要, 需要時間, 相對於搜尋引擎, 它的規模不可能太大。這個特性有好有壞, 正向的思考, 有助於縮小找尋面, 被列入的網頁, 多半是通過編輯的審核, 品質比較穩定, 沒有特別的差異。它的摘要經過編輯的評估, 較為詳細、客觀、精準。

反過來說, 常因為編輯的時間不夠、缺乏知識或技巧, 使其利用度受限。
編輯政策不明。有些網頁目錄有編輯政策, 但是仍有若干網頁目錄沒有說明。在開放式網頁目錄裡, 部份編輯運用其優勢, 阻止其對手的網頁被列入。偏見仍不可免。
時間差。人工編製的網頁目錄, 在新穎性及維護上, 都有相當盲點。網頁本身的變動性極強, 改變網址、公司併購等因素, 都可能造成連結的中斷。

部份網頁主利用時間差, 避過編輯的審核, 把有爭議的網頁納入目錄內。例如, 以一般網頁內容, 送請編輯審核, 通過之後, 在不改變網址的前提下, 掉包為色情資訊。
內容不均衡。特別的專門網頁目錄, 專精於特定領域, 沒有什麼影響, 但是通用型網頁目錄的內容不均衡, 常造成使用者的困擾。有些網頁目錄基於特別的編輯政策, 即使已有千百個網頁在特定類目下, 仍再加入新的網頁; 如Yahoo!的商業(Business)及ODP的會社(society)。
登錄服務。向網頁主收費, 優先讓其網頁納入目錄。更有些網頁目錄, 把關鍵字的搜尋結果排序, 向網頁主收費, 造成使用者的困惑。Yahoo!奇摩有「付費優先處理網站登錄服務」、「搜尋排序優先服務」, Google有贊助商連結。

3. 搜尋引擎

Google, 2004年10月, Googler號稱搜尋 4,285,199,774 頁的網頁。
Inktomi
AltaVista
HotBot

不經人工以軟體(robot)爬梳網路, 建立資料庫。使用者以鍵詞檢索後, 在資料庫裡搜尋, 不是在真實的網路世界裡找資料。

搜尋引擎是一組複雜的軟體, 從外面看, 它分為三個部份:

爬梳器, 稱為crawler或spider, 在網路上找尋並取回網頁。
索引機, 把網頁的每個字做索引, 形成巨大的資料庫。
檢索處理器, 向索引機比對使用者的鍵詞, 並以優先順序傳回結果。

3.1 爬梳器, web crawler

在網路上發現、取回網頁, 把它置入索引機裡。其實它像是瀏覽器, 順著超連結, 把網頁內容取回, 當然, 它的速度很快, 可以同時讀取千百個網頁, 不影響伺服器的效能, 也不太佔用頻寬。

有兩種方法找到網頁。由網頁主登錄它的網址, 是很好的方法。不過, 由於軟體技術進步, 已有網頁主採取炸彈式的登錄, 讓網頁目錄不勝其煩。

第二個方法是順著網頁的超連結, 把網址列入待爬梳的行列裡, 理論上, 應該可以連結至所有的網頁, 而且是高品質的網頁。

爬梳器同時送出千百個連結請求, 必須有能力處理取回的網址, 並與資料庫裡的網址比對, 刪除重複的網址; 評估已拜訪過的網址, 是否已經過了相當時日, 需要再次拜訪。

研究指出, 經過爬梳之後, 幾乎所有的可見網頁都被拜訪過。隨機挑選的兩個網頁, 瀏覽器經過16次連結, 就可以互通。透過爬梳機的連結, 6次即可互通。9成的網頁, 可以爬梳機的連結互通。

3.2 索引機

爬梳器得到的資料, 交給索引機, 以字順排序, 每個款目包括鍵詞、相關文件、實際的位置等, 非常適合鍵詞檢索。

為了增加檢索的效率, 高頻字被刪除, 不計入標點符號、空格祗留一個、全部轉為小寫等, 都是節省資料庫容量的方法。有些搜尋引擎祗儲存字根, 根據查詢的方法, 再加上字首字尾。

全文檢索不祗是比對單一的鍵詞, 還有接近(NEAR)運算, 對html檔的運算, 還可針對標題、網址、內文等特定欄位, 進行檢索。

3.3 檢索處理器

這是搜尋引擎裡最複雜的地方, 包括檢索介面、評估及比對的引擎、格式化的產出結果。

可以搜尋中文的搜尋引擎,

Google
Openfind網路資源搜尋, http://www.openfind.com.tw/

搜尋引擎的覆蓋率、新穎性及完整性出入甚大。必須選對搜尋引擎, 才能得到正確的答案。

介面、語法及功能等方面, 還沒有一致的看法。爬梳網路的方式、處理檢索的程序、相關性排序的基礎等, 都有很大的出入。很多人祗用一種搜尋引擎, 即使找不到資料, 也是更換鍵詞, 而不會試試其他的搜尋引擎。

瞭解各搜尋引擎的特性, 隨時切換至適合的搜尋引擎; 實在找不到資料, 也不要灰心, 可能就在隱形網頁裡。

爬梳網頁是複雜且耗資源的工作。已經被拜訪過的網頁, 隔一段時間才會再度拜訪, 以結省成本。這種時間差, 常造成檢索結果的異常。

搜尋引擎的差異在於輸出的結果, 各有不同的參數, 計算每個款目的相關度。

超強的伺服器及高速頻寬是搜尋引擎的兩大法寶, 維持高量的資料庫很昂貴。必須做若干犧牲, 限制索引的總量、放棄部份舊資料、拉長再度拜訪網頁的頻率等, 都是可能的措施。

沒有被其他網頁連結的資料, 爬梳器無法取得其內容。爬梳器的時間差有兩大議題:

網頁已出版, 爬梳器來不及立刻拜訪
網頁已更新, 爬梳器來不及再次拜訪

4. 結論

搜尋引擎的對象以文字為主, 對於靜畫、聲音及影片, 祗能記錄其檔名及位置。

網頁目錄
搜尋引擎

規模較小
規模沒有限制

選擇高品質的連結
大量的連結, 沒有品質管制

全面搜尋成效較差
全面搜尋成效好

包括有限的隱形網頁內容, 但不能直接檢索
技術上, 可以檢索部份隱形網頁內容

通常指向網站上的首頁
對整個網站內容做全文索引

早期的搜尋引擎可以跟上網頁的發展腳步, 後來轉而收錄其他多樣化的資訊。

參考資料

Chatper 2 - Informaiton seeking on the visible web. from Chris Sherman and Gary Price, The invisible web : uncovering information sources search engines can't see. Medford, N.J. : Informaiton Today, 2001. http://www.invisible-web.net/

採用Creative Commons授權條款

Alta Vista	http://www.altavista.com
Yahoo Search	http://search.yahoo.com
MSN	http://search.msn.com
Excite	http://www.excite.com
Alltheweb	http://www.alltheweb.com
Terra	http://www.terra.com
Google	http://www.google.com
LookSmart	http://www.looksmart.com
AOL Search	http://search.aol.com
Netscape	http://search.netscape.com
Lycos	http://www.lycos.com
DMOZ	http://www.dmoz.com
Evreka	http://evreka.com
Hotbot	http://www.hotbot.com
DogPile	http://www.dogpile.com
Overture	http://www.overture.com
Mamma	http://www.mamma.com
WebCrawler	http://www.webcrawler.com
EuroSeek	http://www.euroseek.com
Go Network	http://www.go.com
About	http://www.about.com
TOCC	http://www.tocc.co.jp
iWon	http://www.iwon.com
Ask Jeeves	http://www.ask.com
WWW.FI	http://www.fi

開放式網頁目錄	封閉式網頁目錄
Open Directory Project(ODP): AOL Google、HotBot、Lycos 100多家搜尋公司	LookSmart: MSN Time Warner 200多家ISP
	Yahoo!
Zeal	About.com
Go Guide	NBCi

網頁目錄	搜尋引擎
規模較小	規模沒有限制
選擇高品質的連結	大量的連結, 沒有品質管制
全面搜尋成效較差	全面搜尋成效好
包括有限的隱形網頁內容, 但不能直接檢索	技術上, 可以檢索部份隱形網頁內容
通常指向網站上的首頁	對整個網站內容做全文索引