搜尋引擎

毛慶禎
輔仁大學圖書資訊學系	2003/10/2

類型

全文型

索引或指南型

多重型

自然語言型

資源或網站型

運作方式

現況

主流搜尋引擎, http://www.lins.fju.edu.tw/mao/internet/majorsearchengines.htm
搜尋工具, http://www.lins.fju.edu.tw/mao/internet/tools.htm
網路資源搜尋工具, http://www.lins.fju.edu.tw/~mao/internet/uengines.htm

網際網路被稱為「資訊高速公路」(Informaton Superhighway), 喻示資訊可以在此網路上高速流動, 其實不然。

網際網路的資訊, 就像是深埋在歐洲古堡裡的小房間, 順著那無止盡的走道, 在不可知的地方轉彎, 努力找出鑰匙, 再費力的左轉又轉, 又推又拉, 才看到雜亂無章的儲藏室。

網路資源非常龐大, 成長速度極快, 奇快的是, 不管怎麼發展, 都有適當的檢索工具, 現是搜尋引擎。雖然, 還不算成熟, 也不能檢索所有的網路資源, 不過, 直到我們取得聖杯, 弄清楚怎麼回事以前, 搜尋引擎仍是最佳的檢索工具。

類型

這個世界大約有數萬種大大小小各種類型的搜尋引擎, AltaVista、Google、Yahoo!等搜尋引擎, 以整個網際網路為對象, 數量不太多, 頂多數百種; 以特定網站或資源(如字典)為對象的搜尋引擎, 就有數萬種之多。

依搜尋對象的不同，搜尋引擎大致可以區分為五類：

全文搜尋引擎
索引或指南型搜尋引擎
多重搜尋引擎
自然語言搜尋引擎
資源或網站型搜尋引擎

以檢索的對象而言, 可以分為:

Web
Images
MP3/Audio
Video
Directory
News

搜尋引擎的資料庫，由蜘蛛精(spider)或爬蟲(crawler)在網路上主動抓出。符合這樣條件的搜尋引擎並不多, 若干號稱搜尋引擎的網站, 其實祗是人工編製的名錄而已。

網頁的數量愈來愈多, 以數十億計, 連結更是以百億為單位, 成長的速度超乎想像, 2003年10月1日, Google自稱其資料庫裡有 3,307,998,701 頁的網頁; 搜尋引擎的技術推陳出新, 就是為了面對這種變動劇烈的環境。

全文型

鍵入任何字詞, 即可檢索, 非常適合檢索特定的資訊, 或能夠以少量字詞表達的觀念; 不利於找尋特定主題的概述, 或在不熟悉的主題檢索, 或不知該如何選用檢索詞彙。

全文搜尋引擎多半沒有布林邏輯、切截字、萬用字元等檢索技術, 甚至不允許鍵入字串, 它的客戶群針對些不曾在網路上做過任何搜尋的人, 祗要方便, 其他都可以略過。

找到的資料必然是非常多, 有些全文搜尋引擎以相關法排序(relevance ranking), 利用自訂的演算法, 依使用者最有可能用到的程度, 依序排列檢索到的資訊; 搜尋引擎對於資訊的排序, 有自己的相法, 以同樣的鍵詞在不同的搜尋引擎檢索, 幾乎不會得到相同的排序。

排序的標的方法很多, 不以下列為限:

在meta-tag裡出現的字詞
在網頁題名的字詞
在網頁內容的標題字詞
出現在網頁內文的次數
其他網頁連結進來的次數

AltaVista, http://www.altavista.com/

索引或指南型

將搜羅來的資訊, 以類區分, 再細分, 有點像是圖書館分類目錄。

使用者從最寬廣的大類入手, 逐步細分至精確的類目, 事先不需具備精確的學科知識, 隨意查檢, 逐步縮小檢索範圍。雅虎大概是這個領域裡最有名氣的。

編製時, 個人或引擎本身的特質, 可能影響該索引的內容, 各國的民情也會對同樣的分類方式, 產生不同的看法。雅虎在世界各國分別編製不同的索引, 英國與美國、臺灣與香港等地, 即使採用相同的語文, 仍給予不同的索引。

為了避免索引帶來的不便, 很多搜尋引擎同時具備全文及索引的功能。

Yahoo!, http://www.yahoo.com/
Google, http://dir.google.com/
Open Directory Project, http://dmoz.org/
志工型的指南搜尋引擎。

多重型

嚴格說, 多重搜尋引擎不是搜尋引擎, 本身沒有任何搜尋的功能, 把檢索的請求送給其他搜尋引擎, 再彙集送回的檢索結果; 比較精明的多重搜尋引擎會比對送回的結果, 彙整成一個順序, 刪除重複, 再顯示出來。

對特定主題, 需要有完整的列表, 多重搜尋引擎可以減少勞力, 不必一個個地拜訪搜尋引擎。

優點同時也是缺點, 各搜尋引擎有自己的檢索邏輯與符號, 很難在一個指令下, 讓所有的搜尋引擎瞭解其精確意義, 退而求其次, 祗好鍵入一堆字詞, 讓各搜尋引擎各自解讀; 因此, 不容易掌控檢索的結果。

還有一種網頁, 祗提供連結到其他搜尋引擎, 本身沒有任何服務; 表面上, 這種網頁不算什麼, 但是它們常有驚人之舉, 有些連結是一般人不可能去探索的, 保留這些網頁, 將來總一天會用到的。

ZapMeta, http://www.zapmeta.com/

非常新的多重搜尋引擎。評論文字。
Ixquick Metasearch, http://ixquick.com/

有多種語言介面: Deutsch, English, English UK, Espan~ol, Franc,ais, Italiano, Nederlands, Portugue^s, Dansk, Norsk, Polski, Suomi, Svenska, Tu"rkc等, 英文介面可以選擇同時搜尋以下資料庫: Adobe PDF, Ask Jeeves/Teoma, Avaya PDF, FindWhat, Gigablast, Go, Kanoodle, LookSmart, MSN, Netscape, Open Directory, Overture, WiseNut等。
Overture, http://www.content.overture.com/d/home/
C|Net公司的Search, http://www.search.com/

提供連結到各搜尋引擎。

自然語言型

鍵入自然的句子, Which gases are partially soluble in water?, 自然語言搜尋引擎就能幫你檢索, 順便做單字及文法的檢查; 這個領域的產品很少, Ask Jeeves是最有名氣的。

把鍵入的字詞與其他字詞比對, 找出相關的字詞, 再一同檢索; 鍵入「tax revenues」, 經過伺服器的運算後, 「financial, business, economic informaiton」等字詞, 也會被放入檢索語彙裡, 同時檢索。

Ask Jeeves, http://www.ask.com/; 英國分公司, http://www.ask.co.uk/; 日本分公司, http://www.askj.co.jp/; 兒童專屬 Ask Jeeves for Kids, AJKids.com;
Teoma: Search with Authority, http://teoma.com/

資源或網站型

這種搜尋引擎最多, 但是使用者也最少, 或許是沒有宣傳的關係。祗針對一種資源檢索, 聖經、佛經、字典、百科全書等。不過, 這些引擎實在太繁瑣了, 難以逐一列舉。

尋人搜尋引擎是較常被用到的, 祗要有名字, 甚至部份名字, 就可以找到該人, 當然, 同名同姓者也一併呈現。

Johns Hopkins University 採用 Inktomi 的 Ultraseek 軟體, 讓使用者檢索其校園的網頁內容。http://www.techweb.com/wire/story/TWB20001228S0004

Wikipedia - 免費百科全書, http://www.wikipedia.org/

免費使用的多語文百科全書, 2001年元月上場, 2003年10月2日有161844條英文款目, 中文款目少許。
Internet Library for Librarians, http://www.itcompany.com/inforetriever/
全國檔案目錄查詢網, http://near.archives.gov.tw/main.htm

運作方式

搜尋引擎以俗稱Crawler/Spider(爬蟲/蜘蛛精)的軟體, 在網路爬梳資料, 到新的網站或更動過的網站內容, 抓回搜尋引擎的伺服器, 加入自己的資料庫裡, 編製索引; 同時跟蹤該等網站的連結, 一個個造訪, 直到無可造訪為止, 再回頭造訪另個網頁。

思考網站及網頁的數量, 這個爬梳資料的工作是非常龐大的, 需要相當時日, 數週或數月, 才能把新的網站或更動過的網站全部造訪完畢, 有些搜尋引擎提供另一個機制, 讓網站主或網頁編製者主動告知變動的消息。

所以, 搜尋引擎裡的資料都是過時的, 運氣好的話, 祗是數天前的資料; 如果要查最新氣象資料、名人動態, 還是從電子報紙著手, 每小時更新它們的消息。

有些網站已經被撤掉, 也可能仍留在搜尋引擎的資料庫裡, 爬梳數次找不到原來資料時, 搜尋引擎才會假設該資料被刪掉, 進而從資料庫裡刪除該網站的內容; 這個過程可能費時數月之久, 所以千萬不要太相信搜尋引擎資料的新穎性。

雅虎採取另一種策略, 它不會派出Crawler/Spider, 反而要求網頁的作者, 到其網站登錄資料, 如果登錄到不適的主題下, 使用者也就難以找到。

多重型搜尋引擎並不索引任何網頁, 祗是把檢索要求送出, 彙整收回的結果, 完全依賴其他搜尋引擎的能力。

有時間、金錢及技術的人, 都可以自行建立搜尋引擎, 網際網路本身沒有什麼規則, 也不會設限, 有些個人或機構, 基於各種理由, 就是提供並維護搜尋引擎, 供大眾使用。有些搜尋引擎會仔細說明其理念, 更多的搜尋引擎祗是提供服務, 沒什麼理由。有些搜尋引擎認為每天數千人次或數百萬人次的點閱率, 本身就是商機, 願意發掘各種可能。

搜尋引擎本身不是便宜的東西, 全職員工、昂貴的電腦設備、廣告宣傳及頻寬等, 都需要不少金錢; 可是, 向使用者收費的情況, 非常少見, 自由使用搜尋引擎是常態, 可隨意拜訪檢索的結果。習慣付費的使用者, 對於這種免費的狀態, 一定很訝異。

搜尋引擎的收益, 主要來自廣告, 網際網路的運作動力, 也是廣告。搜尋引擎的廣告祗有一個目的, 賺使用者的錢, 祗要有人潮, 就有錢潮, 這是廣告的鐵律。假設, 有個價值百元的商品, 在每天有千萬人次點閱的網站做廣告, 祗要有1%的點閱者進入該商品的網站, 1%的進入者購買該商品, 每天就賣出一千個商品, 總值十萬元; 當然, 就值得付出相當的廣告費。

網際網路的廣告, 已是非常精密的行銷, 鍵入「花園、綠手指」等字詞, 跳出來的廣告, 就是與園藝有關的商品, 或全省送花服務等相關廣告。為強化廣告的效率, 搜尋引擎必須開發強而有力的軟體、好用又方便的介面等, 才能吸引人潮, 甚至提供免費電子郵件、網頁空間、個人化新聞等服務, 祗要能吸引使用者, 什麼都願意付出。

看起來是免費的搜尋引擎, 其實付出還不少。

現況

雅虎Yahoo!已經併購AlltheWeb、AltaVista、Inktomi及Overture四個搜尋引擎，仍保有各自的介面，但資料庫已趨向整合。

亞馬遜書店Amazon以「Search Inside the Book」進入搜尋引擎領域，可供檢索的書達12萬冊。

參考資源

Web Search Engines, http://www.philb.com/webse.htm

分類列舉主要的搜尋引擎, 還有依國分的搜尋引擎列表。
1998年八月以來，Direct Hit 以使用者的點閱次數及停留時間，做為排比搜尋結果的依據。
http://www.news.com/News/Item/Textonly/0,25,37315,00.html
Google以被連結的次數，做為排比搜尋結果的依據，它的本意是googol, 十的百次方，由史丹佛大學電腦研究所畢業生 Sergey Brin 與 Larry Page 共同於1998年開發。http://www.google.com
搜尋引擎評鑑Media Metrix Search Engine Ratings, http://searchenginewatch.com/reports/mediametrix.html

自我測驗

依對象區分, 搜尋引擎可以分為那幾類? 舉例說明之
搜尋引擎可以檢索那些內容? 舉例說明之
全文型搜尋引擎如何建立其資料庫? 與網際網路現況相符嗎?
索引或指南型搜尋引擎的分類方式與圖書館的分類方式有何異同?
多重型搜尋引擎比較好嗎?
自然語言型搜尋引擎可以用在英文以外的文字嗎?
請舉例說明資源或網站型搜尋引擎的特色。
搜尋引擎以免費使用為原則, 如何維持其營運成本?

毛慶禎
臺北縣新莊市輔仁大學圖書資訊學系
Tel: 02 29031111 ext 2334, 3244(研究室) - Fax: 02 29017405
E-mail: mao@blue.lins.fju.edu.tw
http://www.lins.fju.edu.tw/mao/internet/engines.htm

href="mailto:mao@blue.lins.fju.edu.tw">mao@blue.lins.fju.edu.tw
http://www.lins.fju.edu.tw/mao/internet/engines.htm