毛慶禎 |
|
輔仁大學圖書資訊學系 |
2003/10/2 |
- 類型
- 全文型
- 索引或指南型
- 多重型
- 自然語言型
- 資源或網站型
- 運作方式
- 現況
網際網路被稱為「資訊高速公路」(Informaton Superhighway),
喻示資訊可以在此網路上高速流動, 其實不然。
網際網路的資訊, 就像是深埋在歐洲古堡裡的小房間, 順著那無止盡的走道, 在不可知的地方轉彎, 努力找出鑰匙,
再費力的左轉又轉, 又推又拉, 才看到雜亂無章的儲藏室。
網路資源非常龐大, 成長速度極快, 奇快的是, 不管怎麼發展, 都有適當的檢索工具, 現是搜尋引擎。雖然,
還不算成熟, 也不能檢索所有的網路資源, 不過, 直到我們取得聖杯, 弄清楚怎麼回事以前, 搜尋引擎仍是最佳的檢索工具。
這個世界大約有數萬種大大小小各種類型的搜尋引擎, AltaVista、Google、Yahoo!等搜尋引擎,
以整個網際網路為對象, 數量不太多, 頂多數百種; 以特定網站或資源(如字典)為對象的搜尋引擎, 就有數萬種之多。
依搜尋對象的不同,搜尋引擎大致可以區分為五類:
網頁的數量愈來愈多, 以數十億計, 連結更是以百億為單位, 成長的速度超乎想像, 2003年10月1日, Google自稱其資料庫裡有
3,307,998,701 頁的網頁; 搜尋引擎的技術推陳出新, 就是為了面對這種變動劇烈的環境。
鍵入任何字詞, 即可檢索, 非常適合檢索特定的資訊, 或能夠以少量字詞表達的觀念; 不利於找尋特定主題的概述, 或在不熟悉的主題檢索,
或不知該如何選用檢索詞彙。
全文搜尋引擎多半沒有布林邏輯、切截字、萬用字元等檢索技術, 甚至不允許鍵入字串, 它的客戶群針對些不曾在網路上做過任何搜尋的人,
祗要方便, 其他都可以略過。
找到的資料必然是非常多, 有些全文搜尋引擎以相關法排序(relevance ranking), 利用自訂的演算法,
依使用者最有可能用到的程度, 依序排列檢索到的資訊; 搜尋引擎對於資訊的排序, 有自己的相法, 以同樣的鍵詞在不同的搜尋引擎檢索,
幾乎不會得到相同的排序。
排序的標的方法很多, 不以下列為限:
將搜羅來的資訊, 以類區分, 再細分, 有點像是圖書館分類目錄。
使用者從最寬廣的大類入手, 逐步細分至精確的類目, 事先不需具備精確的學科知識, 隨意查檢,
逐步縮小檢索範圍。雅虎大概是這個領域裡最有名氣的。
編製時, 個人或引擎本身的特質, 可能影響該索引的內容, 各國的民情也會對同樣的分類方式,
產生不同的看法。雅虎在世界各國分別編製不同的索引, 英國與美國、臺灣與香港等地, 即使採用相同的語文, 仍給予不同的索引。
為了避免索引帶來的不便, 很多搜尋引擎同時具備全文及索引的功能。
ZapMeta, http://www.zapmeta.com/
非常新的多重搜尋引擎。評論文字。
Ixquick Metasearch, http://ixquick.com/
有多種語言介面: Deutsch, English, English UK, Espan~ol, Franc,ais, Italiano, Nederlands, Portugue^s, Dansk, Norsk, Polski, Suomi, Svenska, Tu"rkc等, 英文介面可以選擇同時搜尋以下資料庫: Adobe PDF, Ask Jeeves/Teoma, Avaya PDF, FindWhat, Gigablast, Go, Kanoodle, LookSmart, MSN, Netscape, Open Directory, Overture, WiseNut等。
Overture, http://www.content.overture.com/d/home/
C|Net公司的Search, http://www.search.com/
提供連結到各搜尋引擎。
把鍵入的字詞與其他字詞比對, 找出相關的字詞, 再一同檢索; 鍵入「tax revenues」, 經過伺服器的運算後,
「financial, business, economic informaiton」等字詞, 也會被放入檢索語彙裡, 同時檢索。
這種搜尋引擎最多, 但是使用者也最少, 或許是沒有宣傳的關係。祗針對一種資源檢索, 聖經、佛經、字典、百科全書等。不過,
這些引擎實在太繁瑣了, 難以逐一列舉。
尋人搜尋引擎是較常被用到的, 祗要有名字, 甚至部份名字, 就可以找到該人, 當然, 同名同姓者也一併呈現。
Johns Hopkins University 採用 Inktomi 的 Ultraseek 軟體, 讓使用者檢索其校園的網頁內容。http://www.techweb.com/wire/story/TWB20001228S0004
免費使用的多語文百科全書, 2001年元月上場, 2003年10月2日有161844條英文款目, 中文款目少許。
搜尋引擎以俗稱Crawler/Spider(爬蟲/蜘蛛精)的軟體, 在網路爬梳資料, 到新的網站或更動過的網站內容,
抓回搜尋引擎的伺服器, 加入自己的資料庫裡, 編製索引; 同時跟蹤該等網站的連結, 一個個造訪, 直到無可造訪為止, 再回頭造訪另個網頁。
思考網站及網頁的數量, 這個爬梳資料的工作是非常龐大的, 需要相當時日, 數週或數月, 才能把新的網站或更動過的網站全部造訪完畢,
有些搜尋引擎提供另一個機制, 讓網站主或網頁編製者主動告知變動的消息。
所以, 搜尋引擎裡的資料都是過時的, 運氣好的話, 祗是數天前的資料; 如果要查最新氣象資料、名人動態, 還是從電子報紙著手,
每小時更新它們的消息。
有些網站已經被撤掉, 也可能仍留在搜尋引擎的資料庫裡, 爬梳數次找不到原來資料時, 搜尋引擎才會假設該資料被刪掉,
進而從資料庫裡刪除該網站的內容; 這個過程可能費時數月之久, 所以千萬不要太相信搜尋引擎資料的新穎性。
雅虎採取另一種策略, 它不會派出Crawler/Spider, 反而要求網頁的作者, 到其網站登錄資料, 如果登錄到不適的主題下,
使用者也就難以找到。
雅虎Yahoo!已經併購AlltheWeb、AltaVista、Inktomi及Overture四個搜尋引擎,仍保有各自的介面,但資料庫已
趨向整合。
亞馬遜書店Amazon以「Search Inside the Book」進入搜尋引擎領域,可供檢索的書達12萬冊。
分類列舉主要的搜尋引擎, 還有依國分的搜尋引擎列表。
1998年八月以來,Direct Hit 以使用者的點閱次數及停留時間,做為排比搜尋結果的依據。
http://www.news.com/News/Item/Textonly/0,25,37315,00.html
Google以被連結的次數,做為排比搜尋結果的依據,它的本意是googol, 十的百次方,由史丹佛大學電腦研究所畢業生 Sergey Brin 與 Larry Page 共同於1998年開發。http://www.google.com
搜尋引擎評鑑Media Metrix Search Engine Ratings, http://searchenginewatch.com/reports/mediametrix.html
毛慶禎 |