搜尋引擎

毛慶禎

輔仁大學圖書資訊學系   

2001/10/20


依搜尋對象的不同,搜尋引擎大致可以區分為四類:

搜尋引擎的資料庫,由蜘蛛精(spider)或爬蟲(crawler)在網路上主動抓出。符合這樣條件的搜尋引擎並不多:

網頁的數量愈來愈多, 以數十億計, 連結更是以百億為單位, 成長的速度超乎想像。搜尋引擎的技術推陳出新, 就是為了面對這種變動劇烈的環境。

Johns Hopkins University 採用 Inktomi 的 Ultraseek 軟體, 讓使用者檢索其校園的網頁內容。http://www.techweb.com/wire/story/TWB20001228S0004

Google

Google似乎是集所有的搜尋引擎功能於一身的產品,不過,新一代的小型搜尋引擎正在迎頭趕上。Google有著最大的URL資料庫,往往還能找出非常準確的搜尋結果。該公司甚至已開始獲利了。但是,所有的帝國都將會走向滅亡。

每個人都喜歡用Google,因為它簡單而實用。很多人都在用它,甚至連古巴的Juventud Rebelde這樣的反美網站(西班牙文)也在採用它。

Google有一個重大的缺陷:就是它的搜尋結果太多了,其中大部分都與搜尋主題無關,要瀏覽如此多的結果實在太難了。

因此,目前出現了一類全新的搜尋引擎,試圖提高準確率,或者更好地組織搜尋的結果,以便於瀏覽。

有些搜尋引擎的目標是要打敗Google,成為新的搜尋引擎霸主;還有一些只是希望成為一種具體的研究工具,增加搜尋的深度,縮小搜尋的廣度。

WiseNut

WiseNut是一個於2001年五月份剛推出的頗有前途的搜尋引擎。它使用上下文排列演算法改進了Google搜尋結果的準確性。據WiseNut說,Google沒有這種演算法。

Google是根據其他頁面上的鏈結來排列網頁的:鏈結越多,網頁在搜尋結果中的排列也就越高。WiseNut的上下文排列演算法是對網頁的鏈結和頁面上的文字進行檢查,然後將兩者相比較,與搜尋主題關係密切的就放在前面。

WiseNut還將同一網網站的不同網頁歸類在一個搜尋結果列表中,這樣一個頁面可以顯示更多的結果。

WiseNut表示他們有最快、效率最高的搜尋技術。該公司表示每天只需使用100台空閒的伺服器就可以為5,000萬個網頁索引,比其他任何搜尋引擎都要快。目前它的資料庫中有8億個網頁(Google有10億個網頁)。

相關性是Google的長處,不過,每隔兩三年就會出現新的搜尋引擎霸主,似乎成為網際網路慣例,起初是雅虎,然後換成Altavista,接下來是Google。

http://www.wisenut.com/, 現有1,495,332,308網頁,持續增加中。

Teoma

Teoma的目標也是要趕過Google。該公司表示他們對「相關」網站進行判斷,相關的搜尋結果比Google還要多。

Google的系統是以網路結構為基礎的:網站是以訪問量來排列的。網頁的點擊率和鏈結數越多,搜尋結果中的排列就越高。

Teoma進一步發展了這個規則,它根據其他網站對該網頁上與搜尋主題相關的鏈結數來排列的。這不僅僅可以說明網站的訪問量大小,還可以顯示出這個網站在同類網站中的排名。

Teoma根據搜尋主題來搜尋資料庫中合適的網頁,然後將搜尋結果根據主題排列,引擎再排列出同一主題中訪問量最大的網站。

Teoma為了解決Google搜尋結果的組織問題,使用3種不同的方法來顯示搜尋結果:1.普通排列,這種方法可以顯示最「可信賴的」網站;2.按主題排列及3.按專家的鏈結,由該主題的專家所提供的鏈結。

不過Teoma雖然改進了組織的方法,但是覆蓋範圍卻不夠廣:Teoma的URL資料庫中還不到1億個網頁。

http://www.teoma.com/, 很謙虛,還在Beta測試中。

Lasoo

另一個增加搜尋相關性的方法就是限制搜尋的範圍。

總部在多倫多的Lasoo根據地域對搜尋範圍加以限制,它要求使用者在電子地圖上用「套索」(lasso)的方式選擇搜尋的區域。

Lasoo和Google不同,它只在選擇的地域內搜尋商業和就業等資訊。

Lasoo根據與使用者所選擇的「中心」的接近程度來選擇資訊。它並不是根據行政或政治分界來確定選擇範圍。搜尋結果會顯示在地圖上。

高速地圖伺服器技術,讓Lasoo可以為世界任何地方產生地圖。Lasoo的技術長福斯(Peter Forth)表示,特有的地域搜尋引擎技術,可以在3,000萬家根據地域編碼的機構中,搜尋某個具體地域中符合某個關鍵字的資訊。

據福斯說,像雅虎等其他多數地域搜尋引擎都把著重點放在美國或世界主要城市,但Lasoo是面對全世界的。

http://www.lasoo.com/ 

CURE

CURE透過限制知識範圍來限制搜尋範圍。

Starpond的合作使用研究引擎(Collaborative Use Research Engine, CURE)是一項針對大學和研究機構的訂閱使用服務。

訂戶可以選擇他們感興趣的某個具體知識領域,CURE就會將搜尋限制在相關的學術資源內。

和Google一樣,CURE也是根據其他研究此領域的CURE使用者訪問量的大小來排列網頁的。

http://www.starpond.com/signin.cfm, 需要註冊。

Vivisimo

Vivisimo 是Carnegie Mellon大學的一家資產分派(spin-off)的公司。它使用其他搜尋引擎,並把搜尋的結果進行歸類。

Vivisimo將其他搜尋引擎所搜尋到的摘要進行歸類,並根據描述性辭彙排列網頁。使用者可以挑選許多搜尋引擎,包括Google,Altavista和Hotbot。

資訊歸類是電腦科學中一個由來已久的問題,Visisimo總裁威爾笛斯(Raul Perez Valdes)指出,Visisimo開發的演算法,可以極佳化資訊的分組,使其易於描述。

該公司計劃將他們的歸類技術賣給其他搜尋引擎和公司網站,不過它已經引起了許多使用者的注意:網站的訪問量平均每月增長43%。

http://vivisimo.com/ 

熱門的

在眾多搜尋引擎裡, 還是有一些較為熱門的:

  1. All the Web, All the Time - http://alltheweb.com可以設定 46 種語言, 包括中文在內, http://www.alltheweb.com/customize.php3
  2. AOL, http://search.aol.com/ 
  3. Altavista, http://www.altavista.com/, 檢索中文需先設定, Customize Settings, http://www.altavista.com/cgi-bin/query?pref=res&stype=stext&Translate=on&sc=on 
  4. Direct Hit, http://www.directhit.com/ 
  5. EuroSeek, http://www.euroseek.com 
  6. Excite, http://www.excite.com/, 中文http://chinese.excite.com/ 
  7. Fast Search, http://www.bos2.alltheweb.com/ 檢索中文
  8. FindWhat, http://www.findwhat.com/ 
  9. GoTo, http://www.goto.com 
  10. Google, http://www.google.com/, 可以用26種語言檢索, http://www.google.com/preferences, 還有很多語言的介面, 來不及做, 希望有志工參與, http://services.google.com/tcbin/tc.py?cmd=status, 檢索中文
  11. Hotbot, http://hotbot.lycos.com/ 
  12. iWon, http://www.iwon.com/ 
  13. LookSmart, http://www.looksmart.com/ 
  14. Lycos, http://www.lycos.com/, 檢索中文, http://tw.lycosasia.com/  
  15. MSN, http://search.msn.com/, 檢索中文, http://search.msn.com.tw/ 
  16. 臺灣網路資源搜尋, http://www.openfind.com.tw/  
  17. Northern Light, http://www.northernlight.com/ 
  18. Webcrawler, http://www.webcrawler.com/ 
  19. Yahoo, http://www.yahoo.com/, 檢索中文, http://chinese.yahoo.com/ 

iWon有三個資料來源:

付錢的話, 還有 BrightPlanet 公司出品的 LexiBot 軟體, 售價是 89.95 美元, 可以免費試用 30 天。它同時搜尋六百多個搜尋引擎及資料庫, 巨細糜遺。

排名

Meta tags 的內容最能影響排名, 其次是題名、連結。

從財務的立場考量, 搜尋引擎採用二種方式向網頁主收費:

祗要是付錢的做法, 都會影響搜尋的結果。

根據Inktomi創辦人Eric Brewer的說法,1994年出現AltaVista, Exciet, Infoseek, Lycos等第零代搜尋引擎,被索引的網頁不超過一百萬個,偶而才上網(crawled)找新網頁,更新索引。檢索效率差,速度慢,相對於當時的網頁現況,Netscape的「What's New」就可以追蹤整個網路的資料。

第一代的搜尋引擎,每天可檢索一千萬個網頁,索引的網頁在五千萬個左右,AltaVista及Inktomi為此時期的代表作。AltaVista以多處理器的功能超強電腦,不捨晝夜的在網路上搜尋資料;Inktomi(現在的Google及FAST公司的alltheweb亦然)採取分而治之的策略,以小型電腦平行處理這些工作。

第二代搜尋引擎不以搜尋網站為滿足,小型入口網站流行後,地區型的搜尋引擎逐漸興起。檢索結果的相關度成為議題,Google及IBM公司的Clever計畫是改進相關度的重要指標;使用者回饋的意見、檢索記錄及點閱分析,成為計算相關度的來源之一;Northern Light及Inktomi Directory Engine不約而同研發自動歸類系統。

改進相關度的同時,又企圖擴大檢索的範圍,第三代搜尋引擎就是魚與熊掌兼得型。Inktomi是其中的代表作,索引的網頁超過十億筆,每天又能吸引一億三千多萬個用戶。

另一種分期的方法較為簡潔,第一代搜尋引擎為 gopher, 第二代搜尋引擎正流行, 第三代搜尋引擎同時尋找網際網路以外的資訊。

檢視整個網路,將有意義的網頁做成索引,包括MP3、PDF、影片等,根據用戶個人的資料及喜好,同時檢索數個資訊領域,Inktomi將這個技術稱為「integrated relevance architecture」,整合性相關度架構。

讀取網頁的前幾百個字, 判斷該網頁的屬性。不過, 圖形為主的網頁, 並不適合這種環境。

Inktomi, AltaVista, FAST, Northern Light 等, 以資料庫數量取勝。

Oneupweb focuses on placing your site prominently in these top Internet search engines and directories.

搜尋引擎 主題名錄
  1. AltaVista
  2. Infoseek/Go
  3. Excite
  4. All The Web/Fast
  5. AOL
  6. Google
  7. GoTo
  8. HotBot
  9. Inktomi
  1. IWon
  2. Lycos
  3. MSN
  4. NBCi Directory
  5. Netscape
  6. Northern Light
  7. Open Directory/DMOZ
  8. Yahoo Directory
  9. Yahoo/Google

期刊論文

  1. AltaVista http://www.altavista.com/
    完整的功能
  2. AOL Search
  3. Ask Jeeves, http://www.ask.co.uk/
  4. http://www.cpemic.com
  5. Direct Hit, http://www.directhit.com
  6. Excite, http://www.excite.com/, 檢索中文, http://chinese.excite.com/  
  7. FAST Search, http://www.alltheweb.com
    號稱有三億個網頁, 資料庫容量最大
  8. Go Guides
  9. Google, http://www.google.com
    依照被連結率排序, 網頁的 citation index
  10. GuruNet http://www.gurunet.com/
  11. HotBot
  12. Infoseek
  13. Inktomi http://www.inktomi.com/,
    真正的搜尋引擎, Excite、HotBot、MSN、Yahoo!等公司, 都採用它的核心。
  14. LookSmart, http://www.looksmart.com/ 
  15. Lycos
  16. Northern Light
  17. Openfind 網擎 - http://www.openfind.com.tw
  18. Snap
  19. WebBrain http://www.webbrain.com/,
    WebBrain lets you search the Web visually, so you can explore a dynamic picture of related information, instead of searching through long lists of text. WebBrain lets you easily browse the Web and discover what’s out there. WebBrain uses TheBrain technology, which enables effective use of knowledge on the Web, the corporate intranet, and even your personal computer.
  20. Yahoo! http://www.yahoo.com/

多重搜尋引擎

  1. CNET Search.com, http://www.search.com/ 
  2. Ixquick, http://ixquick.com/ 
  3. Infozoid
  4. Dogpile, 吉祥物叫 Arfil, http://www.dogpile.com
  5. Dataware Query Server
  6. Exploratorius, http://www.exploratorius.com 
  7. MetaCrawler, http://www.metacrawler.com/index.html 
  8. Metor
  9. Ask Jeeves, http://www.ask.com/ 
  10. C4, http://www.c4.com
  11. Profusion
  12. Powersearch

Internet Tourbus, http://www.tourbus.com/, 提供多重搜尋引擎的技術

給一次指令, 分送至多個搜尋引擎, 整理取得的結果, 剔除重複, 以相關度排序; 多重搜尋引擎 (metashearch) 具有這種功能。

它的弱點是無法把複雜的指令轉換為各個搜尋引擎的專屬指令, 最好使用簡單的鍵詞檢索, 或者用引號把鍵詞括住, 用加號及減號代表聯集與差集。

 Infozoid 堪稱速度最快, 最有彈性的多重搜尋引擎, 自動轉換布林邏輯及萬用字元; 唯一的遺憾是它不支援 Northern Light。

Dataware Query Server

Metor

找照片

Singingfish.com 是影音流(stream)搜尋引擎, 檢索音樂及影像檔的檔名或其他文字, 無法直接檢索音樂及影像。本身不經營網站, 授權給其他的網站使用, http://www.singingfish.com。 

Swiss-search.com(德文網站)是第一個被授權使用該引擎的網站, http://www.swiss-search.com/

eefind 新視科技發展中文圖片搜尋服務, 採用過濾技術, 不會出現色情與其他血腥圖片。

AltaVista、Corbis、Ditto、Photo Finder、Lycos、Virage、Yahoo。

找照片用的引擎, http://www.ditto.com/ 

新聞檢索

Moreover.com

檢索方式

前言 http://searchenginewatch.com/resources/tutorials.html

通用數學 Search Engine Math http://searchenginewatch.com/facts/math.html

常用語法 http://searchenginewatch.com/facts/powsearch.html

布林邏輯  http://searchenginewatch.com/facts/boolean.html

特色  http://searchenginewatch.com/facts/assistance.html

找多多久才甘願, WebTop.com 搜尋引擎公司調查用戶後, 發現 12 分鐘是用戶的極限。不是所有的資訊都在網上, 所以, 上網 12 分鐘還找不到預期的資訊, 絕大多數的用戶會放棄它, 改用傳統的方法再找。

http://www.zdnet.com/zdnn/stories/news/0,4586,2667216,00.html

深層網頁

據 BrightPlanet.com 公司的估計, 通用型搜尋引擎可以檢索百分之一的網頁資訊, 大約還有五千億份資料是一般搜尋引擎無法觸及的, 包括多媒體檔案、書目資料、資料庫裡的記錄、PDF檔案等。至於躲在防火牆後, 或屬於內部網路 (Intranet) 及外部網路 (Extranet) 的資料, 更是外人難以一探究竟的領域。

BrightPlanet.com 公司稱它為 Deep Web, 有的人稱它為 Invisible Web。

針對醫學、法律文件, 甚至笑話等專門的領域, 還有特別的搜尋引擎:

搜尋深層網頁的引擎, 挑選特定領域裡少數最棒的網頁, 做全面性的搜尋。它們派出的軟體代理人 (Software Agents, or, Bots), 不僅尋找網頁, 而且還會爬梳其內容。

有了圖書館還少不了參考圖書館員, 有了搜尋引擎並不表示使用者就此滿意, 還是需要專業人士的協助, 才能夠找到合適的資料。

通用型搜尋引擎不會放過這個領域:

多媒體資訊可以從幾個特定網站查詢:

網路搜尋工具的發展, 已超越一般人的使用習慣, 以簡單的幾個字為鍵詞, 經常找出超量的資料, 唯有運用複雜的布林邏輯或完整的自然語言, 或者從專業型的搜尋引擎著手, 才可能找到特定的資訊。

目前的技術, 還無法判斷使用者的需求, 自動切換到專業型搜尋引擎。

1994年底屬於台灣人自己的搜尋引擎蕃薯藤,開始慢慢茁壯,在那個網際網路不發達的時代,蕃薯藤曾紅透了半邊天,98年開始轉型商業化,網路越來越普及之後,相對的競爭對手開始出現,Kimo奇摩站於97年出現、98年台灣新浪網正式運作、98年PChome online的前身Todo入門網站也加入戰局,99年世界知名搜尋引擎yahoo更看上台灣市場,蕃薯藤雖力求更進一步,小蕃薯、女性網紛紛成立,也不時舉辦活動,但給予外界欲振乏力的印象,人氣一直無法大幅抬升,2000年yahoo與kimo合併,將為蕃薯藤帶來更大的壓力,合併結果尚未有一個具體雛形,因此外界一般認為kimo、PChome Online、蕃薯藤,分屬為前三大入口網站。

今日這份報告,相較於12月初NetValue公佈的11月份報告,較值得注意的是蕃薯藤與新浪網的表現,單就此兩份報告來說,網域群的整體排名新浪網從上次的第七名躍升為第四名,蕃薯藤卻從第五名降至第六名;網域部分的排名,新浪網也由原來的第七名變成第四名,而蕃薯藤去從第四名降至第六名。蕃薯藤於12月與美國當紅搜尋引擎Google達成策略合作,引用Google的網頁搜尋技術,蕃薯藤亦成為Google在台第一個合作伙伴,以這兩份報告來說,這樣的動作,似乎未幫助蕃薯藤立即增加人氣,但是,合作的效益無法在短期內就下一個評斷,仍值得後續觀察評估;另外,新浪網最近雖沒有大動作,但是網路上卻謠傳新浪網在台從事統戰行為,總經理蔣顯彬亦發出聲名函嚴正否認,謠言似乎無損於新浪網的人氣,在報告中有相當不錯的表現。



相關網址 : http://www.netvalue.com/

相關新聞:網路調查眾說紛紜,iamasia與NetValue較勁意味濃厚 :
http://www.pchome.com.tw/nettoday/nettoday-2000-12-05.ht
ml


參考資源

  1. Taiwan.CNET.com - 企業應用 - 搜尋網站終極指南, http://taiwan.cnet.com/ebusiness/internet/story/0,2000033972,20000419-20001040c,00.htm 

  1. Search Engine Showdown: The Users' Guide to Web Searching, http://www.searchengineshowdown.com/

  2. Search Engine Watch, http://www.searchenginewatch.com

  3. , http://www.notess.com/write/onthenet.shtml

  4. http://www.searchenginewatch.com/links/Major_Search_Engines/The_Major_Search_Engines/index.html

  5. 1998年八月以來,Direct Hit 以使用者的點閱次數及停留時間,做為排比搜尋結果的依據。
    http://www.news.com/News/Item/Textonly/0,25,37315,00.html  

  6. Google以被連結的次數,做為排比搜尋結果的依據,它的本意是googol, 十的百次方,由史丹佛大學電腦研究所畢業生 Sergey Brin 與 Larry Page 共同於1998年開發。http://www.google.com

  7. Ask Jeeves, 分析鍵入的句子, 自行解讀其中的涵義, 並回應最可能的答案。http://www.ask.com

  8. 多重搜擎 http://www.askjeeves.com, http://www.metasearch.com, http://www.powersearch.com,

  9. 搜尋引擎新聞
    http://searchenginewatch.com/whatsnew.html

  10. 搜尋引擎評鑑Media Metrix Search Engine Ratings
    http://searchenginewatch.com/reports/mediametrix.html

    毛慶禎
    臺北縣新莊市輔仁大學圖書資訊學系
    Tel: 02 29031111 ext 2334, 3244(研究室) - Fax: 02 29017405
    E-mail: mao@blue.lins.fju.edu.tw
    http://www.lins.fju.edu.tw/~mao/internet/engines.htm