2000/12/19, 蕃薯藤與成立於 1998 年的 Google 簽約, 採用其全文搜尋服務, 命名為「有機式複合搜尋」服務。
Google 在大陸的夥伴是網易, 在日本的盟友是 Biglobe。
可以搜尋中文資訊的引擎並不多, 以下是若干較具代表性的:
All the Web, All the Time - http://alltheweb.com
可以設定 46 種語言, 包括中文在內, http://www.alltheweb.com/customize.php3
AltaVista, http://world.altavista.com/
中文 Excite, http://chinese.excite.com/index.b5.dcg
Google, http://www.google.com/, 可以用26種語言檢索, http://www.google.com/preferences, 還有很多語言的介面, 來不及做, 希望有志工參與, http://services.google.com/tcbin/tc.py?cmd=status
臺灣網路資源搜尋, http://www.openfind.com.tw/
中文搜尋引擎
【一】前言
在台灣的搜尋引擎跟國外比較起來實在是不多,原因在於 Internet 在台灣市場出現較慢,商場上的需求尚未那麼迫切,再加上中文搜尋上的不易(我在後頭會詳加說明﹚使得中文搜尋引擎的研發,遠比英文搜尋引擎的難度要高很多。然而,一般人對搜尋的需求還是有的,只是以市場角度而言,還是等 Internet 上有充裕的網頁的時候,搜尋引擎的需求才更可能明顯的浮出台面。而學術界跟業界早就虎視眈眈想要吃掉中文搜尋引擎的市場,誰都想搞出個類似國外 Yahoo、Alta Vista、Lycos、HotBot、InfoSeek、NetFind、WebCrawler、Excite 等(上期介紹過﹚的商業化搜尋網站,賺廣告費。資策會出了套探索眼、中研院的 CSMART、中正大學的 GAIS、漢珍、飛資得、虹成,以及 HiNet 跟 SeedNet 等,當然還包括大家耳熟能詳的蕃薯藤,以及剛加入戰局的龍捲風和商業化後的 GAIS。撇開這些中文搜尋網站優缺點不談(比較的部份我想留在第四期報導﹚,現在就來簡單的介紹中文搜尋引擎。
【二】中文搜尋引擎簡介
搜尋引擎一般由三個部份所組成:Spider, Indexer, Weighting,而由於中文是屬於 Double Bytes(雙位元組﹚編碼的,在台灣市面上用的是 BIG5 碼,而在大陸用的則是 GB 碼。而中文的文章中,並沒有空白可以斷字。在英文,例如:"Alta Vista is my favorite search engine",這句話就是由七個 Words 構成,中間有空白 (Space) 隔開,因此,Indexer 知道去檢索這七個字,記錄這七字個的位置,並放到檢索表中。但是中文呢?例如:"架設搜尋引擎需要相當難度的軟體技術與極佳的硬體資源"。乍看之下好像是二十五個字,而有些應該把前後連續的字合起來算為詞,才是英文所謂的Word,例如:"軟體"、"硬體"、"技術"、"資源"、"搜尋引擎"等,都可以當成詞建立檢索資料,但這段中文字串裡頭又沒有 Space 可以用來斷字,該如何斷字呢?這就牽涉到斷字上的問題了。要是再加上文章中出現 Space 跟英文,那 Indexer 又該如何斷字呢?因此中文搜尋引擎除了要能吃 BIG5 雙碼之外,還要有聰明的斷字法則,甚至符合自然語言 (Natural Language) 的類似 Fuzzy 功能,當然,這部份就更需要藉助字典 (Dictionary) 或辭典 (Thesaurus) 的輔助,而且在設計上相形難度更高。Spider 似乎是每個 Web Search Engine 必備的資料擷取器 (Data Catcher),從遠端抓回網頁資料,再送給 Indexer 去對資料做索引,而中文的全文檢索上,可能需要相關的字典或辭典輔助,讓 Index 藉此斷字,以便建立適當的索引資料。而 Weighting的部份,也就是所謂計分的部份,就跟搜尋相關,有其特殊的一套演算法(甚至好幾套﹚來算出搜尋所傳回結果中,與搜尋字串相關度的比較,將最相關的文件排在最上頭,甚至做特殊的 Highlight 效果,乃至於可以篩選日期 (Date) 年月日、甚至限制 Domain Name。(也就是限定所傳回結果網頁的 Domain Name 必須是來自於某個網域,例如:http://xxx.xxx.edu.tw 或 http://xxx.xxx.co.jp﹚對搜尋引擎這三個主要部份,先略過 Spider 不談,先來說說 Index 及 Search 的需求分析。
【三】索引 (Index) 上的需求分析
在任何資料要變成能被搜尋前,必須先經過索引 (Index),當然這部份的需求,是只出現在 Server 端的,而幾乎所有的搜尋引擎,在索引上會注重下列幾個要點:
【四】搜尋 (Search) 上的需求分析
資料一但在 Server 端被 Search Engine 的 Indexer 建立索引檔案之後,我們就可以針對該索引檔案做搜尋動作,下達一些搜尋字串,再加上配合一些搜尋變數,一般而言,在搜尋上,可能會有下列的搜尋需求:
【五】中文搜尋網站大蒐集
在看過了上述的有關 Index 以及 Search 上的需求分析之後,我列出下列幾個“可能“還算有名的中文搜尋網站,有的屬於 Web Directories,也就是目錄索引,有的則屬於真正的 Search Engine,也就是所謂的搜尋引擎。蕃薯藤應該算是國內最早期且最多人常用的目錄索引,裡頭所建立的索引資料,是來自於每個網址擁有人去自動登錄後,而在分類後建立索引,提供使用者做分類上的搜尋,故此類的Web Directories 目錄索引,是不需要含有前述 Search Engine 所必備的Spider。
因此,每個目錄都需要有專人花時間跟心思去分類並且維護,資料一但幾天沒更新,常常搜尋所傳回的結果中,會傳回可能已經倒站,或者根本換名稱或地方的 URL。無論如何,我列出了幾個還算不錯的中文搜尋引擎,讀者可以嘗試著去連上我所給的 URL,連上去,輸入搜尋字串,來個處女搜尋吧!
1. 蕃薯藤網際網路資源索引
http://taiwan.iis.sinica.edu.tw/b5/yam
台灣最受歡迎的網站索引資料庫,精緻分類,免費登錄。蕃薯藤網際網路資源索引是開拓文教基金會的 Formosa on WWW 工作小組規劃製作的計劃之一。成員包括蕭景燈、陳正然、林仲彥、陳淑華、吳俊興等。蕃薯藤是台灣較早期完成一個完整資料搜尋的站台,內容豐富完整。主要搜集的是台灣相關的首頁 (homepages),漸漸擴充至亞太地區台灣相鄰國家與全球華人相關的資料,並輔以國外重要的資源索引,將含蓋 WWW、Gopher、BBS 等各種網路服務。除提供分類導灠、關鍵詞查詢、最新首頁公告、任選自動導灠外,並將做為台灣網路服務的公布管道,方便網友交換相關資訊。
2. GAIS-CD
http://gais.cs.ccu.edu.tw/GAISCD/
於 1994 年 7月,由中正大學資訊工程研究所吳昇副教授所領導的網際網路實驗室, GAIS工作隊所開發,網路資源百科索引 GAISCD (Global Area Information
Servers Conceptual Directory),1995 年 8 月, GAISCD 搜尋引擎 1.0 beta 在Internet 讓人免費使用,開始提供 Tanet BBS 搜尋服務。1997 年 2月第一版完成並開放服務。GAISCD致力於中文分類索引網站的建立,期能成為全台灣,資料最豐富、查詢速度最快的搜尋引擎,提供全方位的資料查詢系統,成為亞太 WWW資訊搜尋中心,並完成數位圖書館的計劃。
http://gais.cs.ccu.edu.tw/cwww2.html
GAIS-WWW 搜尋引擎,涵蓋了台灣大多數 WWW 站的網頁,提供全文檢索的功能。於1996 年 4 月初索引了台灣 1300 個 WWW 站,總數近 20萬筆網頁,原始資料約佔1 Giga的硬碟空間。此部份資料大約每隔一至二個月更新一次。此搜尋引擎將在下一階段擴大索引範圍,遍及亞太地區國家,並將智慧型檢索的功能加進來。
http://sunsite.ccu.edu.tw:8080/news/index.html
GAIS-BBS 文章查詢系統,針對國內之 BBS 討論區,凡是有透過 News 轉信的文章加以索引,以提供檢索服務。此部份之資料每日更新索引資料庫,以月份區隔,提供最近三個月的文章查詢。目前,每個月份的文章總量約佔 300 Mega Bytes 磁碟空間。
http://gais4.cs.ccu.edu.tw:7777/ftpchn.html
GAIS-FTP 搜尋引擎的功用和著名的 Anonymous FTP 檔案搜尋引擎 Archie 類似。目前 GAIS-FTP 索引了國內大約十來個熱門的 Anonymous FTP 大站,例如: nctuccca.edu.tw、ftp.ccu.edu.tw... 等,與一些國外著名的大站如ftp.ncsa.uiuc.edu、wuarchive.wustl.edu 等等。由於 GAIS擁有容錯搜尋的功能,所以可以提供比 Archie 更強的搜尋能力。此優點對於一些不容易完全記得或正確拼寫的檔名搜尋,特別有幫助。
3. SeedNet
http://www.seed.net.tw/comsite-bin/ranlogo?head=Srch.h&tail=Srch.t
台灣商業網收錄以台灣本土工商業為主,內容齊全,可以用公司簡稱來查詢台灣商業網登錄是台灣所有公司行號 Web Site 登錄的起始點,由台灣進入點東南工專直接鏈結過來,本登錄並不收取任何費用,如果您的公司希望透過SEEDNET 台灣商業網的登錄將您的公司訊息散佈全球,讓 Internet 上的使用者能透過我們提供的查詢快速的得到您的訊息,請即登錄 SEEDNET 台灣商業網 !
4. 奇摩站 KIMO
http://www.kimo.com.tw/index.html
蕃薯藤,GAIS 等站台為台灣早期的 Internet 社會所做的貢獻,提供了基本的資料分類,搜尋的功能,不過這些學術性站台由於缺乏商業動機,能提供的服務及未來的發展可能受到限制。因此精誠資訊不惜投下鉅資開發奇摩站 KIMO。希望能帶領台灣 Internet 社會,進入一個全新的商業應用時代 !KIMO 以蒐集亞洲區中文站台為主,並提供新奇、摩登的站台。奇摩站以分類搜尋出發,參考了國內外各大網站的優點,結合獨步全球的中文搜尋技術-- GAIS InfoLamp 蓋世神燈,並加上許多本土的文化特性,以多出蕃薯藤一倍的分類,希望不但能提供台灣網友豐富多變的網路相關資訊,也率先成為台灣第一個專以網頁內容 (Content) 為經營項目的商業站台。
5. 聚寶盆(交大思源基金會)
http://db2serv.cc.nctu.edu.tw/
聚寶盆是一個資料庫引擎,專門收集網路上形形色色的WWW節點,這些節點的範圍涵蓋了政治,商業,學術,電腦技術,休閒育樂,醫療機構...等等,目前蒐集的範圍主要以台灣地區的節點為主。是在財團法人交大思源基金會、國立交通大學、國科會高速電腦中心、新竹科學園區管理局及園區 NII 委員會等五單位之共同籌畫推動下設立的「亞太科技與管理產學資訊站」中的四大資訊庫之一(學術研發資訊、產業研發資訊、數位圖書館、聚寶盆),其主要用意是希望在 Internet 逐漸普及的情形下,能夠運用 WWW 整合產學界相關資料庫,讓學術及產業界人士得以透過網際網路,迅速且方便地查詢並索取研發所需的資料。
6. 哇塞中文網
在西元一九九六年初,一群來自美國矽谷高科技區的華裔成立了哇塞小組,建構出一個哇塞中文網,哇塞是屬於類似蕃薯藤的 Web Directories,其分類分為藝文、電腦、娛樂、人類、休閒、購物、商業、教育、健康、政治、科學、運動等十二大項,內容包羅萬象。哇塞領先推出了全球第一個「三合一」的中文網頁目錄。使用者可利用 Big5、GIF 中文目錄及英文查尋任何需要的資訊。有中文系統的使用者可利用大五碼 Big5 觀看使用,沒有中文系統的朋友可利用 GIF 中文目錄觀看使用,不懂中文的人亦可利用英文查尋所需要的資訊。
7. 怪獸搜尋機
「怪獸」這位台灣網路的傳奇人物,製作出一流的怪獸機,相當有希望成為台灣的 YAHOO! 是專門的中文搜尋引擎,搜尋主力在中文的 www站台,精彩的國外站台也是不會放過的,只要簡單的輸入你想知道的東西,資訊(甚至隻字片語)它都能幫你找到資料,如果剛好沒你要的資料,你也可很快的按下其他的搜尋引擎,馬上可以查到相關的資料。
8. YES! 搜尋引擎
http://yes.net.tw/search/plugin.htm
YES 登錄引擎是一個便利、精緻且快速的 WWW搜尋引擎由旅行家資訊系統有限公司製作,尤其在休閒娛樂領域的資訊,其資料蒐集尤其豐富且新。YES提供的快速登錄服務,特別是蕃薯藤與 Yahoo 所沒有。
9. 台灣國際商情服務中心搜尋引擎 (Taiwan Commerce Search Engine)
http://www.commerce.com.tw/search/
專業推廣台灣工商產業之商情於世界網路上之公司。其目的就是在幫助工商界在此百業劇爭分秒必爭之資訊時代能以最少之成本迅速且有效率的達成宣傳及行銷目標。盡搜國內外重要商貿資訊於本中心,以供工商界取用掌握商情先機,更秉持效果及服務原則促使工商界商情能最便捷有效地傳遞於國際網路上,以利國內外廠商達成交易或產銷合作進而繁榮台灣經濟。
該站使用 YES! 搜尋引擎,搜尋有關旅遊相關資訊報導。
11. UFO 搜尋引擎
可以登錄或搜尋 UFO 房地市場 -- 免費登錄查詢的房屋買賣資料,全省連線、UFO 跳蚤市場 -- 免費登錄查詢,分類詳細的二手買賣資訊、UFO 汽車市場 --免費登錄查詢的汽車買賣資料。
http://greenworld.com.tw/explorer/
http://www.asiannet.com/search
14. Coo 台灣索引
15. HELLO 網路資源索引
四通電訊製作之索引
http://w5.dj.net.tw/~rexstudio/search/index.html
Rex Studio S.E 搜尋引擎是採用 [全文檢索+字串比對],故您輸入越少的關鍵字, 則查得到的結果會愈多。您若需要更精準的查詢結果, 您可以用多個關鍵字來組合查詢, 查詢的方法類似 YAHOO的搜尋方式,然後輸出的查詢結果類似蕃薯藤。搜尋引擎搜尋到您要的資料時,會自動告訴您共搜尋到幾筆符合的資料,當您按下網站說明的連結時,Rex Studio S.E 搜尋引擎會自動幫您開啟一個新的瀏覽視窗連結到該網站。
17. 台灣工商黃頁 (Taiwan Yellow Page)
台灣工商黃頁(TaiwanYellowPages)是一個工商資料庫,內容完整,提供各工商產業之資料查詢,並協助各行各業製作 HOMEPAGE,網路連線等,有關網路資訊各種服務,是難得的好站
【六】中文全文檢索的問題
還記得筆者在大學時,曾在圖書館使用過線上公用目錄 (Online Publication Access Catalog, OPAC),拿來查詢圖書目錄,當時就很好奇,卻常常查出一堆不是我所想要的書目,為什麼呢?我歸納原因可能為下列幾點:
(了解搜尋者對搜尋的需求)
因此,一個良好的中文搜尋引擎,必須先去了解一般使用者的搜尋需求,先去知道大多數【無知】的搜尋資料者,會下什麼樣的搜尋字串,藉此在線上 Help 裡頭,或者是 FAQ (Frequently Asked Questions) 裡頭,好好教育使用者,如何使用該搜尋引擎。此外,知道何謂布林搜尋 (Boolean Search) 也是挺重要的,大多數的搜尋引擎都支援 AND, OR, NOT。
(布林搜尋)
例如搜尋字串為 "李登輝" AND "吃豬肉",則就是表示要搜尋引擎找出所有文章中,有 "李登輝" 也有 "吃豬肉" 的網頁。若搜尋字串為 "李登輝" OR "連戰",則就是表示要搜尋引擎找出文章中,含有 "李登輝" 或者是 "連戰" 的網頁,不一定每篇當中一定要兩個都有,只要有一個找到,就算合乎搜尋條件。至於 NOT 的殺傷力就很強了,例如所指定的搜尋字串為 "李登輝" NOT "國民黨",則表示希望搜尋引擎去找出所有網頁中含有 "李登輝" 這三個字,但網頁中不允許有 "國民黨" 有關的字眼出現,也就是你希望找有關李登輝,但所傳回的網頁中,不要有跟 "國民黨" 有相關的資料。NOT 在用法上,可以砍掉很多 Results,但要先知道所傳回資料中的比例,以及依照個人所需要的結果,將 NOT 用在適當的字串上,才能發揮 NOT 的效果。
(中文博大精深、無遠弗屆)
至於第三點:系統太爛了!?這。。怎麼說呢?唉!我以前常常感嘆中文的含糊朦朧之美,也常常讚嘆中文模糊的深奧影射,常常短短的幾個字,可以代表很多的含意跟隱喻,真可所謂博大精深,無遠弗屆。這在文學上是很美的,但在科學上,卻是不好的。科學的定義要求的是準確,要求的是有層次大小精確之分。舉個例子:在中文裡頭,小,有點小,非常小,很小,小到沒辦法小,這幾個詞還是令人無法比較之間的差別;而英文的定義就比較明確了,small, smaller, tiny, micro 等等。除此之外,語言的不同,造就了搜尋引擎內部設計的不同,難在雙碼的搜尋,以及字詞斷字的判別。因為,中文太博大精深,也太多情況造成錯誤的搜尋(因為沒有英文中的空白)。例如,網頁中有段文章寫到:『陳台北上進香。。。。』則當搜尋『台北』的時候,就可能把這篇網頁找出。而事實上,『陳台』是個人名,『北上』是個動作。在斷詞的時候,搜尋引擎可以看為:『陳台+北上+進香』,也可以看成:『陳+台北+上進+香』(此斷字為錯誤的)。當然,還有類似所謂同義字的情況,例如,『台北』等於『臺北』,『臺』跟『台』是相同的。至於更糟糕的是中文簡稱,例如,『北市』等於『台北市』,『立委』等於『立法委員』,『中研院』等於『中央研究院』,更不用說『李登輝』等於『李總統』或『李總統登輝先生』或『李主席』等。更厲害的是,『資策會』等於『III』又等於『III』此類的全形半形搜尋。一般的搜尋引擎能夠全夠吃得下來嗎?就算吃的下來那搜尋效率如何?
根據中文語言上的特質,我把中文搜尋的問題歸納為下列幾點:
最簡明的個例子是『台大』等於『台灣大學』等於『國立台灣大學』等於『NTU』等於『NTU』等於『National Taiwan University』等於『臺大』等於『臺灣大學』等於『國立臺灣大學』。
(一套完善的字典跟辭典)
綜合上列幾點得知,一個好的中文搜尋引擎,需要一個好的中文全文檢索來對文章做斷詞上的辨別,而斷詞上的判定,卻需要一套夠完善的字典,以及辭庫(包括 Synonyms、Thesaurus、Topics)等許許多多字詞的定義。就算定義了,也難保不出任何差錯,通常我們只期望達到 90% - 95%,可是往往可能為了讓搜尋準確度做到某個功能,以便做到原本做不到的那 1%,而做到了這 1%,卻很可能讓整體的搜尋準確度反而降低 5%。
(使用字典跟辭典的優缺點)
利用字典跟辭典來幫助 Indexer 對文件斷詞建立索引,有其優點跟缺點:優點是可以降低索引檔案的大小,缺點是 Tokenizer 需要判定斷字,往往其演算法則耗掉索引時間,因此在建立索引的時間較長,而也可能誤判,而且在搜尋的時候,也造成一些無法彌補的缺憾。例如,原始文章中有『某某委員會的成員紛紛退席抗議。。』,其中若『委員會』被視為一個斷詞 (Token),則以『委員會』建立 Token,放入檢索檔中,若要對『委員』做搜尋,就找不到這篇文章了,而唯一的解法就是搜尋『委員*』,但是這樣又會找出一堆『委員』、『委員會』、『委員長』、『委員夫人』等等。因此,我們可以說,使用字典跟辭典,可以找到比較精準的答案,但卻犧牲了某些文章因字詞的關係而無法用簡單搜尋找到。
(不使用字典跟辭典的優缺點)
而若沒有字典跟辭典的輔助,就是將每個中文字看成一個斷字 (Token),則建立出來的索引檔會比較大,但由於沒有斷詞上的需要,Indexer 也不需要參考字典跟辭典,因此建立 Index 的速度也比較快。但在搜尋上,可能會比較容易找出一堆無關的資料。例如,文章中出現『達爾文的演化學說裡提到適者生存。。』,會在我對『化學』兩個字做搜尋時被找出來,而也找出一篇文章裡寫著『兩個文化學生。。』。另外一個例子是,搜尋『腦科』,卻找出『電腦科學』等等諸如此類。因此,我們可以說,若不使用字典跟辭典的輔助,比較容易找出一堆垃圾。尤其再加上中文地名,中文百家姓,以及一些辭彙組合變化,很多搜尋出來的結果,會令人啼笑皆非。此外,在未來發展方向上,很難做到 Query By Example、Summarization、Clustering、或 Fuzzy Search 等功能。
【七】未來發展方向
觀看中文搜尋的市場,可以分為三種:
Intranet:給企業 (Enterprise) 內部使用的搜尋引擎。Internet:對網路資源做搜尋的搜尋引擎。
一般我們所謂的搜尋引擎,都是講 Internet 上頭使用的搜尋引擎,然而,企業內部與個人的資料反而在搜尋上的需求,遠比對 Internet 上的搜尋來得重要。例如,我想要找某封 Cornerstone 寄給我的 Email,我只要應用搜尋軟體對我的 Emails 建立索引,很快我就可以找到這封對我而言相當重要的 Email。相對的,對大型企業而言,文件更是堆積如山,從何找起呢?而文件的檔案格式更可能多樣化,而不像 Internet 的資料格式只有 TXT 或 HTML,企業內每個員工可能用的文件處理軟體是 WORDS,是Ami Pro,是 WordPerfect 等等。再加上企業文件的存放,可能來自於不同的資料庫,不同的作業系統,因此企業內部使用的搜尋引擎,其可變動性要更強,更要考量安全問題 (Security)。
(未來搜尋引擎的發展方向)
【八】結語
玩搜尋引擎也好一陣子,漸漸的就學到蠻多的搜尋技巧,可以快速的找到網中我所想要的報導文件、Drivers、軟體。當然要做到這樣,可能得先熟悉所使用的搜尋引擎,不同的搜尋引擎得用不同的方式去搜尋,而不同的搜尋需求,得挑用不同的搜尋引擎。讀者在看完第一期的英文搜尋引擎以及第二期中文搜尋引擎的簡介之後,在下期我將介紹搜尋上的一些技巧,並以一些實例做介紹,內容相當精彩!敬請期待,咱們下一期再見!
臺灣網路資源搜尋, http://www.openfind.com.tw/
All the Web, All the Time - alltheweb.com, 在 Customerize 下設定, http://www.alltheweb.com/index.php3
AltaVista, 在 Languae 下設定, http://www.altavista.com/
Google, 在 Google in your Language 下設定, http://www.google.com/