網路資源搜尋工具

毛慶禎

輔仁大學圖書資訊學系   

2000/11/02


  1. 前言
  2. 檢索工具
  3. 搜尋引擎
    1. 資料搜尋器
    2. 中文介面的搜尋引擎
    3. 外文介面的搜尋引擎
  4. 全文檢索與欄位檢索
    1. 精確鍵詞
    2. 自然語言
    3. 截切字元
    4. 高頻字
  5. 布林邏輯
    1. 交集 AND
    2. 聯集 OR
    3. 差集 NOT
    4. 接近 NEAR
    5. 多層檢索 Nested Searches
  6. 評比
  7. 結論

前言

搜尋引擎報告 The Search Engine Report http://searchenginewatch.com

搜尋引擎數學 Search Engine Math http://searchenginewatch.com/facts/math.html

網際網路的起源甚早, 大約在1960年代未期的美國, 因應冷戰的需要, 建立ARPANET, 即是網際網路的前身。

臺灣從1989年開始建立國立大學間的校際網路, 稱為臺灣學術網路; 直到1991年底才透過美國普林斯頓大學的JcVCnet, 和網際網路搭上線, 於1992年6月9日正式對外公開。

約與臺灣學術網路的發展平行, 資訊工業策進會也進行種子網路的專案, 供個人及學術單位以外的團體使用。

至於一般民眾的需求, 要等到1994年, 才由電信局成立HiNet, 與美國的 ANSnet 連線, 成為網際網路一員。

怎麼定義網際網路是一大難題, 最單純的定義有兩種:

它有幾個特性:

非常龐大
數以百萬計的電腦已連上這個網路, 實際有多少電腦連上並不重要, 我們在意的是它可提供的資料。
緒亂
理論上, 每個網站都要經過註冊, 實際上, 真的這麼做的並不多, 所以我們面對的一片混亂, 幸好有些人基於特定原因, 願意把這些網站做適度的整理。
品質不定
任何人都可以把資料送上網際網路, 完全沒有任何管制, 因此它的品質可想而知。

檢索工具

我們的全部, 其實祗是別人生命中的一小部份; 全球資訊網由歐洲一個物理實驗室, 為了自己工作上的方便, 設計這種傳遞資料的方式, 卻成為圖書資訊界的大事; 目前由一個全球資訊網協會建議相關的標準。

在全球資訊網的世界裡, 有多少網頁呢? 五千萬是最保守的估計, 可能超過一億吧! 若將每個網頁上的連結也計算在,內, 說它有十億個也不算誇張。

為了從網際網路裡檢索出相關的資料, 已經發展出來的網路資源檢索工具, 大致可以 歸類為下列十二種:

  1. 搜尋引擎, 依照網站的內容, 搜尋合用的網站。
  2. 主題名錄, 依照網站的屬性, 決定其合用性, 需要人工介入。
  3. 同步搜尋介面, 一個指令, 可以同時運用多個搜尋引擎。
  4. 地區名錄, 依照網站的位置, 或其地區性, 篩選之。
  5. 人名字典, 也適用於團體。
  6. 商業名錄, 找公司行號之用。
  7. 軟體目錄, 何必花錢買, 用這個工具找找看, 應有意外的收獲。
  8. 網網相連, 大多數人都有自己的一套, 不妨從這裡開始。
  9. 科技文獻, 讀書人的最愛。
  10. 地址查訪, 親朋好友就從這裡開始。
  11. 入門知識,, 即使是老手也需要偶而來這兒看看。
  12. 其他, 連接各圖書館、字典、或辭語典。

透過超連結的方式, 理論上, 所有的網站都可以連接在一起, 就像是電話一樣, 沒有起點, 也看不到終點。所幸在混亂之中, 還是有點秩序, 那就是搜尋網站, 利用它的工具, 任何網站都會現形, 除非它是不公開的。

所以, 應讀者要求, 找出任何已經或即將存在的資訊, 是圖書資訊學的終極目標。到了網際網路的時代, 成為可行的方案, 而不僅是理想而已,

不用擔心你不知道什麼, 不會什麼, 在網網相連的世界裡, 我們的迷惑應是, 不要知道什麼, 該會什麼, 搜尋引擎不是三、五個, 它已經多到氾濫的地步, 還要專門的網站來搜集它, 事實上, 除了專門的研究學者之外, 一般的讀者祗要會一兩種也足夠了。

通常依據搜尋網站的性質, 將它們分為搜尋引擎及主題名錄, 如果將網際網路視為一本極大的書, 搜尋引擎就是書後的索引, 書前的目次就是主題名錄了。

搜尋引擎

面對數以億計的網頁, 如何爬梳特定領域的資料, 成為圖書資訊學的重要課題。廠商也聽到我們的需求, 在推動網際網路的同時, 不忘建立各種型態的搜尋引擎, 每家廠商都號稱是最好的, 或者是最有特色的。

站在使用者的立場, 為了讓線上搜尋更有效率, 選擇最合適的搜尋引擎是第一件要事, 然後是適度的描述搜尋需求。前者即是從數以千百計的搜尋工具中, 挑選與自己匹配的, 後者即是學習基本的布林邏輯, 或明白階層式樹狀分類原則。

聽說, Verity inc 推出的搜尋引擎是功能最強的, 目前有十七種語言版本, 包括中文繁體在內 搜尋的工具, 可以大略分為索引式搜尋引擎及分類式主題名錄兩種。

Search.com 宣稱它們最鍾意的七個搜尋引擎是:

其實, 一般人公認還好的通用搜尋引擎是有六個:

AltaVista 是少數沒有附帶主題名錄的搜尋引擎。 實際上的搜尋引擎可多著呢, 不妨到 Yahoo! 去找找看, http://www.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/Web_Directories/, 它的對應中文網站裡, 也有相當的資料, http://chinese.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/Web_Directories/, 僅此一處就令咋舌。

至於可以搜尋中文網頁的搜尋引擎, 雖然, 已經有若干產品問市, 但是離真正的商品化, 還要一段時間, 其中以中正大學吳昇教授領導的團隊最被看好, 發展出來的蓋世引擎已經在商品化中, 目前有三家業者採用其系統: 奇摩站(Kimo)、八爪魚(仲琦科技) 及Openfind(臺灣網擎)。

資料搜尋器

布林邏輯

布林邏輯是很古老的東西, 和電腦相隔實在很遠, 竟然能夠連在一起, 而且密不可分, 令我們不得不感念造物主的安排。

最常用的布林邏輯祗有三個: 交集(AND)、聯集(OR)、差集(NOT)。在蒐尋引擎裡, 還可以有近似、接近、靠近等較高階的用法。

每個搜尋網站對於布林邏輯的運用, 都有自己獨特的一套看法, 就像是同樣一張桌子, 有的人會來當書桌, 有人拿來當餐桌, 也可能會來當椅子用, 但是其基本性質是不會改變的。

  1. 交集 AND

    通常用加號 + 或大寫的字母 AND

    以交集(and)的方式運算, 必須同時符合數個集合內的條件, 才計入結果。有效的精煉原先龐雜的結果。

  2. 聯集 OR

    空格就是聯集, 或大寫的字母 OR

    以聯集(or)的方式, 可以有效的擴張搜尋結果, 祗是面對龐大的資料回應量時, 使用聯集的機會, 非常有限。但是, 或許是人類的本性吧, 多數的搜尋網站仍以聯集為內定值。

  3. 差集 NOT

    直接用大寫的字母 NOT

    要甲不要乙, 就採用差集(not)戰術, 可以把相關但不想要的資料, 完全排除

  4. 接近 NEAR

    字間的距離, 以大寫字母表示 NEAR

    指定兩個鍵詞之間的距離(near), 可以特別聲明前後順序。

    AltaVista 內定距離是10, Lycos的內定距離是25。

    Clinton NEAR/15"foreign policy"

  5. 多層檢索 Nested Searches

大小寫不分
在英文的世界裡, 除非很有把握, 大小寫之分是沒什麼太大出入的, 因此, 多數的搜尋網站的內定值是大小寫不分。
擴張搜尋結果
精煉搜尋結果
除外條款
 
指定關係法則
 
包含詞尾變化
 

以資訊工業策進會設立的台灣商業網為例, 可以用空格當做是"OR", 以&表示"AND", 以減號"-"代表"NOT"。例:

評比

這些檢索引擎的優劣很難下定論, 大致上可以從幾個方向判斷:

  1. 資料庫的大小;
  2. 更新頻率'
  3. 檢索介面;
  4. 線上協助;
  5. 檢索邏輯
  6. 排序方式;
  7. 其他。

美國堪薩斯市公共圖書館曾對幾個流行的搜尋引擎, 做過一個比較表, 雖然資料有點陳舊, 仍不失為重要的參考:

美國堪薩斯市公共圖書館

搜尋引擎比較表

Database: AltaVista Lycos HotBot Excite Open Text Infoseek Webcrawler
範圍              
範圍 21M pages 55M URLs 36M sites 50M URLs 1.6M sites 11.5M sites 1.25M sites
通書便覽Gopher no yes no no yes yes yes
Binary files no yes yes no no no no
FTP no yes no no yes yes yes
Telnet no no no no no no no
網路論壇 yes no no yes yes yes no
全文檢索 yes yes, 19M yes yes, 1.5M yes yes, 1.5M yes
               
檢索邏輯              
內定邏輯 or or pop-up menu or and or or
布林邏輯運算子 and,and not, near and, not and, or, not AND, AND NOT and, or, but not near, followed by and, not, adjacent, near [ ]within 100 also, slash followed by # to indicate how near
短句檢索 quotation marks   quotation marks quotation marks exact phrase, any words, one word quotation marks quotation marks
切截 no: use * automatic, use period to turn off no automatic no no no
區別大小寫 exact matches insensitive insensitive matches insensitive matches insensitive
多字檢索 use + choose up to seven to match   use +   use +  
除外字檢索 use - - decreases relevancy options: must not or should include use -   use -  
重點字       use ^ # on scale of 1-10      
重複偵測 no no grouped under one title   yes yes  
其他特性 limit by date, format, field, followed by :   Limit by date, media type, file type, by suffix location   Non-Roman character sets    

但是 , 這類搜尋引擎亦有一些美中不足的問題 , 或許是未來的 隱憂 :

  1. 大多數搜尋引擎 , 只針對單一或極少數的資訊類別提供查詢服務。
  2. 都無法完全正確的搜尋亞洲國家等雙BYTE編碼之資訊。
  3. 由於需要經常蒐集全世界大多數WWW站的首頁 , 這些搜尋引擎的資料蒐集器, 可能會耗費很多網路頻寬資源。
  4. 處理查詢時, 多數沒有考慮到地域性。
  5. 有時候,由於這些搜尋引擎涵蓋的資料實在太龐大, 查詢的結果列出太多資訊。
  6. WWW資訊量的成長極為快速, 集中式的超級搜尋引擎, 將面臨嚴重的瓶頸。

查詢資料的方法及工具, 幾乎全部都是羅馬語系國家發明, 這些方法和工具不但極為獨特, 幾乎無法移殖到其他文化之下使用。

以網路上的檢索引擎來說, 英文的全文檢索已經進展到相當程度, 但是中文的全文檢索領域, 雖然有若干實驗性質的雛型, 像是中央研究院資訊所發明的 Csmart: 網路中文資源檢索系統 http://csmart.iis.sinica.edu.tw/, 其實已經很不錯了, 不過要談到商品化, 恐怕離滿意的階段, 還有一段距離。

所以, 在檢索中文網頁方面, 仍保有相當的活動空間, 值得深入研究。 從圖書資訊的角度來看, 檢索的時候, 不論用什麼工具, 它的考慮大致都差不多:

  1. 找出研究主題及領域;
  2. 辨識問題的關鍵;
  3. 列出描述該問題的語彙;
  4. 想想同義詞及變體字;
  5. 最後, 以布林邏輯表示檢索的公式。

結論

為什麼有那麼多的搜尋網站存在, 而且是免費的。除了少數為純學術性質的研究用搜尋網站外, 絕大多數都是商業性搜尋網站, 它的本質就是賺錢。 使用者不必付錢, 但是人潮就是錢潮, 廣告商會樂於付費的, 而且, 搜尋網站本身就是軟硬體效能的最佳代言人, 迪吉多公司的 AltiVista 就是最佳的示範, 難怪搜尋網站此起彼落, 熱鬧非凡。

國內有些單位, 基於工作上的需要, 或者個人興趣, 曾對搜尋網站做過介紹或評估。

以前, 我們擔心找不到資料, 有了網際網路之後, 特別是World Wide Web技術流行以來, 以搜尋引擎或主題名錄為工具時, 幾乎面對的是排山倒海的資料, 甚少有資料不足的情況。看來人類的思維方法, 最後還是會被World Wide Web這種出版模式所顛覆。

不過, 也不必那麼難過, 理論上, 臺灣的每個網站都應該向台灣網路資訊中心 (Taiwan Network Information Center)登錄, 然後呈現在台灣全球資訊網列表 (Taiwan WWW List )。

當然, 世界上所有的網站, 也應該向一個世界級的網路資訊中心(InterNet Information Center, InterNIC)登錄。 然後呈現在世界網站伺服器的登錄簿裡。別擔心那些未登錄的網站, 這是個網網相連的世界, 祗要在上面逛得夠久, 所有的問題都不是問題。

最後, 也是最重要的一點, 不懂電腦怎麼辦?

別難過, 那不是你的錯, 相信我的判斷, 電腦遲早會走到你身邊的, 而且, 以前的日子都可以過, 沒有理由瞬間活不下去, 不過卻有可能成為爐中的青蛙。 現階段仍有幾個解決方案:

  1. 單位維持網路的暢通及網站架設
  2. 個人的軟硬體設備, 交由技術人員安裝、維護, 在學校裡由助教或研究生安排, 家裡的則交給鄰近的資訊廣場
  3. 使用者祗要會上網及列印資料即可

撰寫網頁、email、ftp等事項, 不要理它。這個世界有太多可以做的事, 為什麼一定要挑戰不成熟、不熟悉的技術, 如果是生命中的必需品, 你一定躲不過的。

毛慶禎
臺北縣新莊市輔仁大學圖書資訊學系
Tel: 02 29031111 ext 2334, 3244(研究室) - Fax: 02 29017405
E-mail: mao@blue.lins.fju.edu.tw
http://www.lins.fju.edu.tw/~mao/internet/uengines.htm