網路資源搜尋工具
毛慶禎 |
輔仁大學圖書資訊學系 |
2000/11/02 |
- 前言
- 檢索工具
- 搜尋引擎
- 資料搜尋器
- 中文介面的搜尋引擎
- 外文介面的搜尋引擎
- 全文檢索與欄位檢索
- 精確鍵詞
- 自然語言
- 截切字元
- 高頻字
- 布林邏輯
- 交集 AND
- 聯集 OR
- 差集 NOT
- 接近 NEAR
- 多層檢索 Nested Searches
- 評比
- 結論
搜尋引擎報告 The Search Engine Report http://searchenginewatch.com
搜尋引擎數學 Search Engine Math http://searchenginewatch.com/facts/math.html
網際網路的起源甚早, 大約在1960年代未期的美國, 因應冷戰的需要,
建立ARPANET, 即是網際網路的前身。
臺灣從1989年開始建立國立大學間的校際網路, 稱為臺灣學術網路;
直到1991年底才透過美國普林斯頓大學的JcVCnet, 和網際網路搭上線, 於1992年6月9日正式對外公開。
約與臺灣學術網路的發展平行,
資訊工業策進會也進行種子網路的專案,
供個人及學術單位以外的團體使用。
至於一般民眾的需求, 要等到1994年, 才由電信局成立HiNet, 與美國的
ANSnet 連線, 成為網際網路一員。
怎麼定義網際網路是一大難題, 最單純的定義有兩種:
由電腦網路構成的網路, 採用TCP/IP通訊協定
- 由彼此可以互通訊息的電腦所構成
它有幾個特性:
- 非常龐大
- 數以百萬計的電腦已連上這個網路, 實際有多少電腦連上並不重要,
我們在意的是它可提供的資料。
- 緒亂
- 理論上, 每個網站都要經過註冊, 實際上, 真的這麼做的並不多,
所以我們面對的一片混亂, 幸好有些人基於特定原因,
願意把這些網站做適度的整理。
- 品質不定
- 任何人都可以把資料送上網際網路, 完全沒有任何管制,
因此它的品質可想而知。
我們的全部, 其實祗是別人生命中的一小部份;
全球資訊網由歐洲一個物理實驗室,
為了自己工作上的方便, 設計這種傳遞資料的方式,
卻成為圖書資訊界的大事; 目前由一個全球資訊網協會建議相關的標準。
在全球資訊網的世界裡, 有多少網頁呢? 五千萬是最保守的估計,
可能超過一億吧! 若將每個網頁上的連結也計算在,內,
說它有十億個也不算誇張。
為了從網際網路裡檢索出相關的資料,
已經發展出來的網路資源檢索工具, 大致可以 歸類為下列十二種:
- 搜尋引擎, 依照網站的內容, 搜尋合用的網站。
- 主題名錄, 依照網站的屬性, 決定其合用性, 需要人工介入。
- 同步搜尋介面, 一個指令, 可以同時運用多個搜尋引擎。
- 地區名錄, 依照網站的位置, 或其地區性, 篩選之。
- 人名字典, 也適用於團體。
- 商業名錄, 找公司行號之用。
- 軟體目錄, 何必花錢買, 用這個工具找找看, 應有意外的收獲。
- 網網相連, 大多數人都有自己的一套, 不妨從這裡開始。
- 科技文獻, 讀書人的最愛。
- 地址查訪, 親朋好友就從這裡開始。
- 入門知識,, 即使是老手也需要偶而來這兒看看。
- 其他, 連接各圖書館、字典、或辭語典。
透過超連結的方式, 理論上, 所有的網站都可以連接在一起,
就像是電話一樣, 沒有起點, 也看不到終點。所幸在混亂之中,
還是有點秩序, 那就是搜尋網站,
利用它的工具, 任何網站都會現形, 除非它是不公開的。
所以, 應讀者要求, 找出任何已經或即將存在的資訊,
是圖書資訊學的終極目標。到了網際網路的時代, 成為可行的方案,
而不僅是理想而已,
不用擔心你不知道什麼, 不會什麼, 在網網相連的世界裡,
我們的迷惑應是, 不要知道什麼, 該會什麼, 搜尋引擎不是三、五個,
它已經多到氾濫的地步, 還要專門的網站來搜集它,
事實上, 除了專門的研究學者之外,
一般的讀者祗要會一兩種也足夠了。
通常依據搜尋網站的性質, 將它們分為搜尋引擎及主題名錄,
如果將網際網路視為一本極大的書, 搜尋引擎就是書後的索引,
書前的目次就是主題名錄了。
面對數以億計的網頁, 如何爬梳特定領域的資料,
成為圖書資訊學的重要課題。廠商也聽到我們的需求,
在推動網際網路的同時, 不忘建立各種型態的搜尋引擎,
每家廠商都號稱是最好的, 或者是最有特色的。
站在使用者的立場, 為了讓線上搜尋更有效率,
選擇最合適的搜尋引擎是第一件要事,
然後是適度的描述搜尋需求。前者即是從數以千百計的搜尋工具中,
挑選與自己匹配的, 後者即是學習基本的布林邏輯,
或明白階層式樹狀分類原則。
聽說, Verity inc
推出的搜尋引擎是功能最強的, 目前有十七種語言版本,
包括中文繁體在內 搜尋的工具,
可以大略分為索引式搜尋引擎及分類式主題名錄兩種。
Search.com 宣稱它們最鍾意的七個搜尋引擎是:
- AltaVisa Web / Usenet
- DejaNews
- Excite Netsearch
- HotBot Web / Usenet
- Lycos
- WebCrawler
- Yahoo
其實, 一般人公認還好的通用搜尋引擎是有六個:
AltaVista 是少數沒有附帶主題名錄的搜尋引擎。
實際上的搜尋引擎可多著呢, 不妨到 Yahoo! 去找找看, http://www.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/Web_Directories/,
它的對應中文網站裡, 也有相當的資料, http://chinese.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/Web_Directories/,
僅此一處就令咋舌。
至於可以搜尋中文網頁的搜尋引擎, 雖然, 已經有若干產品問市,
但是離真正的商品化, 還要一段時間,
其中以中正大學吳昇教授領導的團隊最被看好, 發展出來的蓋世引擎已經在商品化中,
目前有三家業者採用其系統: 奇摩站(Kimo)、八爪魚(仲琦科技) 及Openfind(臺灣網擎)。
- 搜尋引擎運用資料搜尋來搜集網路上的資訊, 通常暱稱為蜘蛛精
(spider) 或稱為爬蟲 (crawler), 有的搜尋引擎另外為它的資料搜尋器命名,
AltaVista 稱它的資料搜尋器為速克達 Scooter,
不舍畫夜的在網際網路上巡遊, 讀取網頁的內容, 並追蹤其連結,
建立網站資訊的資料庫。
資料搜尋器的原理是一樣的,
但是各廠商的產品還是有相當的出入,
有些祗讀取網頁的題名及內文的前幾行, 有些則讀取全部內容,
省略圖檔、動畫檔、 聲音檔等多媒體檔案。
在龐大的網路世界裡, 找出相關的資料是很重要的工作,
目前沒有較一致的看法, 還處在出版者和搜尋者的交戰中,
出版者為了讓資料具有最高的相關度,
會做出若干舉動來愚弄搜尋者。最常見的做法是在網頁裡塞很多常見的字,
sex, money等。
Lycos的回應是, 降低這些大量重複字的相關度 使用者鍵入搜尋需求,
搜尋引擎經過處理後, 傳回相關網站的連結點,
以及該網站本身的敘述,
由使用者自行判定是否直接連結至該等網站。
這種處理模式和圖書館原有的書目或索引非常接近,
使用者先查工具書, 有了相關的資料後, 再決定是否要取得實體文件;
不同的是, 文件在網際網路上的流動很快,
與傳統的館際合作方式相比, 幾乎是即時的,
任何的擔擱都不是網際網路造成, 而是實現過程中,
工具不夠進化所致。
把蜘蛛 (spider) 或爬蟲 (crawler) 放出去以後, 除了少數限制之外,
它們是自由的, 每天讀入數以千萬計的網頁, 產生難以計數的索引,
帶給使用者另一個難題 ─ 資料量太大。
祗要搜尋需求的描述稍為粗糙些, 得回的資料就是數以萬計,
人類實在難以消化。
使用者以鍵詞進入搜尋引擎, 啟動它的資料庫,
找出符合的網頁文件; 這個資料庫多半是由稱為蜘蛛(spiders)或機器人(robots)的程式,
自動完成的, 祗有極少數的人力參與。工作原理差不多,
但是每家廠商都有自己的一套, 看起來神似的工具,
它的結果卻有相當出入 主要的差別在於: 資料庫的大小、
更新頻率、搜尋能力等; 當然,
像搜尋速度、介面的親和力、顯示結果的排序方式、以及提供的說明等,
也是影響其普遍性的重要因素。
http://chinese.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/Web_Directories/,
僅此一處就令咋舌。
至於可以搜尋中文網頁的搜尋引擎, 雖然, 已經有若干產品問市,
但是離真正的商品化, 還要一段時間,
其中以中正大學吳昇教授領導的團隊最被看好, 發展出來的蓋世引擎已經在商品化中,
目前有三家業者採用其系統: 在精誠的奇摩站(Kimo)稱為 InfoLamp、
八爪魚(仲琦科技)、在網宇稱為Dr. Search 及Openfind(臺灣網擎)。
SEEDNet 引擎比較表
別人的資料, 很好用 中文搜尋引擎
- GAIS 蓋世引擎
- 學術界製作的搜尋引擎,
堪稱功能最完整的。提供網頁搜尋、網址搜尋、時事新聞搜尋、BBS
文章搜尋、人物機關搜尋 FTP、檔案搜尋、多媒體物件搜尋
- GAISWWW
- GAIS WWW 首頁搜尋引擎, 涵蓋了臺灣大多數WWW站的首頁,
提供全文檢索的功能。並將智慧型檢索的功能加進來。
- GAISBBS
- 可以檢索著者及內容, 針對國內之BBS討論區, 凡是有透過News轉信的文章加以索引,
以提供檢索服務。
- GAISFTP
- http://gais4.cs.ccu.edu.tw:7777/ftpchn.html 目前 GAISFTP
索引了國內外大約十來個熱門的Anonymous FTP大 站。由於GAIS擁有容錯搜尋的功能,
所以可以提供比較強的搜尋能力。此優點對於一些不容易完全記得或正確拼寫的檔名搜尋,
特別有幫助。
- 蕃薯藤臺灣網際網路索引
- 知名度較高的索引, 曾經是最好的。由開拓文教基金會Formosa on WWW工作小組所建置,
目地在利用網際網路將各團體的工作成果向全世界展現,
一方面向世界提供臺灣相關的資訊。
- Hinet網路資源網網
- 提供各式的網站連結資源, 有分類找尋區, 新加網站區, 主題網站區,
快速查詢 區
- Seednet臺灣商業網
- 分類查詢, 有即時新聞, internet與電腦, 生活資訊, 政府機關團體等
- 奇摩站
- 提供完整的分類檢索與搜尋引擎功能。
- Coo 臺灣索引
- 除一般搜尋引擎的功能外,
另外提供線上新聞、二手買賣、廣告刊登等項目 。
- 中央大學 Archie Server
- 提供了 Archie 3.5 服務, 可搜尋檔案位置, 並可直接下載。
- 臺灣全球資訊網列表
- 登錄過的網站, 都出現在這裡, 國外之網站,
包括中文站臺不在本列表中。所收 集的方向亦包含各ISP為其客戶所制作之首頁,
但不包含個人首頁及站臺。 其實真正的臺灣網站起點應是東南工專
- 怪獸搜尋機
- 收集娛樂、休閒、生活、理財資訊等項目的網站資料, 提供查詢,
另外會評 選熱門與酷的站臺。
- 福爾摩莎網路站臺索引系統
- 世界精華站臺、共享軟體、美術藝術、新聞網
- 聚寶盆
- 由交通大學校友組成的思源基金會,
建立這個聚寶盆-資料庫引擎, 專門收集網路上形形色色的WWW節點,
這些節 點的範圍涵蓋了政治, 商業, 學術, 電腦技術, 休閒育樂,
醫療機構...等等 , 目前蒐集的範圍主要以臺灣地區的節點為主。
- 網路尋寶(站臺搜尋)
- 收集一些有關繪圖/藝術的網站, PSP相關附加程式的下載,
以及快速中/英 文資料、站臺的搜尋等。
- 臺灣工商黃頁
- 有英文搜尋引擎, 商業類型查詢, 關鍵字(名稱)查詢等搜尋方法
- UFO 網站搜尋引擎
- 包括政府, 教育, 團體信仰, 服務仲介, 資訊網路, 休閒娛樂,
旅遊餐飲, 金融貿易, 服飾精品, 醫療保健, 圖書文教, 電子電機,
交通運輸, 食品餐具, 花卉寵物, 居家 工藝, 營建工礦,
個人其他還有登錄修改的功能
- YES! 搜尋引擎
- 各式各樣的分類查詢及廣告, YES登錄, 新秀, 觀新, 隨機, 排行, 資源,
修刪, 管 理, 系統, All in One 說明, All in One 排行, 布林搜尋說明等項目
- Hodala網路羅盤
- 資訊檢索服務網站, 提供網頁查詢, 自動代工, 圖形搜尋, 網址檢查,
網站登錄等 功能
- aimax
- 個人製做之簡單搜尋引擎, 具有全文檢索與Category Website搜尋功能
- 雅發網址登錄引擎
- 提供登錄網址, 一次完成國內外搜尋引擎登錄網址!
- 大陸嘛也通
- 中國大陸各地的網站資訊及連結, 分成了綜述, 新聞媒介, 商業,
Internet, 政府, 法律, 教育, 文化, 旅遊, 計算機, 風土, 民情,
娛樂等項目
- 哇塞中文網
- 提供臺灣、香港、中國、新加坡、美國等地網站搜尋與索引,
並可選擇使用BIG5 中文、GIF圖形中文、英文模式顯示。
- 中國工商專頁
- 可以查詢中國大陸的相關資料, 分為許多的生活類別
- 亞洲網址索引
- 包括了藝術及活動, 思想及社會, 商業及貿易, 人民及文化,
古今歷史, 科學及技 術, 知識及資料, 旅遊及探索等類別
- 漫遊中文網路
- 有中英的版本, 內容包括分類主題搜索, 系統簡介, 幫助, 網頁統計,
留言, 加新 網頁, 中文報刊, 書信往來, 商業客戶
- 中國指南
- 中國大陸的網站, 中文有GB, BIG5碼的版本, 另有英文的版本,
主要提供中國大 陸的商業訊息, 旅遊導覽, 城市指南等
- 香港WISE
- 香港科技大學的建置搜尋網頁, 可用英文或中文查詢, 可以選擇BIG5或是GB碼
的編碼
- 華通資訊網
- 有英文, 繁體中文, 簡體中文的版本, 包括各種生活資訊的查詢,
以及WWW式的網 路論壇
- 千里眼網路索引(GB碼)
- 全部都是中國大陸的各種生活, 工商產業資訊, 內容為中文GB編碼
- 悠遊中文搜索器
- 中文搜索器, 有Goyoyo本週新情報, 每日財經股票大市分析,
地產傳真新盤, GoYoYo 自動搜尋中文網頁,
轉換繁簡體字把網頁識別和分類
- 八爪魚搜尋機
- 提供網站搜尋 , 網站導航, 新聞查詢, FTP查詢, 新站登錄, 觀新,
及網路 廣告等服務
- (Yahoo)臺灣相關頁
- 以英文分類方式提供關於臺灣的分類網頁, 有人文藝術, 商業經濟,
電腦網路, 教育, 娛樂, 政府機關, 醫藥保健, 新聞媒體, 工商團體,
政治, 體育活動, 參考資 料, 自然科學, 社會科學, 風俗文化,
天氣等項目
簡體中文 GB :
http://www.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/Web_Directories/,
別人的資料, 很不錯 外文搜尋引擎
- Search.bg http://www.search.bg
蒐尋保加利亞的網路資源。
- MOSHIx2 http://www.moshix2.net
針對日文及英文的資源。
- 2Go2 http://www.go2.com 經過篩選的資源。
- Aesir Custom Search
http://www.aesir.com/aesir/staff/JimSearch.html 可以自訂輸出格式。
- Ahoy!
http://www.cs.washington.edu/research/ahoy/ 網頁蒐尋器
- Airport Search Engine
http://www.uni-karlsruhe.de/~un9v/atm/ase.html 機場代碼,
及連妾至各機場的網頁。
- Alcanseek http://www.alcanseek.com
阿拉斯加及加拿大的網站。
- Alku http://alku.hrsk.edu.fi/
芬蘭文的搜尋引擎, 祗搜尋芬蘭的網站, 有介紹 Internet 的文字。
- AltaVista
http://www.altavista.digital.com/ 網頁及新聞引擎。
- AltaVista Australia
http://altavista.senet.com.au/ 供澳洲。紐西蘭及鄰近地區使用的 AltaVista
對映站。
- AltaVista Europe
http://www.altavista.telia.com/ 供歐洲地區使用的 AltaVista 對映站,
可以自選語文。
- Ananzi http://www.ananzi.co.za/
針對南非領域的搜尋引擎。
- AnySearch http://www.anysearch.com
針對韓國的搜尋弔擎
- Anzwers
http://server2.anzwers.ozemail.net/aU07JmFi02EF1F281995C6386370750EFD2A105F/index.html
- Aqueous http://www.aqueous.com
搜尋與水有關的網站。
- Area 52
http://www.melizo.com/area52/search2/ 針對 Macintosh, Amiga, OS/2 的相關資料。
- Arkansas Direct http://www.arkdirect.com
針對美國阿肯薩州的網站。
- Astalavista http://astalavista.box.sk/
駭客的網站, 每天更新
- AT1 http://www.at1.com/ 進入無形網頁之路。
- AvatarSearch http://www.AvatarSearch.com/
魔術、崇拜、巫術的網站
- Aviation Search Engine from Totavia
http://search.totavia.com/
- BabyOIL - resource discovery system
http://www.dstc.edu.au/babyOIL/
- BizAds Business Locator
http://bizads.2cowherd.net 專長於商業性資料<
- Black Widow
Search http://www.penetang.com/blackwidow
- Brian's Emulation
Search Engine http://www.mqsheet.com/brian/emulate/search/search.html 針對模擬、ROM
等技術性資料。 BRS Search Page
http://www.escape.com/~brs/search.htm
- Business Seek http://www.businesseek.com/
- Campsearch
針對全球各地的夏令營及戶外活動, 依照地區及其他條件,
檢索適合於大人小孩的網頁。
- CasePoint WebServer
- Cinemachine
- Community-based
Navigation 以新版的 Mosaic 為基礎, 自動為社區加入優良網頁。
- Company Site Locator
尋找公司的網站。
- Content Router
- Cool Search
- Crosslinkz
- Discovery Channel Online
Search Engine 探索頻道的線上檢索引擎
- Dive, The
- DIY Search 自己動手做
- Dynamic Site Search
- Einstein's Online Pet Rescue Group
美國的動物救援線上資料, 特別包括達拉斯地區的相關團體。
- El Faro
- Electric Monk 可使用自然語言檢索
- Euroseek
- excite
- Fido the Shopping Doggie
- Fiji Search Engine
檢索菲濟群島的網站
- Filez yimg
包括六千萬個檔案及流行的網站
- Fish-Search
- Funny Site
幽默專屬的搜尋網站
- G-Spot 檢索菲律賓的網站
- Global Online Directory
- GlOSS 文字資料的資料庫
- Google
- Heur幧a 匈牙利的網頁
- Home Team 多引擎檢索
- Hong Kong Search Engine 檢索香港的網站
- HotBot
- HumanSearch 以英文問它,
專人為你服務
- Identify 以 IDML 檢索
- In 2 Ireland
以元資料為檢索對象
- Inference Find 智慧型網頁搜尋
- Infohiway
- Informant Server, The 個人搜尋引擎,
喜愛的 URL 更新後, 以 e-mail 通知
- InfoSeek
- InfoZona 各州的資料庫
- Internet Rank Engine 根據詢問的內容,
找出網站的關係, 排序後輸出
- Irena - Web
Connections Finder 對超長的網頁特別有效
- Italian Spider
- IWEB Search Service
定期調查使用者的意見, 並據以排序
- James Kirk Search Engine
星艦迷航記的專屬引擎
- Johnes 專為歐洲使用者設計的搜尋引擎
- keyword.com
- LinkMaster
- Links! 無偏見的搜尋引擎
- Lokace 法國的搜尋引擎
- Lycos
- MathSearch
數學相關網站的搜尋引擎
- Matilda - 網頁華爾滋
- Mojoe
- Money$earch
針對小型企業及線上投資者而設, 網站都經評鑑, 並有摘要
- Montana Pathfinder
為美國蒙大拿州而設的搜尋引擎
- MRO-Explorer
專為生產者、經鎖者等主題而設的工業類搜尋引擎
- MusicSearch
擁有五千個以上的音樂專屬搜尋引擎
- Netword 以網路的文字來找尋資料
- News Hunt 搜尋免費的報紙資料庫
- Next Crawler 希臘的搜尋引擎
- Nordic Web Index
針對北歐諸國的網站,
該引擎在丹麥、冰島、芬蘭、挪威、及瑞典諸國都有服務站
- OneKey
- Open Text Web Index
- PlanetSearch
- Poke! 以 javascript 和 frames 設計的引擎
- Pollinia: Network Orchid Stuff
專為蘭花相關網站而設
- Pregnancy and Parenting
Search Engine 專門搜集懷孕、親子觀係、家庭的網站
- Prospernet, Inc. 有分類廣告的主題名錄
- Public Safety Search Engine
針對公共安全而設的搜尋引擎
- Radar 西班文與英文通用的搜尋引擎
- RBSE's URL database
- Re:Search Centre
- SciFiSearch
專為超自然、鬼魂及飛碟而設的
- Scrub The Web
- Sea Crawler
為美國西雅圖地區而設的引擎
- Search Argos
專為古代世界相關網站而設的
- Search NZ
- Search.NL 為荷蘭而設, 可做糢糊邏輯檢索
- SemioMap 有關 Internet 和 Intranet 關係的文件,
都可在這個引擎中找到
- Sesna - Ukrainian Search
烏克蘭相關的網站
- Simmany 韓國的搜尋引擎
- SiteFinder 未經排序的網頁主題名錄-
an unordered index of webpages.
- Snoopie 包括全球 450 個 ftp 站台,
五百萬個檔案, 可在 10ms 之內完成搜尋
- Spider's Apprentice, The 協助搜尋,
分析並評鑑主要的搜尋引擎
- Study Web 為學生和老師而設,
包括近二萬個相關網站
- Super Snooper
沒有猥褻、仇恨、毒品等負面的網路資源
- Surfer's Edge 搜尋新加坡的訊息
- Swiss Search - 瑞士的全文搜尋引擎
- TechnoFind 搜尋新加坡的訊息
- TheLinks 針對其他搜尋引擎,
包括醫學資料庫在內
- Thunderstone 針對網站,
不理網頁
- Travel-Finder Spider 旅遊相關網站
- Ugabula 搜尋西班牙和拉丁有關的網站
- Verity Internet Virtual Library Search
專門搜尋全球資訊網及相關技術
- Wakano 韓國的搜尋引擎
- Web Tour 搜尋西班牙有關的資訊 - spanish
search engine. thousands of links to spanish web sites. includes an ezine, quizs, best of
the day, links exchange...
- WebDirect! 商業性搜尋為主,
使用者可自訂輸出結果
- Webindex 搜尋希臘
- Webseek
搜尋百萬個影像及影片
- Websurfer
- What-U-Seek
- whoizzy
- World Access Internet Navigator
- WWWomen Search Directory 搜尋女生喜歡的
- WWWW - the WORLD WIDE WEB
WORM
- Zebra 搜尋南非
- ZenSearch
首先應知道如何鍵入並組合鍵詞。
AltaVista 和 Excite 採用全文檢索, 傳統的圖書館目錄或其他資料庫,
一向採取欄位檢索的方式。
by 和 about 不同。搜尋引擎的全文檢索無法區分,
增加使用者的困擾。
AltaVista、HotBot、Infoseek、Yahoo! 等搜尋引擎, 在全文檢索之外,
也提供欄位檢索的能力。
-
在網路環境下的檢索, 最讓人擔心的是過量資料, 而不是沒有資料,
所以使用的鍵詞應儘量精確。
一般公認的檢索原則是這樣的:
- 先選定最精確的鍵詞, 可能的唯一鍵詞, 以 phrase search 為原則,
"Bengal tiger"
- 多找幾次, 一次做好的機會並不大
- 縮小前次的找尋結果, set search
- 在結果中找鍵詞
- 注意大小寫
- 別拚錯字
-
有些搜尋引擎採用自然語言檢索, 當然指的是英文,
使用者不必在乎特定的表達方式。但是需要較精確的答案是,
還是應仰賴布林邏輯。
-
羅馬語系的詞尾變化實在太多, 而且用者和作者之間的想法,
也很難一致。切截(truncation), 可以將所有的詞尾變化全部融入。
也稱為concept-based searching。
-
太常用的字, 或者有特定用途的字,
都視為高頻字。一定要列入檢索鍵詞時, 需用 " " 包住。
布林邏輯是很古老的東西, 和電腦相隔實在很遠,
竟然能夠連在一起, 而且密不可分,
令我們不得不感念造物主的安排。
最常用的布林邏輯祗有三個: 交集(AND)、聯集(OR)、差集(NOT)。在蒐尋引擎裡,
還可以有近似、接近、靠近等較高階的用法。
每個搜尋網站對於布林邏輯的運用, 都有自己獨特的一套看法,
就像是同樣一張桌子, 有的人會來當書桌, 有人拿來當餐桌,
也可能會來當椅子用, 但是其基本性質是不會改變的。
-
通常用加號 + 或大寫的字母 AND
以交集(and)的方式運算, 必須同時符合數個集合內的條件,
才計入結果。有效的精煉原先龐雜的結果。
-
空格就是聯集, 或大寫的字母 OR
以聯集(or)的方式, 可以有效的擴張搜尋結果,
祗是面對龐大的資料回應量時, 使用聯集的機會, 非常有限。但是,
或許是人類的本性吧, 多數的搜尋網站仍以聯集為內定值。
-
直接用大寫的字母 NOT
要甲不要乙, 就採用差集(not)戰術, 可以把相關但不想要的資料,
完全排除
接近 NEAR
字間的距離, 以大寫字母表示 NEAR
指定兩個鍵詞之間的距離(near), 可以特別聲明前後順序。
AltaVista 內定距離是10, Lycos的內定距離是25。
Clinton NEAR/15"foreign policy"
多層檢索 Nested Searches
- 大小寫不分
- 在英文的世界裡, 除非很有把握, 大小寫之分是沒什麼太大出入的,
因此, 多數的搜尋網站的內定值是大小寫不分。
- 擴張搜尋結果
- 精煉搜尋結果
- 除外條款
-
- 指定關係法則
-
- 包含詞尾變化
-
以資訊工業策進會設立的台灣商業網為例,
可以用空格當做是"OR", 以&表示"AND", 以減號"-"代表"NOT"。例:
- 查詢條件為 "娛樂 新聞" 則可查到內容中含 "娛樂"
或 "新聞" 之資料
- 查詢條件為 "娛樂&新聞" 則可查到內容中含 "娛樂"
且含 "新聞" 之資料
- 查詢條件為 "娛樂-新聞" 則可查到內容中含 "娛樂"
但不含 "新聞" 之資料。
這些檢索引擎的優劣很難下定論, 大致上可以從幾個方向判斷:
- 資料庫的大小;
- 更新頻率'
- 檢索介面;
- 線上協助;
- 檢索邏輯
- 排序方式;
- 其他。
美國堪薩斯市公共圖書館曾對幾個流行的搜尋引擎, 做過一個比較表, 雖然資料有點陳舊,
仍不失為重要的參考:
美國堪薩斯市公共圖書館
搜尋引擎比較表
Database: |
AltaVista |
Lycos |
HotBot |
Excite |
Open
Text |
Infoseek |
Webcrawler |
範圍 |
|
|
|
|
|
|
|
範圍 |
21M pages |
55M URLs |
36M sites |
50M URLs |
1.6M sites |
11.5M sites |
1.25M sites |
通書便覽Gopher |
no |
yes |
no |
no |
yes |
yes |
yes |
Binary files |
no |
yes |
yes |
no |
no |
no |
no |
FTP |
no |
yes |
no |
no |
yes |
yes |
yes |
Telnet |
no |
no |
no |
no |
no |
no |
no |
網路論壇 |
yes |
no |
no |
yes |
yes |
yes |
no |
全文檢索 |
yes |
yes, 19M |
yes |
yes, 1.5M |
yes |
yes, 1.5M |
yes |
|
|
|
|
|
|
|
|
檢索邏輯 |
|
|
|
|
|
|
|
內定邏輯 |
or |
or |
pop-up menu |
or |
and |
or |
or |
布林邏輯運算子 |
and,and not, near |
and, not |
and, or, not |
AND, AND NOT |
and, or, but not near, followed by |
and, not, adjacent, near [ ]within 100 |
also, slash followed by # to indicate how near |
短句檢索 |
quotation marks |
|
quotation marks |
quotation marks |
exact phrase, any words, one word |
quotation marks |
quotation marks |
切截 |
no: use * |
automatic, use period to turn off |
no |
automatic |
no |
no |
no |
區別大小寫 |
exact matches |
insensitive |
insensitive |
matches |
insensitive |
matches |
insensitive |
多字檢索 |
use + |
choose up to seven to match |
|
use + |
|
use + |
|
除外字檢索 |
use - |
- decreases relevancy |
options: must not or should include |
use - |
|
use - |
|
重點字 |
|
|
|
use ^ # on scale of 1-10 |
|
|
|
重複偵測 |
no |
no |
grouped under one title |
|
yes |
yes |
|
其他特性 |
limit by date, format, field, followed by : |
|
Limit by date, media type, file type, by suffix location
|
|
Non-Roman character sets |
|
|
但是 , 這類搜尋引擎亦有一些美中不足的問題 , 或許是未來的 隱憂 :
- 大多數搜尋引擎 , 只針對單一或極少數的資訊類別提供查詢服務。
- 都無法完全正確的搜尋亞洲國家等雙BYTE編碼之資訊。
- 由於需要經常蒐集全世界大多數WWW站的首頁 ,
這些搜尋引擎的資料蒐集器, 可能會耗費很多網路頻寬資源。
- 處理查詢時, 多數沒有考慮到地域性。
- 有時候,由於這些搜尋引擎涵蓋的資料實在太龐大,
查詢的結果列出太多資訊。
- WWW資訊量的成長極為快速, 集中式的超級搜尋引擎,
將面臨嚴重的瓶頸。
查詢資料的方法及工具, 幾乎全部都是羅馬語系國家發明,
這些方法和工具不但極為獨特, 幾乎無法移殖到其他文化之下使用。
以網路上的檢索引擎來說, 英文的全文檢索已經進展到相當程度,
但是中文的全文檢索領域, 雖然有若干實驗性質的雛型,
像是中央研究院資訊所發明的 Csmart:
網路中文資源檢索系統 http://csmart.iis.sinica.edu.tw/, 其實已經很不錯了,
不過要談到商品化, 恐怕離滿意的階段, 還有一段距離。
所以, 在檢索中文網頁方面, 仍保有相當的活動空間,
值得深入研究。 從圖書資訊的角度來看, 檢索的時候,
不論用什麼工具, 它的考慮大致都差不多:
- 找出研究主題及領域;
- 辨識問題的關鍵;
- 列出描述該問題的語彙;
- 想想同義詞及變體字;
- 最後, 以布林邏輯表示檢索的公式。
為什麼有那麼多的搜尋網站存在,
而且是免費的。除了少數為純學術性質的研究用搜尋網站外,
絕大多數都是商業性搜尋網站, 它的本質就是賺錢。 使用者不必付錢,
但是人潮就是錢潮, 廣告商會樂於付費的, 而且,
搜尋網站本身就是軟硬體效能的最佳代言人, 迪吉多公司的 AltiVista
就是最佳的示範, 難怪搜尋網站此起彼落, 熱鬧非凡。
國內有些單位, 基於工作上的需要, 或者個人興趣,
曾對搜尋網站做過介紹或評估。
以前, 我們擔心找不到資料, 有了網際網路之後, 特別是World Wide Web技術流行以來,
以搜尋引擎或主題名錄為工具時, 幾乎面對的是排山倒海的資料,
甚少有資料不足的情況。看來人類的思維方法, 最後還是會被World Wide
Web這種出版模式所顛覆。
不過, 也不必那麼難過, 理論上, 臺灣的每個網站都應該向台灣網路資訊中心 (Taiwan Network
Information Center)登錄, 然後呈現在台灣全球資訊網列表 (Taiwan
WWW List )。
當然, 世界上所有的網站, 也應該向一個世界級的網路資訊中心(InterNet Information Center,
InterNIC)登錄。 然後呈現在世界網站伺服器的登錄簿裡。別擔心那些未登錄的網站,
這是個網網相連的世界, 祗要在上面逛得夠久,
所有的問題都不是問題。
最後, 也是最重要的一點, 不懂電腦怎麼辦?
別難過, 那不是你的錯, 相信我的判斷, 電腦遲早會走到你身邊的,
而且, 以前的日子都可以過, 沒有理由瞬間活不下去,
不過卻有可能成為爐中的青蛙。 現階段仍有幾個解決方案:
- 單位維持網路的暢通及網站架設
- 個人的軟硬體設備, 交由技術人員安裝、維護,
在學校裡由助教或研究生安排, 家裡的則交給鄰近的資訊廣場
- 使用者祗要會上網及列印資料即可
撰寫網頁、email、ftp等事項,
不要理它。這個世界有太多可以做的事,
為什麼一定要挑戰不成熟、不熟悉的技術, 如果是生命中的必需品,
你一定躲不過的。