搜尋引擎

毛慶禎 輔仁大學圖書資訊學系副教授
http://www.lins.fju.edu.tw/mao/internet/searchengines_wiki.htm
2005/8/10

搜尋引擎指自動從網際網路搜集信息, 經過一定整理以後, 提供給用戶進行查詢的系統。網際網路上的資訊浩瀚萬千, 而且毫無秩序, 所有的資訊象汪洋上的一個個小島, 網頁連結是這些小島之間縱橫交錯的橋梁, 而搜尋引擎, 則為你繪製一幅一目瞭然的資訊地圖, 供你隨時查閱。

工作原理

搜尋引擎的工作原理大致可以分為:

  1. 搜集資訊(by crawler):搜尋引擎的資訊搜集基本都是自動的。搜尋引擎利用稱為網路蜘蛛(spider) 的自動搜索機器人程序來連上每一個網頁上的超連結。機器人程序根據網頁鏈到其他中的超連結, 就象日常生活中所說的「一傳十, 十傳百……」一樣, 從少數幾個網頁開始, 連到數據庫上所有到其他網頁的連結。理論上, 若網頁上有適當的超連結, 機器人便可以遍歷絕大部分網頁。

  2. 整理資訊(by indexer):搜尋引擎整理資訊的過程稱為「建立索引」。搜尋引擎不僅要保存搜集起來的資訊, 還要將它們按照一定的規則進行編排。這樣, 搜尋引擎根本不用重新翻查它所有保存的資訊而迅速找到所要的資料。想象一下, 如果資訊是不按任何規則地隨意堆放在搜尋引擎的資料庫中, 那麼它每次找資料都得把整個資料庫完全翻查一遍, 如此一來再快的電腦系統也沒有用。

  3. 接受查詢(by query processor):用戶向搜尋引擎發出查詢, 搜尋引擎接受查詢並向用戶返回資料。搜尋引擎每時每刻都要接到來自大量用戶的幾乎是同時發出的查詢, 它按照每個用戶的要求檢查自己的索引, 在極短時間內找到用戶需要的資料, 並返回給用戶。目前, 搜尋引擎返回主要是以網頁連結的形式提供的, 這些通過這些連結, 用戶便能到達含有自己所需資料的網頁。通常搜尋引擎會在這些連結下提供一小段來自這些網頁的摘要資訊以幫助用戶判斷此網頁是否含有自己需要的內容。

發展史

90年初當時全球資訊網(World Wide Web)還未出現, 為了查詢散佈在各個分散的主機中的文件, 曾有過Archie, Gopher等搜索工具,隨著網際網路的迅速發展, 基於HTTP訪問的web技術的迅速普及, 他們就不再能適應用戶的需要。在1994年1月, 第一個既可搜索又可瀏覽的分類目錄EINet Galaxy (Tradewave Galaxy) 上線,它還支持Gopher和Telnet搜索。同年4月, Yahoo目錄誕生,隨著訪問量和收錄連結數的增長, 開始支持簡單的資料庫查詢。這就是我們說的早期的,目錄導航系統, 他們的缺點網站收錄/更新都是要考人工維護, 所以在資訊量劇增的條件下, 就不是非常受用了。

英文

1994年7月, Lycos推出了基於robot的數據發現技術,並支持搜索結果相關性排序,並且他第一個開始在搜索結果中使用了網頁自動摘要。Infoseek也是同時 期的一個重要代表, 他們是搜尋引擎史上一個重要的進步。

1995年, 一種新的搜尋引擎工具出現了——元搜尋引擎,第一個元搜尋引擎是華盛頓大學的學生開發的Metacrawler。用戶只需提交一次搜索請求, 由元搜尋引擎負責轉換處理後提交給多個預先選定的獨立搜尋引擎, 並將從各獨立搜尋引擎返回的所有查詢結果, 集中起來處理後再返回給用戶。

1995年12月才登場亮相的AltaVista推出了大量的創新功能使它迅速到達當時搜尋引擎的頂峰,它第一個支持自然語言搜索的搜尋引擎,具備 了基於網頁內容分析,智慧處理的能力, 第一個實現高級搜索語法的搜尋引擎 (如AND, OR, NOT等), 同時AltaVista還支持搜索新聞群組 (Newsgroups) ,搜索圖片等具有劃時代意義的功能。 同時期還有inktomi,HotBot等搜尋引擎。

1997年8月Northernlight 公司正式推出搜尋引擎,它第一個支持對搜索結果進行簡單的自動分類, 也是當時擁有最大資料庫的搜尋引擎之一。

1998年10月, Google誕生。它是目前最流行的搜尋引擎之一,具備很多獨特而且優秀的功能,並且在界面等實現了革命性創新。

1999年5月, Fast (Alltheweb) 公司發佈了自己的搜尋引擎AllTheWeb,它的網頁搜索可利用ODP自動分類, 支持Flash和pdf搜索, 支持多語言搜索, 還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索, 擁有極其強大的高級搜索功能。它曾經是最流行的搜尋引擎之一, 後在2003年2月被Overture收購。

中文

在中文搜尋引擎領域, 1996年8月成立的搜狐公司是最早參與作網路資訊分類導航的網站, 曾一度有「出門找地圖, 上網找搜狐的」美譽。由於其人工分類提交的局限性, 隨著網路資訊的暴增, 逐漸被基於robot自動抓取智慧分類的新一代資訊技術取代。

中正大學吳昇教授所領導的GAIS實驗室, 於1998年1月創立了Openfind中文搜尋引擎,是最早開發的中文智慧搜尋引擎, 採用GAIS實驗室推出多元排序(PolyRankTM)核心技術, 截止2002年6月, 宣佈累計抓取網頁35億, 開始進入英文搜索領域。

北大天網是教育網最流行的搜尋引擎, 它由北大電腦系網路與分散式系統研究室開發, 於1997年10月29日正式在CERNET上提供服務, 2000年初成立天網搜尋引擎新課題組, 由國家973重點基礎研究發展規劃項目基金資助開發, 收錄網頁約6000萬, 利用教育網優勢, 有強大的ftp搜索功能。

百度中文搜索由超鏈分析專利發明人、前Infoseek資深工程師李彥宏和好友徐勇2000年1月創建,目前支持網頁資訊檢索, 圖片, Flash, 音樂等多媒體資訊的檢索。並且百度在中文領域第一個開始使用ppc經營模式。

2002年開始進入搜尋引擎市場的中搜是由慧聰國際主持開發的, 是搜索領域的後起之秀。目前處於起步階段, 技術沒有特別見長的優勢。

商務

搜尋引擎的商務是一種新的商業模式, 在國內的大多數人還在用網址大全去尋找商業平臺網站的時候, 搜尋引擎營銷的方式慢慢的興起, 越來越多的買家又或賣家通過搜尋引擎來尋找自己的需要。其中以google最為出名, 可以說是一代搜尋引擎的楷模。google以其優秀的搜索演算法, 不被競價排名所籠罩的口碑成為全世界最為出名的搜尋引擎。

參考資料



Creative Commons授權條款本文採 用Creative Commons姓名標示-相同方式分享授權條款

您得自由:

您必須:
當然, 如果您取得我的書面同意(祗在極為特例的情況下才會發生), 以上條件都能被免除。