Google似乎是集所有的搜尋引擎 功能於一身的產品,不過,新一代的小型搜尋引擎正在迎頭趕上。Google有著最大的URL資料庫,往往還能找出非常準確的搜尋結果。該公司甚至已開始獲 利了。但是,所有的帝國都將會走向滅亡。
每個人都喜歡用Google,因為它簡單而實用。很多人都在用它,甚至連古巴的Juventud Rebelde這 樣的反美網站(西班牙文)也在採用它。
Google有一個重大的缺陷:就是它的搜尋結果太多了,其中大部分都與搜尋主題無關,要瀏覽如此多的結果實在太 難了。
Google有82種語言的版本, 包括中文繁體與簡體。
Paid search provider,
Overture透過拍賣方式向出價最高者出售其搜索關鍵詞,這是一種與黃頁相對應的方式。而Google則搜索互聯網上每一頁的索引,然後根據其專有的
統計系統對這些頁面進行分級, 該網頁被連結的次數, 也就是受歡迎的程度。
Google的AdWords Select策
略, 銷售網頁排名順序, 把右上角的空間, 出售給買下檢索關鍵詞的廠商,
如computer賣給www.BizRate.com。https://adwords.google.com/select/
因此,目前出現了一類全新的搜尋引擎,試圖提高準確率,或者更好地組織搜尋的結果,以便於瀏覽。
有些搜尋引擎的目標是要打敗Google,成為新的搜尋引擎霸主;還有一些只是希望成為一種具體的研究工具,增加
搜尋的深度,縮小搜尋的廣度。
WiseNut是 一個於2001年五月份剛推出的頗有前途的搜尋引擎。它使用上下文排列演算法改進了Google搜尋結果的準確性。據WiseNut說,Google沒有 這種演算法。
Google是根據其他頁面上的鏈結來排列網頁的:鏈結越多,網頁在搜尋結果中的排列也就越高。WiseNut的 上下文排列演算法是對網頁的鏈結和頁面上的文字進行檢查,然後將兩者相比較,與搜尋主題關係密切的就放在前面。
WiseNut還將同一網網站的不同網頁歸類在一個搜尋結果列表中,這樣一個頁面可以顯示更多的結果。
WiseNut表示他們有最快、效率最高的搜尋技術。該公司表示每天只需使用100台空閒的伺服器就可以為 5,000萬個網頁索引,比其他任何搜尋引擎都要快。目前它的資料庫中有8億個網頁(Google有10億個網頁)。
相關性是Google的長處,不過,每隔兩三年就會出現新的搜尋引擎霸主,似乎成為網際網路慣例,起初是雅虎,然 後換成Altavista,接下來是Google。
http://www.wisenut.com/, 現有1,495,332,308網頁,持續增加中。
Teoma的 目標也是要趕過Google。該公司表示他們對「相關」網站進行判斷,相關的搜尋結果比Google還要多。
Google的系統是以網路結構為基礎的:網站是以訪問量來排列的。網頁的點擊率和鏈結數越多,搜尋結果中的排列 就越高。
Teoma進一步發展了這個規則,它根據其他網站對該網頁上與搜尋主題相關的鏈結數來排列的。這不僅僅可以說明網 站的訪問量大小,還可以顯示出這個網站在同類網站中的排名。
Teoma根據搜尋主題來搜尋資料庫中合適的網頁,然後將搜尋結果根據主題排列,引擎再排列出同一主題中訪問量最 大的網站。
Teoma為了解決Google搜尋結果的組織問題,使用3種不同的方法來顯示搜尋結果:1.普通排列,這種方法 可以顯示最「可信賴的」網站;2.按主題排列及3.按專家的鏈結,由該主題的專家所提供的鏈結。
不過Teoma雖然改進了組織的方法,但是覆蓋範圍卻不夠廣:Teoma的URL資料庫中還不到1億個網頁。
http://www.teoma.com/, 很謙虛,還在Beta測試中。
另一個增加搜尋相關性的方法就是限制搜尋的範圍。
總部在多倫多的Lasoo根據地域對搜尋範
圍加以限制,它要求使用者在電子地圖上用「套索」(lasso)的方式選擇搜尋的區域。
Lasoo和Google不同,它只在選擇的地域內搜尋商業和就業等資訊。
Lasoo根據與使用者所選擇的「中心」的接近程度來選擇資訊。它並不是根據行政或政治分界來確定選擇範圍。搜尋結果會顯示在地圖上。
高速地圖伺服器技術,讓Lasoo可以為世界任何地方產生地圖。Lasoo的技術長福斯(Peter Forth)表示,特有的地域搜尋引擎技術,可以在3,000萬家根據地域編碼的機構中,搜尋某個具體地域中符合某個關鍵字的資訊。
據福斯說,像雅虎等其他多數地域搜尋引擎都把著重點放在美國或世界主要城市,但Lasoo是面對全世界的。
CURE透過限制知識範圍來限制搜尋範圍。
Starpond的 合作使用研究引擎(Collaborative Use Research Engine, CURE)是一項針對大學和研究機構的訂閱使用服務。
訂戶可以選擇他們感興趣的某個具體知識領域,CURE就會將搜尋限制在相關的學術資源內。
和Google一樣,CURE也是根據其他研究此領域的CURE使用者訪問量的大小來排列網頁的。
http://www.starpond.com/signin.cfm, 需要註冊。
Vivisimo 是Carnegie Mellon大學的一家資產分派(spin-off)的公司。它使用其他搜尋引擎,並把搜尋的結果進行歸類。
Vivisimo將其他搜尋引擎所搜尋到的摘要進行歸類,並根據描述性辭彙排列網頁。使用者可以挑選許多搜尋引
擎,包括Google,Altavista和Hotbot。
資訊歸類是電腦科學中一個由來已久的問題,Visisimo總裁威爾笛斯(Raul Perez
Valdes)指出,Visisimo開發的演算法,可以極佳化資訊的分組,使其易於描述。
該公司計劃將他們的歸類技術賣給其他搜尋引擎和公司網站,不過它已經引起了許多使用者的注意:網站的訪問量平均每 月增長43%。
在眾多搜尋引擎裡, 還是有一些較為熱門的:
iWon有三個資料來源:
付錢的話, 還有 BrightPlanet 公司出品的 LexiBot 軟體, 售價是 89.95 美元, 可以免費試用 30 天。它同時搜尋六百多個搜尋引擎及資料庫, 巨細糜遺。
Meta tags 的內容最能影響排名, 其次是題名、連結。
從財務的立場考量, 搜尋引擎採用二種方式向網頁主收費:
祗要是付錢的做法, 都會影響搜尋的結果。
根據Inktomi創辦人Eric Brewer的說法,1994年出現AltaVista, Exciet, Infoseek, Lycos等第零代搜尋引擎,被索引的網頁不超過一百萬個,偶而才上網(crawled)找新網頁,更新索引。檢索效率差,速度慢,相對於當時的網頁現 況,Netscape的「What's New」就可以追蹤整個網路的資料。
第一代的搜尋引擎,每天可檢索一千萬個網頁,索引的網頁在五千萬個左右,AltaVista及Inktomi為此時期的代表作。AltaVista 以多處理器的功能超強電腦,不捨晝夜的在網路上搜尋資料;Inktomi(現在的Google及FAST公司的alltheweb亦然)採取分而治之的策 略,以小型電腦平行處理這些工作。
第二代搜尋引擎不以搜尋網站為滿足,小型入口網站流行後,地區型的搜尋引擎逐漸興起。檢索結果的相關度成為議題,Google及IBM公司的 Clever計畫是改進相關度的重要指標;使用者回饋的意見、檢索記錄及點閱分析,成為計算相關度的來源之一;Northern Light及Inktomi Directory Engine不約而同研發自動歸類系統。
改進相關度的同時,又企圖擴大檢索的範圍,第三代搜尋引擎就是魚與熊掌兼得型。Inktomi是其中的代表作,索引的網頁超過十億筆,每天又能吸引 一億三千多萬個用戶。
另一種分期的方法較為簡潔,第一代搜尋引擎為 gopher, 第二代搜尋引擎正流行, 第三代搜尋引擎同時尋找網際網路以外的資訊。
檢視整個網路,將有意義的網頁做成索引,包括MP3、PDF、影片等,根據用戶個人的資料及喜好,同時檢索數個資訊領域,Inktomi將這個技術 稱為「integrated relevance architecture」,整合性相關度架構。
讀取網頁的前幾百個字, 判斷該網頁的屬性。不過, 圖形為主的網頁, 並不適合這種環境。
Inktomi, AltaVista, FAST, Northern Light 等, 以資料庫數量取勝。
Oneupweb focuses on placing your site prominently in these top Internet search engines and directories.
搜尋引擎 | 主題名錄 |
---|---|
|
|
在Power search之下,可搜尋1995年以來七千多種期刊的論文,閱讀原文時,每篇收費1至4美元不等,具備自動辨類的功能,鍵入forest fires,出現fire prevention、forestry science等相關字詞, http://www.northernlight.com
Internet Tourbus, http://www.tourbus.com/, 提供多重搜尋引擎的技術
給一次指令, 分送至多個搜尋引擎, 整理取得的結果, 剔除重複, 以相關度排序; 多重搜尋引擎 (metashearch) 具有這種功能。
它的弱點是無法把複雜的指令轉換為各個搜尋引擎的專屬指令, 最好使用簡單的鍵詞檢索, 或者用引號把鍵詞括住, 用加號及減號代表聯集與差集。
Infozoid 堪稱速度最快, 最有彈性的多重搜尋引擎, 自動轉換布林邏輯及萬用字元; 唯一的遺憾是它不支援 Northern Light。
Dataware Query Server
Metor
Singingfish.com 是影音流(stream)搜尋引擎, 檢索音樂及影像檔的檔名或其他文字, 無法直接檢索音樂及影像。本身不經營網站, 授權給其他的網站使用, http://www.singingfish.com。
Swiss-search.com(德文網站)是第一個被授權使用該引擎的網站, http://www.swiss-search.com/。
eefind 新視科技發展中文圖片搜尋服務, 採用過濾技術, 不會出現色情與其他血腥圖片。
AltaVista、Corbis、Ditto、Photo Finder、Lycos、Virage、Yahoo。
找照片用的引擎, http://www.ditto.com/
Moreover.com
前言 http://searchenginewatch.com/resources/tutorials.html
通用數學 Search Engine Math http://searchenginewatch.com/facts/math.html
常用語法 http://searchenginewatch.com/facts/powsearch.html
找多久才甘願, WebTop.com 搜尋引擎公司調查用戶後, 發現 12 分鐘是用戶的極限。不是所有的資訊都在網上, 所以, 上網 12 分鐘還找不到預期的資訊, 絕大多數的用戶會放棄它, 改用傳統的方法再找。
http://www.zdnet.com/zdnn/stories/news/0,4586,2667216,00.html
據 BrightPlanet.com 公司的估計, 通用型搜尋引擎可以檢索百分之一的網頁資訊, 大約還有五千億份資料是一般搜尋引擎無法觸及的, 包括多媒體檔案、書目資料、資料庫裡的記錄、PDF檔案等。至於躲在防火牆後, 或屬於內部網路 (Intranet) 及外部網路 (Extranet) 的資料, 更是外人難以一探究竟的領域。
BrightPlanet.com 公司稱它為 Deep Web, 有的人稱它為 Invisible Web。
針對醫學、法律文件, 甚至笑話等專門的領域, 還有特別的搜尋引擎:
搜尋深層網頁的引擎, 挑選特定領域裡少數最棒的網頁, 做全面性的搜尋。它們派出的軟體代理人 (Software Agents, or, Bots), 不僅尋找網頁, 而且還會爬梳其內容。
有了圖書館還少不了參考圖書館員, 有了搜尋引擎並不表示使用者就此滿意, 還是需要專業人士的協助, 才能夠找到合適的資料。
通用型搜尋引擎不會放過這個領域:
Northern Light 可以檢索 56 個新聞網站最近兩週的新聞, 它的地區搜尋 (geosearch) 可提供特定地址週遭的店家。
Google 的美國區 (Uncle Sam), 有點類似 FirstGov, 用來檢索政府資訊。
多媒體資訊可以從幾個特定網站查詢:
AltaVista
Excite
Lycos
網路搜尋工具的發展, 已超越一般人的使用習慣, 以簡單的幾個字為鍵詞, 經常找出超量的資料, 唯有運用複雜的布林邏輯或完整的自然語言, 或者從專業型的搜尋引擎著手, 才可能找到特定的資訊。
目前的技術, 還無法判斷使用者的需求, 自動切換到專業型搜尋引擎。
1994年底屬於台灣人自己的搜尋引擎蕃薯藤, 開始慢慢茁壯,在那個網際網路不發達的時代,蕃薯藤曾紅透了半邊天,98年開始轉型商業化,網路越來越普及之後,相對的競爭對手開始出現,Kimo奇摩站 於97年出現、98年台灣新浪網正式運作、98年PChome online的前身Todo入門網站也加入戰局,99年世界知名搜尋引擎yahoo更看上台灣市場,蕃薯藤雖力求更進一步,小蕃薯、女性網紛紛成立,也不 時舉辦活動,但給予外界欲振乏力的印象,人氣一直無法大幅抬升,2000年yahoo與kimo合併,將為蕃薯藤帶來更大的壓力,合併結果尚未有一個具體 雛形,因此外界一般認為kimo、PChome Online、蕃薯藤,分屬為前三大入口網站。Taiwan.CNET.com - 企業應用 - 搜尋網站終極指南, http://taiwan.cnet.com/ebusiness/internet/story/0,2000033972,20000419-20001040c,00.htm
Search Engine Showdown: The Users' Guide to Web Searching, http://www.searchengineshowdown.com/
Search Engine Watch, http://www.searchenginewatch.com
http://www.searchenginewatch.com/links/Major_Search_Engines/The_Major_Search_Engines/index.html