介紹全文型搜尋引擎的運作模式, 以Google、AltaVista、Lycos、HotBot、Northern Light為例。
- 技術 - PageRank
- 客戶導向
- 基本檢索
- 進階檢索
- 使用偏好
- 營運模式
- AltaVista
- 基本檢索
- 進階檢索
- 營收機制
- 翻譯網站
- 其他服務
全文型搜尋引擎的特性:
Larry Page 和 Sergey Brin 是史丹佛博士班的學生,他們在 1998 年創立 Google
公司。2000年9月12
日, 提供繁體及簡體中文資料的檢索服務, 2003年10月已在84個國家設有伺服器, 可檢索35種語言的資料,
有88種語言的介面供用戶選擇,用戶的語言喜好都將會保存以供下次來訪使用。
Google 是由英文字裡的「googol」而來,是美國數學家 Edward Kasner 的外甥 Milton Sirotta
隨便造的一個詞,代表 1 後面在加 100 個零的數字。Google 使用這個龐大的數字代表公司想征服網上無窮無盡資料的雄心。
Google 的使命就是在「網際網路」上藉由使世界的資料更容易存取使用來傳遞最好的搜尋經驗。Google 是全球最大的搜尋引擎開發者,在網路上提供最快速、最簡單的找資料方法。Google 藉由存取超過 30 億的網頁資料,不用半秒鐘就可以將相關的搜尋結果提供給遍佈全球的使用者。目前 Google 每天提供超過上億次的查詢服務。
PageRank 以客觀的分析來決定網頁的重要性,並依據五億種方程式及超過 20 億個字詞來計算。PageRank 使用網頁的連結架構如同組織工具一樣。簡單來說,Google 說明網頁 A 連結至網頁 B 時,則視為網頁 A 投給網頁 B 一票。Google 是藉由收到的票數來評估網頁的重要性。Google 也會分析參予投票的網頁。
當然,Google 會查看票數來源,或是連結網頁接收的票數;同時它也會分析參予投票的網頁。透過「重要的」網頁來參予投票,並且幫助其它的網頁也成為「重要的」網頁資料。重 要、優質的網站會得到較高的 PageRank,同時 Google 會記住每次所處理的查詢情況。當然,如果查詢出來的網頁結果並不符合您的需求,重要的網頁對您也不具任何意義。因此,Google 將 PageRank 和精密的內文比對技術結合,來找出重要並且與您的查詢相關的網頁。Google 會將出現於網頁上的字詞顯示出來,並且檢查所有的網頁內容﹝及連結到此網頁的其他網頁內容﹞以決定這樣的查詢結果是否最符合您的需求。
Google 這種複雜、自動的方法,使有心篡改搜尋結果的人很難去篡改。然而儘管我們將相關的廣告放置在搜尋結果的附近,Google 是不會介入販賣廣告內的任何商品﹝換言之,沒有人可以買到較高的 PageRank 結果﹞。Google 搜尋是以簡單、誠實且客觀的方法,來找出與您的搜尋相關的優質網站。因為 Google 能優先且快速的提供您最相關的搜尋結果!網路上的大量資料數量需要極佳的搜尋服務,才能提供用戶易於存取有用的資料。如果沒有一個強大的搜尋工具,要找尋 特定網站時將會非常困難。
Google 排列網站的先後順序。
Google是設計來排列雜亂資料的先後順序。搜尋服務不是編輯、限制目錄或已拍賣給最高投標人的搜尋結果清單,而是一種依據本身結構將「網際網
路」組織化的周到方法。
Google 能讓使用者搜尋到超過 30 億個網址。
Google 的索引含有超過 30 億個網址,且首先在「網際網路」上廣泛的呈現最有用的網頁收集。
Google 僅提供符合您鍵入字詞的網頁。
與許多其他的搜尋引擎不同的是,Google
僅能產生符合您所有搜尋字詞的結果,這結果不是出現於網頁的內文,就是指向這網頁的連結。因此,不會再有搜尋出現失敗的結果,以致使您對於要搜尋的字詞不
知所措。
Google 尊重在網頁內您要搜尋的字詞位置。
這
樣一來,不僅 Google 的搜尋結果包含所有您要搜尋的字詞,而且 Google
也會分析網頁內文中接近的字詞。與許多其他的搜尋引擎不同的是,Google
會依據接近的搜尋字詞來排列搜尋結果的優先順序。我們贊同搜尋出來的結果能與您要搜尋的字詞確切相關,如此一來,可以使您花較少的時間來篩選不相關的搜尋
結果。
Google 提供每個字詞的相關預覽。
Google 會摘錄搜尋結果內符合您查詢的內文,而不是從未更改的網頁摘要。這功能可以讓您節省時間並且避免下載不相關的網頁。
Google 可以讓您覺得好手氣!
Google
對於一般查詢﹝例如:公司名稱﹞擅於在首次產生正確的結果。事實上,我們對於這點是很有信心的,同時我們已安裝「好手氣(tm)」功能鍵,能直接帶領您到
搜尋結果中排名第一的網站。Google 的「好手氣」功能能讓您快速的取得有用的資料。
Google 具有網頁暫存的功能。
Google
將許多網頁儲存在頁庫,以作為網路伺服器暫時失效時能夠恢復的備份。儘管您所收到的資料可能少於最新的資料數量,檢視頁庫的內容可以比定期連結的速度更
快。
點選進階檢索(Advanced Search), 進入較複雜的檢索機制。
查詢
包含全部的字詞(交集, AND)、包含完整的字句(字串, "")、包含任何一個字詞(聯集, OR)、不包括指定字詞(差集, -),
指定每頁顯示的檢索結果(10, 20, 30, 40, 50, 100等)。
語言
可以指定中文在內的查詢網頁語言。
日期
檢索的結果, 指定傳回網頁的更新日期位於任何時間、過去三個月、過去六個月、過去一年內。
字詞位置
指定查詢字詞位於網頁的位置,
包括任何位置、標題(allintitle:)、內文(allintext:)、URL(allinurl:)、在網頁內的連結
(allinanchor)。
指定網域
指定祗在特定網域出現的網頁, 或不在特定網域出現的網頁。指令為 site:lins.fju.edu.tw。
有一些字加上冒號後,在 Google 裡就有不同的意義。像「site:」就是其中一例運算子。如果要在特定的領域或網站中搜尋,就可以在
Google 查詢欄使用「site:sampledomain.com」這樣的語法。
例如:要尋找 Google 網站裡有關「Press」的資料,只要輸入:
檢索類似網頁
檢索類似以下網址的網頁, 例如: www.google.com/help.html; 指令為 related:
連結至此
檢索連結至此頁的網頁, 指令為link:
由於 Google
僅能找到包含所有您要查詢字串的網頁,因此修正或縮小您的查詢範圍就如同新增更多字串一樣的簡單。新增更多的字串,使您的搜尋結果包含特定的網頁子集合,
同時這些網頁是透過您原本「過於廣泛的」查詢條件之下所找到的。
排除字串
若在特定字詞前使用「-」減號,可以要求查詢的網頁裡不包括該字詞。﹝請注意在減號前保留一個空格。﹞
搜尋片語
使用 Google 時,您可以藉由加上雙引號來搜尋片語。在搜尋的字串兩旁加上雙引號﹝"like
this"﹞,則使找到的所有文件中皆會一同出現此符號,﹝除非有些字串太頻繁的出現於大部分的網頁時,致使 Google
無法有效率的搜尋,因此就需要在查詢的字詞前加上「+」加號 -- 詳情請參閱此處﹞。使用雙引號來搜尋片語,將有助於正確搜尋名言或特定的人名。
查詢專有名詞時,可以使用某些符號來連接文字。包含連字符號、斜線符號、句號、等號、省略符號。
依類別來搜尋
Google 網路目錄 (位於 directory.google.com) 提供您在搜尋特別的主題時,可以輕鬆的修正您的搜尋條件。例如,當您在
Google 網路目錄下的「科學」>「天文學」類別中搜尋「土星」時,則 Google
僅會找出有關「土星」行星的網頁資料。而不會找出有關「土星」車子、「土星」遊戲系統,或是「土星」字詞的其它意思。
在 Google 所提供的類別裏搜尋字詞時,可以使您快速的找到與您要搜尋的字詞最相關的網頁資料。
通常,新增更多的字串使查詢變的廣泛,可以幫助您找到要查詢的資料。然而,Google 也提供一連串的搜尋特色,可以使您:
點選使用偏好(Preferences), 可以設定下列事項: 介面語言、被查詢網頁的語言、每頁顯示的檢索結果(10, 20, 30,
40, 50, 100等)、結果視窗(是否另開視窗)、中文繁簡轉換(找到簡體字網頁時, 轉換為繁體字)。
在英文介面的使用偏好設定裡, 還有一個SafeSearch Filtering, 不讓與色情相關的網頁顯示出來, 分為三個等級:
顯性及隱性、顯性、不過濾。
在語言選項(Language Tools)裡, 可以設定 Google 的所有網頁、指令等,都使用您熟悉的語言, Google
目前提供包括中文、英文在內的88種語言, 包括臺灣布內, 於84個國家設有伺服器。
友站連結
Google廣告分為兩種, 廣告字(AdWords)和友站連結(Premium Sponsorships), 廣告字出現在螢幕的右側,
右站連結是贊助商廣告, 出現在查詢結果頁面最上方, 兩者都是廣告主付費取得。
AdWords廣告基於點選付費原則(cost-per-click, CPC),
Overture和Looksmart也有類似的機制。廣告的
位置由點選率和競價兩者相乘, 其收益由「AdWords Discounter」自動監測。
參考諮詢
Google Answers有500多位研究員待命, 接受使用者問題, 至少每題收2.5美元, 保證滿意, 不滿意的話, 30天內退費;
已經回答的問題, 分類公開陳列, 自由使用。
2003年10月3日, 有人問了這個問題: How long will a compact disk last?, 被收取3美元。
如同所有的圖書館參考諮詢, Google的參考諮詢純綷諮詢, 不能取代專家的意見,
尤其在醫學、精神治療、心理學、稅務、法律、投資、會計等領域。
郵購目錄
搜羅郵購目錄, 供使用者檢索。
圖片檢索
檢索網路裡的圖片, 實際上是檢索圖片的檔名。
新聞檢索
與4,500個新聞來源合作, 還在Beta階段階段。
特別領域檢索
祗針對特別領域的檢索, 現在有: 大學(University Search)、美國政府(U.S.
Government)、Linux、BSD、Apple Macintosh、Microsoft等五個領域。
指南
可用中文檢索。
1995年12月15日成立的 AltaVista 與 Yahoo! 併稱歷史最悠久的搜尋引擎, 祗花了六個月就能上線, 提供服務。
1999年10月底,路遙(AltaVista)再度改版,CMGI為其東家。
1995年12月開始營運,不算是最早的搜尋引擎,Lycos 與 WebCrawler 於1994年初就已存在了,Excite 與 Infoseek 都略早於 AltaVista。
收錄250,000,000個不同的網頁,25,000,000個多媒體物件,號稱容納九成的網站。1999年2月 NEC Research Institute 估計全球有 2,800,000 個網頁伺服器、800,000,000個網頁,以此為準,即使 AltaVisat 涵蓋九成的網站,卻祗佔了31%的網頁。
尖峰時間,祗檢索固定的時間,就把資料回覆給使用者。
可以檢索六種網路資源:
另外還有三個獨立的搜尋:
AltaVista Live 是個人化服務的名稱。
Family Filter 過濾色情及其他非主流的資料,適合保守人士及未成年人使用。
搜尋的結果,依照該網頁的內容、meta tab、對外連結、與受歡迎的程度等資料而排序,每個網站祗列出一個網頁,讓使用者有更多的選擇機會。每筆資料之下,有三個連結:
有三種檢索模式:
Advanced Search 模式功能不多,布林邏輯及時間限制是兩大特色;然而,從 News 來搜尋具有時間特色的資料,效果更佳。在微軟公司的搜尋網頁下,還有另一個更常用的相同網頁 http://search.msn.com/advanced.asp 。
從 Images, Audio & Video 模式可以檢索多媒體資源,拇指大小的圖片多半來自 Corbis 與 Getty,其餘取材於自有資料庫。
News 擷取主要媒體的新聞,大約是過去六小時至二週之間的新聞。
Discussion 的內容由 RemarQ 提供。
Shopping 不祗是提供 AltaVista 網路商店的貨品,它從整個網路去找貨品。
以聯集(OR)為內定的運算子, 檢索量相當大, 以自訂的演算法, 排序檢索的結果。鍵入的字詞愈多, 排序的結果愈符合期望,
內含最多字詞的網頁, 被排在前面。
檢索結果畫面提示縮小範圍(Refine your search with AltaVista Prisma)
的建議。
還有若干選項功能, 可有效縮小檢索範圍, 其語法為<option>:<search string>:
選項功 能
說明
AND Peanut AND butter
交集, 包括所有字詞的網頁, 才會被找出
OR Peanut AND butter
聯集, 至少有一個字詞的網頁, 才會被找出
AND NOT Peanut AND NOT butter
差集, 有Peanut沒有butter的網頁, 才會被找出
NEAR Peanut NEAR butter
接近, 字詞的順序不變, 且在10個字之用的網頁, 才會被找出
* bass*, col*r
萬用字元, 取代任何字元, 數量不限; 之前必須有三個字母以上; 也可放在字元之間
() (Peanut AND butter) AND (jelly OR jam)
限制運算, 限制運算的順序
anchor:text anchor:fju
以fju為超連結字的網頁, 才會被找出
applet:class applet:fred
用到Jave applet fred class的網頁, 才會被找出
objcet:class object:money
用到物件名稱為 money的網頁, 才會被找出 domain:domainname domain:tw
祗有結尾是.tw的網頁, 才會被找出 host:name host:fju
網域名稱裡有fju的網頁, 才會被找出 image:filename image:mao.jpg
含有mao.jpg圖片的網頁, 才會被找出 like:URLtext like:lins.fju.edu.tw
內容與lins.fju.edu.tw相似的網頁, 才會被找出
link:URLtext link:fju.edu.tw
連結到fju.edu.tw的網頁, 才會被找出 text:text text:overweight
含有overweight的網頁, 才會被找出 title:text title:library
題名含有library字的網頁, 才會被找出 url:text url:mao
網址含有mao的網頁, 才會被找出
domain及url都是很好用的選項, 把檢索結果限制在特定地區, 可用domain選項。很多地方都稱為Cambridge, 以
把檢索的範圍限制在英國的劍橋; 想找英國以外的劍橋, 則可鍵入
選項本身的設計沒有問題, 祗是在實務上有些出入。
檢索結果分為兩個部份: Sponsored Matches 及 AltaVista found。Sponsored Matches 是廣告商付費, 買下鍵詞的廣告權, AltaVista的廣告係來自Overture Inc.。AltaVista found才是真正的檢索結果, 可在進階檢索設定顯示數量, 最多每頁50個。
還有一個協助縮小範圍的建議: Refine your search with AltaVista Prisma
有兩種形式, 較精確檢索(More Precision)及進階檢索(Advanced Search)。
較精確檢索有四個選項: 包括所有的字(All these words), 交集; 字串(this exact phrase),
以引號括住; 任何字(any of these words), 交集; 不含任何字(none of these words), 差集。
進階檢索多出以下的選項:
即時翻譯, 有兩種方式: 文字(Translate a block of text)及網頁(Translate a Web page)。
最多可以處理150個字, 共有19種語文的翻譯:
除了網頁(Web)全文型搜尋服務外, AltaVista還有其他的搜尋服務, 多半與相關業者合作, 直接使用聯盟業者的資料庫:
圖像(Image)、音樂(MP3/Audio)、影像(Video)、名錄(Directory)、新聞(News)。
以及購物(Shopping)、房貸(Mortgage Rates)、旅遊(Travel)、氣象(Weather)、交友(Personals & Dating)、網站服務(Web Site Solutions)、地圖(Map)、商業名錄(Yellow Pages)、尋人(People Finder)、度量衡換算(Converter)等。
在26個國家(語文)設有網站: Australia - Australia, Austria - O"sterreich,
Belgium (French) - Belgique, Belgium (Dutch) - Belgie, Brazil - Brasil,
Canada (English) - Canada, Canada (French) - Canada, Denmark - Danmark,
Finland - Suomi , France - France, Germany - Deutschland, India -
India, Ireland - Ireland, Italy - Italia, Korea -(韓國), Netherlands -
Nederland, New Zealand - New Zealand, Norway - Norge, Portugal -
Portugal, Spain - Espan~a, Sweden - Sverige, Switzerland
(German) - Schweiz, Switzerland (French) - Suisse, Switzerland
(Italian) - Svizzera, U.K. - United Kingdom, U.S. - United States
Google Alert - Track a Web Search Automatically, http://www.googlealert.com/