* 1 歷史
o 1.1 語源
* 2 搜索引擎
o 2.1 物理構造
o 2.2
PageRank™和索引
o 2.3
「Google跳舞」和SEO
* 3 其他的Google服務
o 3.1
Google網上論壇(新聞群組)和Google圖片搜索服務
o 3.2 Google新聞
o 3.3 Google網頁目錄
o 3.4 Google
Answer
o 3.5 Froogle
o 3.6 Google Web
API
o 3.7 Google
Print
o 3.8 Google Maps
+ 3.8.1 Google Earth
+ 3.8.2 Google Moon
o 3.9 其他
+ 3.9.1 Google Scholar
+ 3.9.2 Google Special
+ 3.9.3 Google University
+ 3.9.4 Google Mobile
+ 3.9.5 Google Video
+ 3.9.6 Google Search History
+ 3.9.7 Google Personalized Homepage
+ 3.9.8 Google SiteMap
* 4 其他工具
* 5 Google工具軟體
o 5.1 Google工具欄
o 5.2 Google
Deskbar
* 6 對Google的批評
o 6.1
指責其產生的結果偏見的主張
o 6.2
指責其進行自我審查的主張
o 6.3 指責其濫用隱私的主張
o 6.4
對PageRank系統的批評
* 7 外部連結
o 7.1
其他國家/地區的Google
o 7.2
Google新聞地區連接
o 7.3 第三方Google工具
Google是一個位於美國的全球資訊網搜索引擎, 是網上最流行的搜索引擎之一, 它是由Larry Page和Sergey
Brin共同創建的。現在,
他們正分別擔任Google公司的產品總裁和技術總裁。Google公司的搜索引擎網站Google和其客戶網站如美國線上那裡每天接受2億次搜索請求。
其公司總部位於美國加州聖克拉拉縣的山景城 (被稱為「Googleplex」) 。
除了搜索網頁之外, Google也提供對圖象, 存在於Usenet上的新聞討論組, 新聞和線上銷售商品的搜索服務。截至2005年2月,
Google資料庫已經索引了80.5億個網頁,
11億8千萬圖象及8億4千5百萬新聞群組帖子-總共為95億。它也緩存了編入索引中的絕大多數網頁的內容。
因為Google的名聲,
「Google」一個事物做動詞表示的是「在Google上尋找某事」。它有寬泛的「搜索網路」的意思。Google官方並不鼓勵這種濫用他們公司名字的
習慣, 因為它可能導致Google變成一個通用商標名。
Google的名字來源於數學中的一個術語"googol",
意思是一個"1"後面跟隨100個"0"。這個數字比宇宙中所有的粒子的總數還大。Google使用這一術語,
是為了體現其管理和搜索網路中海量資料的目標。
Google 周圍的全球資訊網。
Google使用位於世界各地的GNU/Linux伺服器電腦回答搜索要求並索引網頁。伺服器被以shared nothing
architecture結構建造。索引是由程式「Googlebot」執行的, 它會定期地請求訪問已知的網頁新拷貝。頁面更新愈快,
Googlebot訪問的也愈多。再通過在這些已知網頁上的連結來發現新頁面,
並加入到資料庫。索引資料庫和網頁緩存大小是以兆兆位元組(terabyte)來衡量的。
Google使用的這些機器的精確大小和位於何處至今未知, Google官方刻意含糊其詞。在John Hennessy和David A.
Patterson所著的《電腦建築:走進大數》中,
推測Google的伺服器中群集電腦群形成的「搜尋場」在2000年大約應該有6000個處理器、12000個普通IDE硬碟
(即每個機器2個硬碟1個處理器) , 他們位於四個地方:二個在矽谷和二個在維吉尼亞。每個都以OC 48的線路 (2488 Mbit/s,
參見寬頻) 連接著網際網路並且有一個OC 12 (622 Mbit/s)
線路連接著其他3個Google分站點。這些連接使用思科12000網關, 用二個Foundry Networks BigIron
8000的乙太網交換器分流成4 x 1 Gbit/s的線路連接到64個伺服器夾, 裡面前後各是40臺電腦和1台惠普乙太網交換機,
所以一個架子共有80個機器和2個惠普交換機。
Google在2004年4月發佈的IPO S-1表單後, 大財政公司的英特網開發單位副總裁Tristan
Louis估計了現在的伺服器包含下列各項:
依照這一估計, Google伺服器組成了全球最強大的超級電腦, 每秒運行速度至少三倍於地球模擬器。
Google惟一被公開過的演算法是使用一種自創的稱為PageRank™ (網頁級別)
技術來索引網頁。該演算法根據其他連結到特定網頁的加權繫數來整理。因此網頁級別技術其實是根據由人所建立的連結來編排網頁。
此前許多與Google一樣流行的搜索引擎使用基於關鍵詞的方法來排列搜索結果。這種方法是以搜索關鍵詞出現的次數或相關性來排列最後的搜索結果。
先前的那些曾經比Google更流行的搜索引擎只是查看關鍵字在文中出現的次數或關鍵字於網頁的關聯程度。
除了網頁級別技術外, Google
還有使用其他秘密的標準來決定網頁排名的先後。Google創新的搜索技術和典雅的用戶界面設計使Google從第一代搜索引擎中脫穎而出。Google
並非只使用關鍵詞或代理搜索技術, 它將自身建立在高級 PageRank (網頁級別)
技術基礎之上。這項專利技術可確保始終將最重要的搜索結果首先呈現給用戶。網頁級別可對網頁的重要性進行客觀的分析。用於計算網頁級別的公式包含5億個變
數和20多億個項。網頁級別利用巨大的網路連結結構對網頁進行組織整理。
當從網頁A連結到網頁B時,
Google就認為「網頁A投了網頁B一票」。Google還對投票的網頁進行分析。Google複雜的自動搜索方法和結構設計被認為可以避免任何人為感
情因素提供公正的搜索結果。隨著搜索引擎優化 (SEO) 和各種針對PageRank的交換連結的行為的流行,
Google的PageRank及公正性也越來越受到人們的質疑。
Google不但索引並暫存HTML文件, 而且還索引其他12種文件類型, 包括 .PDF, .txt,
.doc和.xls。除了文本文件,
其他文件的是先轉換為HTML版本後暫存的。所以藉助Google可以不需要有這些文件的相應程式就可以看見這些非網頁文件,
如Word或是Excel。
使用者能自定義搜尋引擎。他們能設定一個預設語言或使用 "SafeSearch" 過濾技術,
設定在每頁上被顯示的結果多少。Google受爭議的放置永久cookie在用戶的機器上以儲存這些信息,
這使他們能夠了解過去用戶的搜索內容。任何一次搜索請求(只有頭10個關鍵字被查詢), 每次最多查詢頭 1000
個結果(以每一頁最多100個結果的方式顯示)。
儘管它有極大的索引數目, 仍然有相當多數量的資料庫的數據只能是從網站訪問到, 而不是藉由連接。這所謂的深網暫時不能被Google資料庫所覆蓋, 舉例來說包含了圖書館的目錄, 官方的法定(政府)公文, 電話簿等。
Google跳舞是一種經常被討論的現象, Google跳舞指的是Google月底大量更新資料庫和演算法的幾天時間, 因為可以發現,
這幾天對Google搜索關鍵字如www.yahoo.com得到的結果數是不一樣的。
在跳舞期間, 一個站點的等級可能在短時間里戲劇般的改變, 而且不同的Google伺服器 (舉例來說,
www.google.com, www2.google.com, www3.google.com,
www.google.co.uk, www.google.com.tw等) 可能為相同的關鍵字提供不同的結果。
跳舞似乎當是googlebot機器人抓取網頁期間隨即發生的。快速更新的網站, 高級別的網頁和新聞網站是最經常被檢查的,
雖然新聞不一定如此。小的調節在每月持續進行以確定網頁級別。在一些情況下, 可能需要二到三個月讓新建頁面出現在搜索結果。
從2003年的夏季開始, 每月的搜索, 索引和等級更新被不間斷的持續更新所取代。這種改變大大減少了Google搜索結果的不穩定性。
2003年11月15日, Google似乎進行了有史以來最重要的一次演算法升級, 後來被稱為「佛羅里達更新」。在這次更新中,
幾乎所有商業領域的關鍵詞都受到了影響, 尤其是一些熱門的關鍵詞, Google搜索的結果頁完全變了個樣兒,
很多頭一天還排在首位的網站被遠遠甩到了500名之後。
Google目前的主要挑戰之一是, 它的演算法和結果越是得到網路使用者的信賴,
商業網站為了利益而暗中破壞結果的風險就越戲劇般的增加。一些搜索引擎優化公司已經開始嘗試使用各種不同的技巧提升Google網頁評級,
以使他們客戶的網站更多的被搜索到。Google已經設法減少了一些已知的使用這種方法的網站的Google頁面評級。
SEO (Search Engine Optimization) ,
即「搜索引擎優化」。由於Google實際上已經成為最流行的搜索引擎之一, 很多網站管理員十分熱衷於跟蹤他們網站在 Google上的左側排名,
並試圖解釋他們排名變化的原因。現在已有不少網站提供排名Google搜索引擎優化服務, 如在一些高流量的討論區內刻意加入商業網站的連結,
從而使該網站在Google的排名提高。這種「發明」雖然的確有一定成效, 但這種收取客戶金錢, 在第三者的討論區上大賣廣告,
一方面對討論區的讀者造成困擾, 也侵害了討論區的商業利益;這種做法也明顯違反了商業道德。
還有一種被普遍採用的技術是很多網站使用一個相同的關鍵字連接到某一個特定的網站, 以使用戶在Google搜索這個關鍵字的時候,
這個網站的排名會出現在結果的較前面。這種方法被稱為Google炸彈。現在Google演算法更新的頻率非常快, 距猜測,
現在演算法公式中涉及的變數有300多個, PageRank™在整個Google演算法中的影響力已經下降到20%左右,
最終平衡的演算法中最重要的變數所占的比例不會超過10%, 單純靠技術手段提升排名的網站已經禁不住時間的考驗。
Google發佈了一系列的文章以指導站長們提升他們網站的頁面評級。
仍然處於β狀態的服務, 意味著該服務本身可能存在若干缺陷, 需要進一步的修復與改進。
Google維護著一個重要的新聞群組存檔, 它被叫做Google網上論壇 (即從前一個叫做DejaNews的獨立網站)
和一個圖片搜索服務 (被叫做「Google圖片」) 。前者保存了幾十年內幾乎所有的新聞群組帖子, 後者的搜索則是以與圖片相關的網頁的文本,
圖片的標題為基礎進行的, 圖片被以合理使用原則緩存進了Google伺服器。
Google現在正在嘗試一個新版的網上論壇服務(Google Group-beta), 它除了增加新聞群組投遞功能外還有郵件列表功能,
可以使用如類似Gmail這類的介面完成操作。
Google Group-beta 目前還存在一些未解決的缺陷。
Google有一個測試版的自動化新聞服務, 2004年9月「Google新聞」包括有美國版, 英國版, 德國版, 法國版, 西班牙版,
義大利版, 紐西蘭版, 印度版, 澳洲版, 臺灣版, 韓國版, 日本版, 中國版和香港版。為了公正客觀沒有偏見的報到任何新聞,
Google新聞的產生是完全由電腦演算法決定的, 沒有人類編輯參與其中。
該服務包括在過去30天內所含語言新聞網站上出現新聞的存檔, 不同的國家有不同數量的新聞來源;對於英語它包括大約4,500個新聞源,
其他語言比較少一些。並且提供新聞的大約頭200個字和一個指向全文的連接。一些需要先訂閱才能閱讀的網站;Google新聞標題中還會有明顯的提示信
息。
Google新聞提供搜索服務, 結果可以以新聞發生日期 (這樣就不會再對新聞發生的時間感到困擾了) 或相關性成類排序
(也可以直接分類查看) 。在英語版中, 有一個可以選擇對應國家的選項。
還可以使用關鍵字訂閱Google新聞警報。這樣, 當與關鍵字相關的新聞發生時, Google新聞會發出一封電子郵件通知訂閱者。
2005年3月10日Google新聞增加了自定義功能, 用戶可以自己隨意定義自己喜歡看的新聞,
甚至不同語言的新聞也可以混和在一頁內。這是網路新聞提供方式的一個重大革新。
Google新聞服務也可以按來自國家分別查看。
Google網頁目錄是一個包括了世界多種語言網頁的目錄集。在網頁目錄裡面的網頁內容一般不會被翻譯為其他語言,
而總是包括其語言在全球資訊網中的內容的。
網頁目錄功能與網頁搜索是集成的, 當搜索網頁時,
相關網頁在目錄中的內容會以連結的形式在搜索結果中顯現。點擊連結就可以找到在同一個目錄下相似網頁或其它類似分類,這當你不確定到底要找什麼時是非常有
用的。
當搜索範圍涵括太廣, 使用網頁目錄可縮小搜索於指定範圍。例如察看「中文/新聞/雜誌」分類子目錄, 則可知道有哪些中文雜誌有網頁。
網頁目錄可略去類似但無關的網頁。如檢索「大學」, 將搜索範圍設定「教學機構」分類, 即可略去像「大學書城」、古書里「大學」、論語的內容。
網頁目錄只包括經編輯群審核過網站。因為網頁目錄是在開放式目錄 (Open Directory) 工程下運作的。網頁重要性排列是網頁級別技術及人工的結合。Google還可辨出常用重要網站, 排放在目錄前面 (用粗體字標出) 提升網頁搜索效率並藉由綠線長短表明網頁評級。
2003年12月,Google發佈了Froogle,一個搜索網頁目錄上特定產品的副產品.這個站點活躍測試了幾個月.現在它也提供無線可標記語 言(WML)格式以使得電話或其他支持WML的無線設備可以訪問它。
Google Web API(網路應用程式介面或網路服務)是Google為註冊的開發者提供的公共介面, 使用Simple Object
Access Protocol(SOAP,簡單對象訪問協議), 程式員可以依據Google搜索結果開發搜索服務和進行數據挖掘。同樣的,
網蟲們也可以訪問頁面暫存然後對頁面提出建議。
預設的, 一個開發者每天只能有1,000次搜索請求。這個程式仍然處於測試中,
Google是很少的幾個把其結果通過公共網路應用程式介面公開給大眾的搜索引擎; Technorati是另外一個這樣做的公司。
Google這項服務的一些流行應用包括: Google Alert最新資料快報、FindForward;
它同時也是一個調查Google跳舞情況的工具, 它監視著Google蜘蛛在全球資訊網上的活動情況。
2004年8月, Google開始提供一項名為Google Print的新服務.
該工具可以在搜索頁面提供由內容出版商提供的書本內容的搜索結果. 並提供連向購買書本的網頁以及內容相關廣告.
Google會限制可查閱書本的頁數, 不過有人已經發現破解方法. 至20055月, 該服務仍然處於β階段. 這個服務與A9.com提供的很類似。
2004年12月, Google擴展了Google Print的功能, 其書本包括了一些著名大學和一些公共圖書館, 包括密西根大學,
哈佛大學的Widener圖書館, 史丹福大學的格林圖書館), 牛津大學的牛津大學圖書館以及紐約公共圖書館。根據這些大學圖書館和圖書的出版狀況,
Google計畫十年內將有約1500萬本位於公共領域的書上線。
Google Maps提供各種地圖服務, 包括局部詳細的衛星照片。2005年6月20日, Google
Maps的覆蓋範圍從原先的美國、英國及加拿大擴大為全球。
Google推出的電子地圖服務, 使用者通過下載一個客戶端, 便可以查看全世界的衛星地圖。
2005年7月20日, Google公司發佈了稱為Google Moon的網上服務, 紀念阿波羅11號於1969年7月20日登月35周年。此服務以之前發佈的Google Maps作基礎, 衛星數據則來自NASA。用家可使用Google Moon觀看月球凹凸不平的表面地形, 當把地圖放到最大時, 月球表面會變成一片芝士。
2004年11月,Google發佈"Google Scholar",這是一個學術文獻資源搜尋引擎. 搜索結果根據"相關性"排列, 這與Google網站使用的PageRank非常類似。
2005年5月19日, 推出了Google Personalized Homepage(自定義主頁)服務。該項服務允許有帳號的用戶自定義首頁內容。這些內容包括Gmail信件, BBC新聞, 股票行情等等。用戶也可以自定義首頁佈局. 對這項服務的評價不一, 有人認為這是Google向傳統門戶網站靠近的一步行動。無論如何, 這隻是一項在Google實驗室提供的服務, 因此也意味著Google隨時都有可能改進或取消它。
Google為網站所有者提供的服務, 由網站所有者提供一份XML格式的網站網頁地址列表,
Google將通過此文件對文件中地址進行抓取。
* Google提供一個點擊付費的廣告服務叫做AdWords,
它允許廣告商們在Google搜索結果頁和參與使用AdSense項目的網站上顯示他們的廣告條。
*
AdSense允許站長們顯示Google廣告在他們的站點上並以訪問者點擊獲得收益。這項服務使用Google的相關文本技術以使廣告內容與頁面內容一
致。
* Google提供幾種語言間實驗性的機器翻譯服務。
* Google內置一個計算器和單位轉換。
* 2002年5月,
Google啟動Google術語測試版。它可以對給定的詞提供其不同網站上的定義。測試之後,
Google現在將其與Google搜索合併;現在它稱作Google Definitions。
* 2003年9月, Google啟動地點搜索測試版, 其類似與普通搜索,
但它允許用戶限制搜索美國境內的州, 城市或郵政編碼。它還提供用戶相關地區的地圖, 估計距離, 方位信息。這項服務最近重命名為Google
Local。
* 2004年3月, Google實驗室啟動了兩個測試。一個是個性化網頁搜索,
這是一個依賴於用戶特徵或興趣的搜索引擎。另一個是Google網頁提醒, 這個工具會當網頁上有用戶定義的相關搜索新信息時會給用戶發送提醒電子郵件。
Google工具欄是一個免費的IE插件。功能包括:在不打開Google網頁的情況下隨時搜索並查看相關頁面信息;查看Google對網頁的
PageRank;阻止自動彈出視窗;自動填寫表單;用不同顏色標識關鍵字。
有人指稱使用它會帶來安全風險, 因為它會在無用戶干預的情況下自動更新。
英語版的Google工具欄可以參與Google Compute計劃,
這是一個由美國史丹福大學進行的幫助研究蛋白質摺疊、誤解、聚合及由此引起的相關疾病的分散式計算工程。
其他瀏覽器, 如Mozilla Firefox, Opera和Safari, 有提供相同功能的內建搜尋工具。Mozilla
Firefox還有一個專門的Google工具欄:Googlebar, 它是被獨立開發的, 並不被Google或Mozilla
Firefox開發者所支持。它在官方的Google工具欄上做了擴展, 惟一沒被取代的功能是Google
PageRank™。Google功能也已經被蘋果電腦的新操作系統OS X的Safari所內建。
2005年7月7日, Google推出官方Firefox版本工具欄的測試版,
同時也有多種語言版本可以選擇。該Firefox版本工具條提供了IE工具欄3β版包括的拼寫檢查、字詞翻譯和「自動連結」等新功能。
Google工具欄目前已經推出3.0版本, 其中主要的新功能包括了拼寫檢查、字詞翻譯和「自動連結」。自動連接功能能在滑鼠指向的相關超連結下顯示相關信息, 如滑鼠指向一個ISBN號, 則在下方就可以顯示出Amason網上書店中這本書的相關信息。目前, 該連接功能只適用於美國。最近。也有人批評該項創新功能是破壞了網頁創建者的網頁自主權。因為此項功能實際是通過修改原網頁HTML代碼實現。
2003年12月, Google啟動了測試版的Google Deskbar, 這是一個運行在Microsoft
Windows系統任務欄上的搜索工具, 而不必打開網頁瀏覽器。它還可以搜索電評論, 股票價格, 在線上字典和辭典中查找某字詞的釋義,
查找任何預定義的第三方網站 (例如eBay或亞馬遜網上書店)。Deskbar被很多人認為最強大的功能之一就是所謂的全局指令鍵
(Ctrl+Alt+G) , 無論在任何文檔中選擇關鍵字後都可以直接進行搜索。
當Google顯然已經開始被大眾作為首選的搜索工具後, Google也同時成為被批評的對象。線上新聞站點們不喜歡Google新聞的發行。2003年 2月, Google封了Oceana這個有著兩年半歷史的非盈利組織的廣告, 他們抗議了一個主巡航線的排污方法。在華盛頓電子隱私信息中心的副執長 Chris Hoofnagle警告說: "因為法院正在變得更為經常的用電子記錄作為證據, Google的風險正在變大...這是一個嚴重的隱私威脅"。
2004年4月, Google接到了關於在其網站上搜索"Jew"(猶太人)時產生的結果的抱怨, 反猶主義網站Jew
Watch排在結果的首位。Google堅持他們的結果是由內容中立的演算法計算的, Jew
Watch網站這個網站因為被人在英文維基百科上放置了一個Google炸彈, Jew 因此排在結果首位的。Jew
Watch在其他的搜索引擎上同樣排名前列,如Yahoo!和MSN,但這些公司很少收到指責。
Jew Watch的主頁, 四月末開始從Google搜尋結果中排名下降。因為期間Jew
Watch的網路空間服務提供商EV1取消了它的帳號, 這個網站因此有幾天完全無法訪問。因為Google的蜘蛛程式在重複嘗試後無法到達該網站,
於是它
的排名在Google索引里開始滑落。這個站點之後找到了另一家服務提供商,
於是其在Google中的排名在五月的第一個星期開始上升。Google在2004年4月23日在其"討厭的
搜索結果里", 解釋說"被我們刪除的網站都是法律上強迫我們刪除的"。
宣揚種族優勢和歷史修正主義的網站, 已經在法國和德國Google上封鎖很多年了,
因為那些言論在當地不合法。簡體中文版的Google也限制了上萬個關鍵
字 ,技術上講, 這等同於是參與了中國中央政府的控制政策。其它潛在的爭議性網站如赤裸裸的色情圖片網站大部分沒有收到影響, 無論如何(預設支持的
"SafeSearch"濾鏡)網路過濾程式在Google圖片搜索上的作用並不是很明顯。
有人指責Google利用唯一標識cookies破壞了訪問者的隱私。這些cookies不會過期、並且會在未得到同意的情況下,
把用戶的搜索請求用於廣告的目的。Google宣稱cookies是用來獲取用戶在不同session和網站的參數選擇的,
用戶可以自己選擇關閉cookies。
一些人相信Google的GMail會過度的處理信件內容。支持這觀點的人一般沒有GMail帳號,
因為他們不同意GMail的服務條款;但問題是向GMail發信的用戶也會收到未經批准的信件內容分析。Google宣稱使用GMail發送或接受的信件
不會被人類分析:它只用來改進廣告內容關聯性服務。
您得自由: