- 前言
- 需求分析
- 如何『偷窺』他人的搜尋字串
- 搜尋字串排行榜
- 搜尋策略
- 搜尋祕笈
在前面兩期介紹過國外、國內著名的搜尋引擎
(Search Engine) 以及網站目錄 (Web Directory)。這期就要開始介紹搜尋的一些訣竅跟秘笈。若讀者有購買前面兩期倚天雜誌,想必一定拿了搜尋引擎的網址去試著尋找一些您所想要的資料吧!然而,面對不同的搜尋引擎,會傳回完全不同的結果,有的甚至出乎意料之外(傳回絲毫無關的網頁),為什麼呢?OK!就讓我慢慢的來剖析,再進一步告訴各位如何去善用每個搜尋引擎的所有步驟。看完這篇,絕對讓您物超所值,因為一個能善用搜尋引擎的資訊人,可以在彈指之間自Internet中抓回準確有用的資訊 (Information),節省上網費用,也『賺』到寶貴的時間,可能一篇報告,不發幾分鐘,腳本都抓到了,再看個幾篇,集大成可以寫論文了。廢話不多說,馬上進入正題!
在做需求分析之前,我想先定位觀眾群,我把他分為兩類:
- Web Masters(也就是網管者,或是Web Designer):
對網管者而言,最重要的就是希望自己網站中的資料,能盡量被搜尋引擎的使用者找到,網站成立之後,網管者必須到各
Web
Directory去Submit自己的網址,並且給定一個足以說明自己網站的字串,Web
Directory就會(也只會)Index這些說明,而Web Directory找得到的也只能是這些網管者自己submit的字串。因此指定對自己網站的介紹字串十分重要。而對Search
Engines而言,就不適用此法,而是要網頁的資料中出現的字詞,盡量在重要的辭句上重複多次(因為有的Search
Engine會將搜尋字串出現次數多者,算成排行高),並使用新的HTML語法的Meta-Tags來設定該網頁的Keywords為何。這些增高網站網頁被搜尋引擎找到的祕訣,是可以找到一定的方式提高中獎率的。網管者一般都懂得一些搜尋祕訣,但他們最需要的不是找到自己要的資料,而是希望讓自己網頁的資料能夠被找到。那身為網管的您,一定知道哪些字串足以代表網頁所闡明的內容,那該如何利用這些字串放到網頁中呢?(或submit給Web Directory呢?)
- Users
對使用者而言,一般人並不了解搜尋引擎的做法,更何況搜尋引擎每家都不同(分為三類),而搜尋上一堆的
Operators若非念過邏輯觀念者,是不容易理解的,對這些人而言,我只能叫各位去看看我前面兩期對搜尋引擎的說明,再加上本篇的搜尋祕笈,實例驗證後,應該就可以駕輕就熟。那你們通常都對搜尋引擎下什麼搜尋字串呢?
我想我該先忽略網管者的需求分析,先來看看一般人所給搜尋引擎的搜尋字串是什麼?關於這點,有些搜尋引擎允許我們去『偷』看其他人所下的搜尋字串。希望藉此得知大多數搜尋引擎的使用者,是否具有足夠的搜尋『常識』呢?而人們最常搜尋的主題又是什麼呢?
WebCrawler Search Ticker
http://webcrawler.com/Games/SearchTicker.html
很有趣的一個網頁,由 WebCrawler 搜尋引擎所提供的,可以偷窺到目前 WebCrawler 搜尋引擎站中,人們所輸入的搜尋字串。讀者連過去看看,蠻好笑的,我還看到有人輸入一堆要找有關性的字串,什麼
4play, bad girls, upskirts, rape 等等。這個網頁要用支援
Java 的瀏覽器去看,十分有趣。但是由於字串移動的太快,無法完全記住太多。想看到更多使用者所下的搜尋字串可以輸入下列的 URL
http://webcrawler.com/cgi-bin/SearchTicker
得到下列:
- MetaCrawler MetaSpy
http://search1.metacrawler.com/perl/metaspy
(這個經過過濾)
每十五秒秀出網站中目前人們正在搜尋的字串,共十個。好笑的是,這個網頁動態秀給你看的搜尋字串,還是經過修飾的,他把有關性、暴力等不好的字串給過濾掉再秀給你看。若要看原版的輸入URL:http://search1.metacrawler.com/warning.html
這一頁還警告您說未經過過濾 (filter) 的搜尋字串可能含有色情或暴力,要您超過 21 歲才可以看,按個同意之後,就會進入到:
http://search1.metacrawler.com/perl/metaspy?filter=false&submit=I+agree
呵呵!還真有人『性』的網頁,至於讀者有沒有超過二十一歲?誰知道阿∼但至少這個站還蠻有『環保』概念的。
- Magellan Search Voyeur
http://voyeur.mckinley.com/cgi-bin/voyeur.cgi
類似前面所提到的 WebCrawler Search Ticker,可以秀出 Magellan 搜尋站中,人們所給的搜尋字串。這個網頁同樣也是每十五秒
refresh 畫面一次,若不想等十五秒,輸入下列URL:
http://voyeur.mckinley.com/cgi-bin/voyeur_queries.cgi
搜尋字串排行榜
Yahoo Top 200 Search Words
http://eyescream.com/yahootop200.html
有人在 1996 年十月外放出
Yahoo 前兩百名的搜尋字串,而 Eyescream 將這兩百個搜尋字串放在網上。其中,前二十名的搜尋字串中,有超過
60% 是跟性有關的搜尋字串(哇哈!人性本色)而在全部的兩百個搜尋字串中,有超過
25% 與『性』息息相關。
- Pointers Most Popular Search Terms
http://www.pointers.co.uk/pointers/search.htm
列出 Most Popular Search Terms,這是所有使用
Pointers 搜尋引擎的使用者搜尋字串中,所統計出來的最常用的搜尋字串,該統計資料取樣十萬個不同的搜尋字串。Pointers
將這些資料公佈在網上,單字中的前十名是:
- Hotels
- Sex
- Training
- Advertising
- Accountants
- Antiques
- Jobs
- Schools
- Wine
- Weather
兩個字的前六名是:
- Estate Agents
- Search Engines
- Bargains Cheap
- Beauty Therapy
- Career Development
- Computer Security
但由於
Pointers 是商業化的一個網站,因此這些數據並不能完全適用於所有的一般搜尋引擎。也因此,很多跟商業有關的搜尋字眼特別多,但還是很多人找有關『性』的搜尋。
- Viaweb Search Keyword Study
http://www.viaweb.com/vw/studimpurrar.html
為一篇 New Search Keyword Study 報導反駁了『大多數的網路購物者,都是 Impulse
Purchases (出於衝動的購買)』的理論。Viaweb
Inc 為一家著名的 Online Store Software,在 1997 年 3 月 31 日發表了這篇有關線上購物者的搜尋字串的報導。該
keywords 指出線上購物者在使用搜尋引擎之前,心中早有
70% 的購買意圖。此篇報導推翻了網路購買者是衝動購買的理論。至於這篇報導的取樣來源,是透過該公司的
tracking tools,該研究隨機抽取兩百名網路購物者的搜尋字串,抽取時間範圍是自
1997 年二月到三月。結果發現,兩百個搜尋字串中,有
141 個搜尋字串是跟他們後來購買的東西有關(佔
70.5%):92個人(46%)搜尋他們要購買的物品名稱,47個人(23.5%)搜尋他們購買物品的店名,2個人(1%)搜尋『gifs』searched for "gifts",其餘的五十九個購買者的搜尋字串:32
(16%) 搜尋與他們購買物品相關的主題。19
(9.5%) 搜尋與他們購買物品完全無關。(這些才是衝動慾望購買者)8
(4%) 搜尋其他資訊。(這些才是衝動慾望購買者)因此衝動購買類型的,應該只有
30%,而實際的百分比,應該更低。
???
- 分析搜尋主題,選擇搜尋工具
- 選擇搜尋字串,運用搜尋語言
一但選定搜尋工具之後,第一件事情當然就是打開
Web
Browser輸入搜尋工具的網址,接著哩?你需要的是:輸入搜尋字串。搜尋字串越多是越好,太少的搜尋字串容易傳回大量的搜尋結果,而太多又怕找不到半筆,因此讀者可交叉增減,看傳回比數加以調整。
- 運用搜尋語言(此處列出所有站均支援的)
除了慎選搜尋字串之外,在那一長串的Keywords之間,可以加入些許控制搜尋動作的搜尋語言,一般而言,所有的搜尋引擎都支援布林搜尋(Boolean
Search:AND、NOT、OR),有的還支援Proximity
Search、QBE(Query By
Example)、Topics Search(如Verity的SEARCH’97),通常只要熟用下列搜尋技巧即可無往不利:
- 使用大量
Keywords合起來當搜尋字串,例如:Microsoft
Windows NT Service Pack。
- 多用片語(Phrase):用『”』將片語圍住當成一個Keyword去搜尋,例如:”Bill
Gates”。
- 使用AND,例如:”Internet Explorer” AND
“Netscape Navigator” AND Comparison。
- 使用OR,例如:”Internet Explorer” OR
“Netscape Navigator”
- 使用
NOT,例如:”Internet Explorer” AND
NOT “Netscape Navigator”,此時必須注意,有的站對於NOT的語法是AND NOT,有的則是NOT。
- 在布林語法中使用『( )』,例如:”bed
and breakfast” AND ((grapes AND California) OR “wine country”),或者是 (hacker OR programmer) NOT “part time”) AND
(design OR “graphic arts”)。
運用高級搜尋,縮減搜尋結果
幾乎每個搜尋引擎都有提供一些高級搜尋介面或參數,可以對搜尋加以篩選,各家做法都不同,這部份需要較高的技巧,也需要對所選定的搜尋引擎有深度的了解才能駕輕就熟,筆者將在下節搜尋祕笈裡介紹
Top
5 的英文搜尋站台以及台灣的GAIS。
AltaVista http://www.altavista.digital.com/
為AltaVista預設的搜尋模式,只要在搜尋框中輸入字串,或片語(用雙引號刮起來,如:”Search
Engine”),甚至是一個問句,例如:what is
the weather in Boston?,再按下Search按鈕,夠簡單了吧!因為AltaVista對自然語言(Natural Language)問句的分析十分精準,所以不必怎麼去分析該如何給定搜尋字串。此外,不用怕傳回來的搜尋結果有上萬百篇,因為最上頭的,照『理論』而言會合乎您的搜尋需求,除非您給的搜尋字串不夠貼切。搜尋字串範例如下:
- apple pear muffin recipe
- bicycle "for sale"
- quilt*
- +noir +film -"point noir"
AltaVista搜尋框附近有個『進階搜尋』(Advanced Search)按鈕,按下去之後出現新的搜尋畫面,多了Ranking功能以及日期篩選功能。
- Ranking:在使用進階搜尋的時候,若在Ranking該欄位沒有輸入字串,則所傳回來的搜尋結果中的URLs是沒有經過排行搜尋結果與搜尋字串的相關度的。若您覺得搜尋主題與某個Keyword非常有關連,可以將該字串放在Ranking欄位中,則搜尋結果中對該Keyword會加重計分,並將與該Keyword有關的URLs排在最前頭。例如:如果想找Microsoft或Sun公司有關Javascript的資料,則在搜尋字串中先輸入+Microsoft
+Sun,而在Ranking欄位中,輸入Javascript,則搜尋結果中具有Javascript相關資料的URLs就會先出現在搜尋結果的最上方,因為對含有Javascript的網頁,AltaVista給該URLs較重的權位(Priority),讓你越想看的URLs出現在最上頭。
- 時間篩選:限定傳回網頁中的最後修改日期(last modified date),其輸入格式為dd/mm/yy,以就是日月年,例如09/jan/96。
- AltaVista的Refine按鈕:使用AltaVista的Refine可以秀出搜尋結果的Topics列表,而AltaVista提供兩種看Topics
List的方式:
- List Vies:List View會列出Topics表,每個Topic下,有下拉式表單可輕易自搜尋字串中加入或移除某Topic。
- Graph View:Graph View則圖形化表示出Topics的連結。
Refine可以用來分析搜尋結果的文件內容,秀出Topics,Topics則動態依照文章內出現次數部同而有變化。
AltaVista提供的Keywords Search:如何在搜尋字串中使用Keywords?何謂Keyword Search呢?AltaVista的Simple Search以及Advanced
Search都支援Keyword Search,何謂Keyword呢?這是Altavista自定的Structural
Elements。可以用它來搜尋網頁中某些部份。Keywords語法說明如下表:
Keyword類型 |
範例 |
anchor:text |
anchor:”Click here to visit Altavista” |
applet:class |
applet:morph |
domain:domainname |
domain:edu.tw |
host:name |
host:altavista.digital.com |
image:filename |
image:elvis |
link:URL |
link:altavista.digital.com |
text:text |
text:”Bill Gates” |
title:text |
tltle:Elvis |
url:text |
url:altavista |
from:username@address |
from:president@whitehouse.gov |
subject:text |
subject:”basketball playoffs” |
newsgroups:groupname |
newsgroups:tw |
summary:text |
summary:playoffs |
keywords:text |
keywords:beta |
Keyword實例:
- Web Keyword範例:
- url:www.microsoft.com/ie/
- host:www.adobe.com/
- domain:org
- image:demo_screens.jpg
- anchor:”mailing list”
- link:abc.org/mypage
- link:myhost.abc.org/mypage -host:myhost.abc.org
- text:training
- title:”The Wall Street Journal”
- applet:NervousText
Usenet Keyword 範例:
- 搜尋祕訣:
- 使用小寫,除非您要搜尋的字串第一個字是大寫,因為AltaVista搜尋引擎為Case-sensitive,也就是大小寫有分別的。例如:搜尋字串為Coffee,AltaVista不找coffee,除非搜尋字串為coffee。
- 使用片語(Phrase):利用雙引號『”』將搜尋字串括弧起來,讓AltaVista去找出相同片語的網頁。例如:搜尋 “once upon a
time”。
- 使用更多的搜尋字串:剛開始很可能你只給定兩三個搜尋字串叫AltaVista去搜尋,但卻傳回上萬個搜尋結果,此時,考慮多考慮幾個Keywords,加上原本的搜尋字串再度搜尋,可以逐漸縮小(Narrow)傳回的筆數。反之亦然,若傳回的筆數不夠多,就去除某些Keywords或是考慮更改更適合的搜尋Keywords。例如:搜尋字串為sandals,可能傳回一堆網頁,若搜尋字串為sandals
leather footwear就傳回比較精準的結果。
- 使用+當作AND:也就是該搜尋包含(Include)該字串。例如您要搜尋Broadway
musical,可以搜尋字串:+Broadway Cats,至於字串也可以用+號,例如:+”one small step”。又例如:Mary AND lamb
- 使用-當作NOT:也就是該搜尋結果不包含(Exclude)該字串。例如搜尋字串為cats -musical,表示不找出有關cats的Broadway
musical,而找真正有關貓的網頁。又例如:Mary
AND NOT lamb(注意:AltaVista不支援Mary NOT lamb),要將NOT的語法輸入方式改為AND NOT。
- 使用NEAR:例如Mary
NEAR lamb,則找出Mary跟lamb之間相差在十個英文字(Words)的網頁。例如:John
NEAR Kennedy,會搜尋出John Kennedy, Kennedy, John,
John Fitzgerald Kennedy, John F. Kennedy等。
- 使用括號:例如 (apple OR pear)
AND (tart OR pie)
- 使用*當作Wildcard:例如搜尋micro*,則會找出以micro為開頭的所有字串。例如搜尋gold*,會搜尋出gold, goldfinch, goldfinger, 或golden等等以gold開頭的字串。例如搜尋字串為CD AND (NOT (financial
OR money OR invest*)) AND music。
Submit)給AltaVista去建立索引:
- 進入http://www.altavista.digital.com/av/content/addurl.htm
- 在網頁下方輸入一個URL給AltaVista的spider去建立索引,因為AltaVista每天能spider的網頁有限,因此用此法可以強迫AltaVista更快速『找到』你的URL。(此URL為Case-Sensitive,也就是大小寫有差別),例如:我輸入我在Geocities的網站給 AltaVista傳回下頁,告知我一兩天後就可以搜尋。
- 千萬別登錄該URL的說明或是Keywords,但您可以在網頁的HTML
Codes中加入Meta Tags,設定Keywords來形容該網頁。
- AltaVista的Spider,也就是名為Scooter,它會去順著你所登錄的URL該網頁的連結去抓回網頁,並且建立索引到AltaVista搜尋引擎中。
- 若之前登錄過的URL已經取消掉,請不厭其煩再登錄同樣的URL一次,此次AltaVista的Scooter再度去連結該URL時,會傳回Error
404,就會自動將您原本的URL等索引資料自AltaVista搜尋引擎中移除。
- 若您網頁中有不想讓spider抓取,可以再跟目錄裡頭寫一個robots.txt,寫法格式如下:
User-agent: * # directed to all spiders, not just Scooter
Disallow: /cgi-bin/sources
Disallow: /access_status
Disallow: /cafeteria/lunch_menus/
則您網站中含有這種
URL的字串都會跳掉。(除非該Spider不遵守大家規定的robots.txt規則)
Simple Search或Advanced Search哪一種?
Simple Search可符合90%搜尋引擎使用者的搜尋需求,可輸入自然語言(Natural
Language),而最大的優點就是簡易搜尋模式是自動Ranking,也支援一般的AND跟AND
NOT。至於Advanced Search則可以套用比較特殊的搜尋,如AND、OR、AND NOT、NEAR,指定Time Frame,指定Ranking Words。其實、若您習慣了Boolean
Logic且能適應,則Advanced Search是可以提供蠻強大的搜尋功能。一般就用Simple
Search就很足夠。
Excite: http://www.excite.com/
Excite提供兩種搜尋模式,一種是預設的模式,另外一種是Power
Search。Excite宣稱擁有五千萬網頁的索引以及十四萬個網站的Web
Directories,搜尋技術是採用ICE(Intelligent Concept Extraction),也就是以搜尋字串相關主題的字串去執行真正的搜尋動作字索引中找出。此外,Excite公司內的Net-savvy編輯小組從兩萬五千個有名的網站中,挑選他們認定最佳的Top
250,供網友參考。
例如:輸入搜尋字串 +win16 +”windows 95”,表示網頁中要有win16跟windows 95。
More Like This:在Search Results中,每個URL下方,有個More
Like This link,按下它,可以將此URL文章內容當成搜尋字串,找出跟此篇相關的搜尋,這個功能就是俗稱的QBE(Query By Example)。
- List by Web:在Search Results中,常常有好幾個URLs是來自同一個網站的網頁,若您想得知究竟有哪些網站與搜尋字串有關,可以按下List
by Web,Excite會將Search
Results以網站不同來分類秀出。
- 用” “(Phrase)
- 用+及-當成AND,AND NOT
- 用
OR
- 用()來包圍布林搜尋
- Excite的Spider不吃Frames,而且若網頁中有Meta Tags,則搜尋引擎不會去建立Index。若想增加被搜尋引擎檢索的機率,就要儘量簡化網頁,先設想人們對您網站所陳述的內容,可能會輸入的搜尋字串,再依照此搜尋字串去建立您想像中的網站。
- 概念搜尋(Concept Search):Excite使用概念搜尋(Concept Search),但跟AltaVista一樣也支援AND、AND NOT。並且跟AltaVista一樣是使用
+ 來代表AND,使用
- 來代表AND NOT。例如:”Search
Engines” +comparison -Yahoo,該搜尋字串表示我想找網頁中含有
“Search Engines” 跟comparison,並且網頁中要沒有Yahoo這個字的存在!
- 搜尋字串越多越好:由於Excite是使用概念導向(Concept-Oriented)的搜尋技術,因使若用更多的字進行搜尋,所傳回的結果會更精準。
HotBot