搜尋祕笈

  1. 前言
  2. 需求分析
  3. 如何『偷窺』他人的搜尋字串
  4. 搜尋字串排行榜
  5. 搜尋策略
  6. 搜尋祕笈

一、前言:

在前面兩期介紹過國外、國內著名的搜尋引擎 (Search Engine) 以及網站目錄 (Web Directory)。這期就要開始介紹搜尋的一些訣竅跟秘笈。若讀者有購買前面兩期倚天雜誌,想必一定拿了搜尋引擎的網址去試著尋找一些您所想要的資料吧!然而,面對不同的搜尋引擎,會傳回完全不同的結果,有的甚至出乎意料之外(傳回絲毫無關的網頁),為什麼呢?OK!就讓我慢慢的來剖析,再進一步告訴各位如何去善用每個搜尋引擎的所有步驟。看完這篇,絕對讓您物超所值,因為一個能善用搜尋引擎的資訊人,可以在彈指之間自Internet中抓回準確有用的資訊 (Information),節省上網費用,也『賺』到寶貴的時間,可能一篇報告,不發幾分鐘,腳本都抓到了,再看個幾篇,集大成可以寫論文了。廢話不多說,馬上進入正題!

Back to Top

二、需求分析(哪些資料想被找到、想找到哪些資料)?

在做需求分析之前,我想先定位觀眾群,我把他分為兩類:

我想我該先忽略網管者的需求分析,先來看看一般人所給搜尋引擎的搜尋字串是什麼?關於這點,有些搜尋引擎允許我們去『偷』看其他人所下的搜尋字串。希望藉此得知大多數搜尋引擎的使用者,是否具有足夠的搜尋『常識』呢?而人們最常搜尋的主題又是什麼呢?

Back to Top

三、如何『偷窺』他人的搜尋字串?

  1. WebCrawler Search Ticker
    http://webcrawler.com/Games/SearchTicker.html
    很有趣的一個網頁,由 WebCrawler 搜尋引擎所提供的,可以偷窺到目前 WebCrawler 搜尋引擎站中,人們所輸入的搜尋字串。讀者連過去看看,蠻好笑的,我還看到有人輸入一堆要找有關性的字串,什麼 4play, bad girls, upskirts, rape 等等。這個網頁要用支援 Java 的瀏覽器去看,十分有趣。但是由於字串移動的太快,無法完全記住太多。想看到更多使用者所下的搜尋字串可以輸入下列的 URL http://webcrawler.com/cgi-bin/SearchTicker 得到下列:
  2. MetaCrawler MetaSpy
    http://search1.metacrawler.com/perl/metaspy (這個經過過濾)
    每十五秒秀出網站中目前人們正在搜尋的字串,共十個。好笑的是,這個網頁動態秀給你看的搜尋字串,還是經過修飾的,他把有關性、暴力等不好的字串給過濾掉再秀給你看。

    若要看原版的輸入URL:http://search1.metacrawler.com/warning.html
    這一頁還警告您說未經過過濾 (filter) 的搜尋字串可能含有色情或暴力,要您超過 21 歲才可以看,按個同意之後,就會進入到:

    http://search1.metacrawler.com/perl/metaspy?filter=false&submit=I+agree

    呵呵!還真有人『性』的網頁,至於讀者有沒有超過二十一歲?誰知道阿∼但至少這個站還蠻有『環保』概念的。

  3. Magellan Search Voyeur
    http://voyeur.mckinley.com/cgi-bin/voyeur.cgi

    類似前面所提到的 WebCrawler Search Ticker,可以秀出 Magellan 搜尋站中,人們所給的搜尋字串。這個網頁同樣也是每十五秒 refresh 畫面一次,若不想等十五秒,輸入下列URL:

    http://voyeur.mckinley.com/cgi-bin/voyeur_queries.cgi
Back to Top

四、搜尋字串排行榜

搜尋字串排行榜

  1. Yahoo Top 200 Search Words
    http://eyescream.com/yahootop200.html

    有人在 1996 年十月外放出 Yahoo 前兩百名的搜尋字串,而 Eyescream 將這兩百個搜尋字串放在網上。其中,前二十名的搜尋字串中,有超過 60% 是跟性有關的搜尋字串(哇哈!人性本色)而在全部的兩百個搜尋字串中,有超過 25% 與『性』息息相關。
  2. Pointers Most Popular Search Terms
    http://www.pointers.co.uk/pointers/search.htm
    列出 Most Popular Search Terms,這是所有使用 Pointers 搜尋引擎的使用者搜尋字串中,所統計出來的最常用的搜尋字串,該統計資料取樣十萬個不同的搜尋字串。Pointers 將這些資料公佈在網上,單字中的前十名是:

    兩個字的前六名是:

    但由於 Pointers 是商業化的一個網站,因此這些數據並不能完全適用於所有的一般搜尋引擎。也因此,很多跟商業有關的搜尋字眼特別多,但還是很多人找有關『性』的搜尋。

  3. Viaweb Search Keyword Study
    http://www.viaweb.com/vw/studimpurrar.html

    為一篇 New Search Keyword Study 報導反駁了『大多數的網路購物者,都是 Impulse Purchases (出於衝動的購買)』的理論。Viaweb Inc 為一家著名的 Online Store Software,在 1997 3 31 日發表了這篇有關線上購物者的搜尋字串的報導。該 keywords 指出線上購物者在使用搜尋引擎之前,心中早有 70% 的購買意圖。此篇報導推翻了網路購買者是衝動購買的理論。至於這篇報導的取樣來源,是透過該公司的 tracking tools,該研究隨機抽取兩百名網路購物者的搜尋字串,抽取時間範圍是自 1997 年二月到三月。結果發現,兩百個搜尋字串中,有 141 個搜尋字串是跟他們後來購買的東西有關(佔 70.5%):92個人(46%)搜尋他們要購買的物品名稱,47個人(23.5%)搜尋他們購買物品的店名,2個人(1%)搜尋『gifssearched for "gifts",其餘的五十九個購買者的搜尋字串:32 (16%) 搜尋與他們購買物品相關的主題。19 (9.5%) 搜尋與他們購買物品完全無關。(這些才是衝動慾望購買者)8 (4%) 搜尋其他資訊。(這些才是衝動慾望購買者)因此衝動購買類型的,應該只有 30%,而實際的百分比,應該更低。 ???
Back to Top

五、搜尋策略(Search Strategy)

  1. 分析搜尋主題,選擇搜尋工具
  2. 選擇搜尋字串,運用搜尋語言

    一但選定搜尋工具之後,第一件事情當然就是打開Web Browser輸入搜尋工具的網址,接著哩?你需要的是:輸入搜尋字串。搜尋字串越多是越好,太少的搜尋字串容易傳回大量的搜尋結果,而太多又怕找不到半筆,因此讀者可交叉增減,看傳回比數加以調整。

  3. 運用高級搜尋,縮減搜尋結果

幾乎每個搜尋引擎都有提供一些高級搜尋介面或參數,可以對搜尋加以篩選,各家做法都不同,這部份需要較高的技巧,也需要對所選定的搜尋引擎有深度的了解才能駕輕就熟,筆者將在下節搜尋祕笈裡介紹Top 5 的英文搜尋站台以及台灣的GAIS

Back to Top

六、搜尋祕笈

AltaVista http://www.altavista.digital.com/

AltaVista預設的搜尋模式,只要在搜尋框中輸入字串,或片語(用雙引號刮起來,如:”Search Engine”),甚至是一個問句,例如:what is the weather in Boston?,再按下Search按鈕,夠簡單了吧!因為AltaVista對自然語言(Natural Language)問句的分析十分精準,所以不必怎麼去分析該如何給定搜尋字串。此外,不用怕傳回來的搜尋結果有上萬百篇,因為最上頭的,照『理論』而言會合乎您的搜尋需求,除非您給的搜尋字串不夠貼切。搜尋字串範例如下:

  1. apple pear muffin recipe
  2. bicycle "for sale"
  3. quilt*
  4. +noir +film -"point noir"

AltaVista搜尋框附近有個『進階搜尋』(Advanced Search)按鈕,按下去之後出現新的搜尋畫面,多了Ranking功能以及日期篩選功能。

  1. Ranking:在使用進階搜尋的時候,若在Ranking該欄位沒有輸入字串,則所傳回來的搜尋結果中的URLs是沒有經過排行搜尋結果與搜尋字串的相關度的。若您覺得搜尋主題與某個Keyword非常有關連,可以將該字串放在Ranking欄位中,則搜尋結果中對該Keyword會加重計分,並將與該Keyword有關的URLs排在最前頭。例如:如果想找Microsoft或Sun公司有關Javascript的資料,則在搜尋字串中先輸入+Microsoft +Sun,而在Ranking欄位中,輸入Javascript,則搜尋結果中具有Javascript相關資料的URLs就會先出現在搜尋結果的最上方,因為對含有Javascript的網頁,AltaVista給該URLs較重的權位(Priority),讓你越想看的URLs出現在最上頭。
  2. 時間篩選:限定傳回網頁中的最後修改日期(last modified date),其輸入格式為dd/mm/yy,以就是日月年,例如09/jan/96。

Refine可以用來分析搜尋結果的文件內容,秀出TopicsTopics則動態依照文章內出現次數部同而有變化。

Keyword類型 範例
anchor:text anchor:”Click here to visit Altavista”
applet:class applet:morph
domain:domainname domain:edu.tw
host:name host:altavista.digital.com
image:filename image:elvis
link:URL link:altavista.digital.com
text:text text:”Bill Gates”
title:text tltle:Elvis
url:text url:altavista
from:username@address from:president@whitehouse.gov
subject:text subject:”basketball playoffs”
newsgroups:groupname newsgroups:tw
summary:text summary:playoffs
keywords:text keywords:beta

Keyword實例:

  1. Web Keyword範例:
    • url:www.microsoft.com/ie/
    • host:www.adobe.com/
    • domain:org
    • image:demo_screens.jpg
    • anchor:”mailing list”
    • link:abc.org/mypage
    • link:myhost.abc.org/mypage -host:myhost.abc.org
    • text:training
    • title:”The Wall Street Journal”
    • applet:NervousText
  2. Usenet Keyword 範例:

User-agent: * # directed to all spiders, not just Scooter
Disallow: /cgi-bin/sources
Disallow: /access_status
Disallow: /cafeteria/lunch_menus/

則您網站中含有這種URL的字串都會跳掉。(除非該Spider不遵守大家規定的robots.txt規則)

Simple Search可符合90%搜尋引擎使用者的搜尋需求,可輸入自然語言(Natural Language),而最大的優點就是簡易搜尋模式是自動Ranking,也支援一般的ANDAND NOT。至於Advanced Search則可以套用比較特殊的搜尋,如ANDORAND NOTNEAR,指定Time Frame,指定Ranking Words。其實、若您習慣了Boolean Logic且能適應,則Advanced Search是可以提供蠻強大的搜尋功能。一般就用Simple Search就很足夠。

Excite http://www.excite.com/

Excite提供兩種搜尋模式,一種是預設的模式,另外一種是Power SearchExcite宣稱擁有五千萬網頁的索引以及十四萬個網站的Web Directories,搜尋技術是採用ICEIntelligent Concept Extraction),也就是以搜尋字串相關主題的字串去執行真正的搜尋動作字索引中找出。此外,Excite公司內的Net-savvy編輯小組從兩萬五千個有名的網站中,挑選他們認定最佳的Top 250,供網友參考。

例如:輸入搜尋字串 +win16 +”windows 95”,表示網頁中要有win16windows 95

    1. ” “Phrase
    2. 用+及-當成ANDAND NOT
    3. OR
    4. 用()來包圍布林搜尋

HotBot