組織知識
第五章 索引及搜尋語言
(Ch5 Indexing and searching languages)

491106029 潘盈達
輔仁大學圖書資訊學系碩士班一年級

§大綱

參考書目


§正文

緒論(p.123)

這章介紹索引及搜尋語言的概念與使用的原則。這章最主要的重點是被用來表示主題的索引語言。據此這章以探討主題這個概念開始。接著再介紹索引語言,最後,則是索引語言應用與使用的原則。在這章結束後你將會:

  • 認識主題命名的複雜性及確認主題間關係的必要
  • 熟悉索引的不同方法及相關概念如特殊性及徹底性
  • 了解自然語言與控制語言的差異
  • 認識辭彙控制的原則
  • 了解索引典結構
  • 熟悉可支援後調式搜尋機制

[回到大綱]

主題檢索(p.123-124)

使用者截取資訊常不是在心中有個名稱,而是需要解答或研究的問題。使用者尋求文獻或資訊關於個別特定的主題。這是一般截取資訊的情況,為此,文獻或文獻表徵必須包含足夠的資料以確保其在明確的主題上能被檢索得到。

什 麼是明確的主題?具體事物,以其物理的特徵及行為來定義;抽象者則較難確定。哲學家Wittgenstein經過長期的研究,認為主題只能以其例子來定 義。一般主題會和其他主題形成關係的網路。而讀者在圖書館找尋某一主題的書,可能被指引到至少三個架上。任何主題檢索系統一定要能指引讀者至更相關的主 題。

[回到大綱]

為什麼需要索引?(p.124-125)

目前便宜的線上儲存空間及全文檢索是很普遍的,索引的價值因此受到質疑。如果全文中的字都能被立刻檢索取得,為何還要麻煩地建構索引呢?何不簡單地以字的組合來作全文搜尋呢?在這態度背後的假設是全文是〝關於〞其提到的。

Fairthorne指出這假設背後的缺失,某一段文字提到鯨魚及圍巾,但無法顯示這段的內容是關於這些字詞的。這就是編製索引人員的工作去確認文獻的一個概括的主題,或者適當呈現其主要主題。

[回到大綱]

文獻內容是關於什麼的?(p.125)

資 訊檢索一般關注文獻內容是關於什麼的勝於其意義是什麼。一個觀點是意義是推論出來的:例如有一份統計報告是「關於」抽菸及肺癌的,而其意義則是抽菸可能導 致肺癌。另一個觀點則是編製索引者應採中立的態度,並不應企圖強制讀者接收文獻意義為何。另有著眼於文藝理論的觀點,意義是一種作用反應,是文獻與讀者相 互作用後的結果。也許,限制編製索引者不去呈現文獻意義的最大原因是經濟上的考量。編製索引者是很迅速地掃描文獻內容是關於什麼的,若要找出其意義則需要 更深入的研究。

[回到大綱]

索引的方式(p.125)

索 引語言可定義為索引中可能被當作檢索點的詞彙或代碼。搜尋語言可定義為使用者用來表示搜尋條件的詞彙。如果當資料庫建立時,詞彙或代碼被編製使用者指定, 那麼索引語言即被使用在索引中。同樣的詞彙或代碼也可能被當作檢索點搜尋。當索引語言和搜尋語言是個別存在的,很明顯地,如果檢索成功的話,則兩者有著密 切的關係。索引語言可能有兩類:控制索引語言及自然索引語言。

[回到大綱]

控制索引語言(指定詞彙系統)(p.125-126)

這種語言是用來控制當作索引詞的詞彙。一般有一份權威列表確認被指定的詞彙。索引牽涉到從這列表中指定一個指彙表示文獻中的基本概念的主題;在這過程中編製索引者運用智慧選擇詞彙。

有兩種以主題為基礎的控制索引語言:字母順索引語言及分類表。

自然索引語言(非控制或起源詞彙系統)(p.126-127)

這 種語言並非明顯個別的或固定不變的語言,反而是以自然的或一般的語言為索引。自然語言系統只是起源詞彙系統的一種。起源詞彙系統是一種所有索引敘述語都來 自文獻的系統。因此,作者索引,標題索引及摘要索引,都和自然語言主題索引一樣。任何出現在文獻中的詞彙都是備選詞彙,可能成為索引詞彙。

[回到大綱]

檢索系統的特徵(p.127)

徹底性(詳盡性)及內容的詳細敘述(p.127-129)

編制索引者企圖以單字或片語的意義來指明文獻內容。很明顯地,整體的主題內容無法用任何少於完整正文者來指明。索引必須試著去概括顯著的主題忽略不顯著者。這可以以幾個層次做到,其呈現形成一個連續的階層。索引的徹底性是一個來自索引系統所使用之索引深度的名稱。

徹底性的層次:摘要、重要主題、詳細主題敘述、全文。(參考書上圖5.2及5.3)

[回到大綱]

特殊性(p.129-132)

特殊性是控制語言系統的一個層面。其指的是索引中主題的明確程度。特殊性能改善搜尋的精確度:其能過濾掉不合需要者。

[回到大綱]

複合主題(p.132)

文獻可能不只一個主題,在此必須以幾個單一概念的詞彙來表示其主題,而搜尋者可以組合很多或幾個單一概念的詞彙,並加上布林邏輯來搜尋。使用這種索引及搜尋方式的系統即是所謂的後調式系統。

[回到大綱]

親和性(p.132-133)

影響檢索系統使用親和性的因素有:

  • 可取得性
  • 容易使用
  • 系統錯誤
  • 輸出形式
  • 延遲

[回到大綱]

後調式搜尋機制(p.133)

搜尋邏輯(p.133-134)

搜 尋邏輯指的是為了檢索的成功指定詞彙的組合。大多數的系統使用布林搜尋邏輯。其用來連結為控制語言,或為自然語言,或分別為兩者的詞彙。此邏輯用來連結描 述搜尋陳述的詞彙。搜尋邏輯允許搜尋陳述包含所有同義詞及關聯詞,也可指明可接受或不可接受的搜尋詞彙組合。為了順應所有可能的拼字變化及近似詞,搜尋策 略常需要較複雜的自然語言詞彙。

布林邏輯運算子為AND、OR、NOT,並以括號表示運算執行的先後。有的系統用*表示AND,+表示OR。

[回到大綱]

關聯等級與最佳搜尋邏輯(p.134-137)

布林邏輯搜尋的缺點是直接回應搜尋成功或失敗的結果,排除了部分搜尋敘述的搜結果。例如:CHILDREN AND PARENTS AND (CONFLICT OR DISCORD)的搜尋結果不會有PARENTS AND CONFLICT的項目。現在許多系統依相關等級順序,列出符合任何搜尋詞彙的搜尋結果,並把最佳搜尋列在第一順位,例如:

CHILDREN AND PARENTS AND CONFLICT
CHILDREN AND PARENTS AND DISCORD
CHILDREN AND CONFLICT
CHILDREN AND DISCORD
PARENTS AND CONFLICT
PARENTS AND DISCORD
CHILDREN AND PARENTS
CHILDREN
PARENTS
CONFLICT
DISCORD

上述有多種方法可以達到:

  • Implicit OR:網站上的搜尋引擎使用之。
  • 詞彙加權邏輯:搜尋前會就詞彙的出現頻率及位置給予一個權數,並設定一個起始權數,詞彙組合的權數須大於等於起始權數,才能成為搜尋陳述執行檢索。專題選粹服務、搜尋興趣檔即應用此機制。

[回到大綱]

搜尋機制(p.137)

  • 建立機制(p.137)
  • 選擇搜尋詞彙(p.137)
  • 輸入搜尋詞彙(p.137)
  • 組合搜尋詞彙(p.138)
  • 輸入片語(p.138)
  • 切截與搜尋字串(p.138-139)
  • 相近及鄰接搜尋(p.139)
  • 範圍搜尋與限制(p.140)
  • 顯示搜尋結果(p.140)
  • 顯示紀錄(p.140)
  • 儲存搜尋組(p.140-141)
  • 搜尋管理(p.141)
  • 進階顯示選擇(p.141-142)
  • 顯示索引典(p.142)
  • 超媒體(p.142-143)

[回到大綱]

控制語言(p.143)

詞彙控制的方法(p.143-144)

控制詞彙的方法有:

  • 控制詞彙的形式(文法形式及拼法)
  • 在表示相同概念的同義詞或近似詞中選擇一個
  • 決定是否為適當的名稱
  • 慎重限制詞彙的意義

索引典中使用符號指示詞彙間的語意關係。包括有:

  • SN Scope Note
  • USE Use
  • UF Used For
  • BT Broader Term
  • NT Narrower Term
  • RT Related Term

[回到大綱]

敘述語的結構(p.144-147)

敘述語應符合以下的型態:

  • 具體的:事物及其物理部分、原料。
  • 抽象的:動作或事件、抽象事物或特性、定律或學術、計量單位。

很多情況,詞彙可以透過以下原則變更成,和控制詞彙形式一致:

  • 避免使用動詞。
  • 不要單獨使用形容詞。
  • 避免使用程度的形容詞或副詞。
  • 使用名詞及名詞片語,包括形容詞片語及前置詞片語。
  • 可數名詞使用複數型態。
  • 不可數名詞使用單數型態
  • 使用最廣泛使用的拼字型態
  • 只在俚語及術語由來已久及沒其他選擇時,使用俚語及術語
  • 只在縮寫及頭字語不會造成混淆及已被普遍使用的情況下,使用縮寫及頭字語
  • 以括號說明的方式區分同形異義字
  • 使用範圍註(Scope Note)排除其他可能的意思。
  • 不要倒裝片語。

[回到大綱]

語意上的關係(p.147)

同義關係(p.147-149)

同義關係指的是兩個以上詞彙被視為同義的關係。一個是敘述語,其他則全都是非敘述語。索引典中非敘述語的指引為:

非敘述語 USE 敘述語
敘述語  UF 非敘述語

同義關係的區分:

  • 拼字變化、文字型態、縮寫等
  • 同義詞
  • 半同義詞(反義詞、關聯詞)

[回到大綱]

階層關係(p.149-151)

此允許敘述語可以連結到更廣義或更狹義的層級。搜尋者可以以第一次檢索詞至更廣義或更狹義的詞彙延伸搜尋。階層關係以BT及NT來指示。

階層關係有三類:

  • 最容易發現的類的關係
  • 表示部分的詞,或整體-部分的關係
  • 實例

[回到大綱]

關聯關係(p.151-153)

此關係不易分類。RT是表示關聯關係的符號。

[回到大綱]

主題層面分析(p.153)

索引典的呈現,若只以字母順顯示而沒有分類顯示,將會失去大半效用,可能無法概觀索引典的主題結構。而建立分類顯示便是主題層面分析。其牽涉到:

  • 一些詞彙代表同一個概念
  • 詞彙群組屬於幾個類目
  • 組織主題層面在幾個基礎類目中
  • 給予每個詞彙分類順序的標記

[回到大綱]

索引典的顯示(p.154)

指定功能及關係的主要符號在前述控制語言已敘述過,包括:SN、USE(UF)、BT、NT、RT,另國際標準允許使用其他指明階層關係更佳的符號:

  • TT
  • BTG
  • NTG
  • BTP
  • NTP

[回到大綱]

字母順顯示(p.155)

因為字母順的順序是很明顯的,因此每個索引典都有如此顯示方式,通常輔助其他顯示方式。

[回到大綱]

輪流顯示(p.155)

在片語由重要的選用詞彙組成時,會有第二個字母順顯示出現,常為詞彙的輪流顯示,以確保片語中的個別詞彙也能被檢索到。(參考書上圖 5.6)

[回到大綱]

分類顯示

  • 主題群顯示(p.155-160):此比階層顯示更為鬆散不嚴謹。(參考書上圖 5.7)
  • 階層顯示(p.156-157):以最高階層的詞彙開始,而較狹義的詞彙則空一行接著列出(參考書上圖 5.8)
  • 分類顯示(p.157-160):為了確定順序及連結字母順索引,會對每個敘述子加上一個字母與數字構成旳代號。(參考書上圖 5.9)
  • 圖形顯示(p.160):有樹狀圖及箭頭圖兩種,以二維的方式表示階層關係。(參考書上圖 5.10)

[回到大綱]

索引典的使用(p.160-161)

  • 用於索引不用於搜尋:此類資料庫常為少數專家使用搜尋者作簡單搜尋
  • 用於搜尋不用於索引:此索引典用來協助建議其他搜尋詞彙。
  • 用於索引及搜尋:傳統的索引典使用方式。

[回到大綱]

摘要(p.161)

這 章探討了關於主題檢索的議題,且特別地介紹了索引與檢索語言。主要的兩種索引語言是控制及自然語言。系統設計者必需去決定使用其一。檢索系統的其他要點是 詳盡及內容的詳細敘述、特殊性、及複雜主題表示的方法。後調式搜尋的搜尋設施在支援使用者控制及自然語言的搜尋是很重要的。布林搜尋邏輯被廣泛的使用,但 關聯等級排列及最佳搜尋邏輯卻變得更重要。其他搜尋設施包括:切截、相近搜尋,搜尋範圍及搜尋組合。辭典是紀錄控制語言的一種方法。他們建立了詞彙作為主 題及主題間關係的描述符號。主題間的關係有三種:同義、階層、及關聯。主題層面分析在提供主題間關係的結構之觀點上是有用的。辭典呈現的主要意義是依字母 順的呈現,但也有多種對於顯示主題間關係有用的有系統的呈現方式。

[回到大綱]

Chapter 5- Indexing and searching languages, from Organizing Knowledge : An Introduction to Managing Access to Information / by Jennifer Rowley, John Farrow; 3rd ed. Hampshire, England : Gower, 2000; ISBN: 0566080478


§參考書目

  1. 黃慕萱,資訊檢索,(臺北市:臺灣學生,民85)。
  2. 張嘉彬,「索引典及其於資訊檢索上之探討」,書苑季刊,36期,第46-59頁。
  3. 黃惠株,「淺談索引典」,佛教圖書館館訊,第五期 85年 3月。
  4. 呂春嬌,「排名輸出在資訊檢索中應用之探討」, 國立中央圖書館臺灣分館館刊,第三卷第一期,第6-25頁。

[回到大綱]