組織知識 491106029 潘盈達
輔仁大學圖書資訊學系碩士班一年級 §大綱 §正文 這章介紹索引及搜尋語言的概念與使用的原則。這章最主要的重點是被用來表示主題的索引語言。據此這章以探討主題這個概念開始。接著再介紹索引語言,最後,則是索引語言應用與使用的原則。在這章結束後你將會:
[回到大綱] 使用者截取資訊常不是在心中有個名稱,而是需要解答或研究的問題。使用者尋求文獻或資訊關於個別特定的主題。這是一般截取資訊的情況,為此,文獻或文獻表徵必須包含足夠的資料以確保其在明確的主題上能被檢索得到。 什 麼是明確的主題?具體事物,以其物理的特徵及行為來定義;抽象者則較難確定。哲學家Wittgenstein經過長期的研究,認為主題只能以其例子來定 義。一般主題會和其他主題形成關係的網路。而讀者在圖書館找尋某一主題的書,可能被指引到至少三個架上。任何主題檢索系統一定要能指引讀者至更相關的主 題。 [回到大綱] 目前便宜的線上儲存空間及全文檢索是很普遍的,索引的價值因此受到質疑。如果全文中的字都能被立刻檢索取得,為何還要麻煩地建構索引呢?何不簡單地以字的組合來作全文搜尋呢?在這態度背後的假設是全文是〝關於〞其提到的。 Fairthorne指出這假設背後的缺失,某一段文字提到鯨魚及圍巾,但無法顯示這段的內容是關於這些字詞的。這就是編製索引人員的工作去確認文獻的一個概括的主題,或者適當呈現其主要主題。 [回到大綱] 資 訊檢索一般關注文獻內容是關於什麼的勝於其意義是什麼。一個觀點是意義是推論出來的:例如有一份統計報告是「關於」抽菸及肺癌的,而其意義則是抽菸可能導 致肺癌。另一個觀點則是編製索引者應採中立的態度,並不應企圖強制讀者接收文獻意義為何。另有著眼於文藝理論的觀點,意義是一種作用反應,是文獻與讀者相 互作用後的結果。也許,限制編製索引者不去呈現文獻意義的最大原因是經濟上的考量。編製索引者是很迅速地掃描文獻內容是關於什麼的,若要找出其意義則需要 更深入的研究。 [回到大綱] 索 引語言可定義為索引中可能被當作檢索點的詞彙或代碼。搜尋語言可定義為使用者用來表示搜尋條件的詞彙。如果當資料庫建立時,詞彙或代碼被編製使用者指定, 那麼索引語言即被使用在索引中。同樣的詞彙或代碼也可能被當作檢索點搜尋。當索引語言和搜尋語言是個別存在的,很明顯地,如果檢索成功的話,則兩者有著密 切的關係。索引語言可能有兩類:控制索引語言及自然索引語言。 [回到大綱] 控制索引語言(指定詞彙系統)(p.125-126) 這種語言是用來控制當作索引詞的詞彙。一般有一份權威列表確認被指定的詞彙。索引牽涉到從這列表中指定一個指彙表示文獻中的基本概念的主題;在這過程中編製索引者運用智慧選擇詞彙。 有兩種以主題為基礎的控制索引語言:字母順索引語言及分類表。 自然索引語言(非控制或起源詞彙系統)(p.126-127) 這 種語言並非明顯個別的或固定不變的語言,反而是以自然的或一般的語言為索引。自然語言系統只是起源詞彙系統的一種。起源詞彙系統是一種所有索引敘述語都來 自文獻的系統。因此,作者索引,標題索引及摘要索引,都和自然語言主題索引一樣。任何出現在文獻中的詞彙都是備選詞彙,可能成為索引詞彙。 [回到大綱] 編制索引者企圖以單字或片語的意義來指明文獻內容。很明顯地,整體的主題內容無法用任何少於完整正文者來指明。索引必須試著去概括顯著的主題忽略不顯著者。這可以以幾個層次做到,其呈現形成一個連續的階層。索引的徹底性是一個來自索引系統所使用之索引深度的名稱。 徹底性的層次:摘要、重要主題、詳細主題敘述、全文。(參考書上圖5.2及5.3) [回到大綱] 特殊性是控制語言系統的一個層面。其指的是索引中主題的明確程度。特殊性能改善搜尋的精確度:其能過濾掉不合需要者。 [回到大綱] 文獻可能不只一個主題,在此必須以幾個單一概念的詞彙來表示其主題,而搜尋者可以組合很多或幾個單一概念的詞彙,並加上布林邏輯來搜尋。使用這種索引及搜尋方式的系統即是所謂的後調式系統。 [回到大綱] 影響檢索系統使用親和性的因素有:
[回到大綱] 搜 尋邏輯指的是為了檢索的成功指定詞彙的組合。大多數的系統使用布林搜尋邏輯。其用來連結為控制語言,或為自然語言,或分別為兩者的詞彙。此邏輯用來連結描 述搜尋陳述的詞彙。搜尋邏輯允許搜尋陳述包含所有同義詞及關聯詞,也可指明可接受或不可接受的搜尋詞彙組合。為了順應所有可能的拼字變化及近似詞,搜尋策 略常需要較複雜的自然語言詞彙。 布林邏輯運算子為AND、OR、NOT,並以括號表示運算執行的先後。有的系統用*表示AND,+表示OR。 [回到大綱] 布林邏輯搜尋的缺點是直接回應搜尋成功或失敗的結果,排除了部分搜尋敘述的搜結果。例如:CHILDREN AND PARENTS AND (CONFLICT OR DISCORD)的搜尋結果不會有PARENTS AND CONFLICT的項目。現在許多系統依相關等級順序,列出符合任何搜尋詞彙的搜尋結果,並把最佳搜尋列在第一順位,例如:
上述有多種方法可以達到:
[回到大綱]
[回到大綱] 控制詞彙的方法有:
索引典中使用符號指示詞彙間的語意關係。包括有:
[回到大綱] 敘述語應符合以下的型態:
很多情況,詞彙可以透過以下原則變更成,和控制詞彙形式一致:
[回到大綱] 同義關係(p.147-149) 同義關係指的是兩個以上詞彙被視為同義的關係。一個是敘述語,其他則全都是非敘述語。索引典中非敘述語的指引為:
同義關係的區分:
[回到大綱] 階層關係(p.149-151) 此允許敘述語可以連結到更廣義或更狹義的層級。搜尋者可以以第一次檢索詞至更廣義或更狹義的詞彙延伸搜尋。階層關係以BT及NT來指示。 階層關係有三類:
[回到大綱] 關聯關係(p.151-153) 此關係不易分類。RT是表示關聯關係的符號。 [回到大綱] 索引典的呈現,若只以字母順顯示而沒有分類顯示,將會失去大半效用,可能無法概觀索引典的主題結構。而建立分類顯示便是主題層面分析。其牽涉到:
[回到大綱] 指定功能及關係的主要符號在前述控制語言已敘述過,包括:SN、USE(UF)、BT、NT、RT,另國際標準允許使用其他指明階層關係更佳的符號:
[回到大綱] 因為字母順的順序是很明顯的,因此每個索引典都有如此顯示方式,通常輔助其他顯示方式。 [回到大綱] 在片語由重要的選用詞彙組成時,會有第二個字母順顯示出現,常為詞彙的輪流顯示,以確保片語中的個別詞彙也能被檢索到。(參考書上圖 5.6) [回到大綱]
[回到大綱]
[回到大綱] 這 章探討了關於主題檢索的議題,且特別地介紹了索引與檢索語言。主要的兩種索引語言是控制及自然語言。系統設計者必需去決定使用其一。檢索系統的其他要點是 詳盡及內容的詳細敘述、特殊性、及複雜主題表示的方法。後調式搜尋的搜尋設施在支援使用者控制及自然語言的搜尋是很重要的。布林搜尋邏輯被廣泛的使用,但 關聯等級排列及最佳搜尋邏輯卻變得更重要。其他搜尋設施包括:切截、相近搜尋,搜尋範圍及搜尋組合。辭典是紀錄控制語言的一種方法。他們建立了詞彙作為主 題及主題間關係的描述符號。主題間的關係有三種:同義、階層、及關聯。主題層面分析在提供主題間關係的結構之觀點上是有用的。辭典呈現的主要意義是依字母 順的呈現,但也有多種對於顯示主題間關係有用的有系統的呈現方式。 [回到大綱] Chapter 5- Indexing and searching languages, from Organizing Knowledge : An Introduction to Managing Access to Information / by Jennifer Rowley, John Farrow; 3rd ed. Hampshire, England : Gower, 2000; ISBN: 0566080478
[回到大綱] |