1982年出版中國機讀編目格式, 即中國機讀編目格式的前身; 20多年來, 始終是臺灣地區使用最廣泛的機讀編目格式, 敘述中國機讀編目格式的背景及現況後, 本文探討兩個主題: 中國機讀編目格式採用國際機讀編目格式(UNIMARC)的內容, 中文內碼系統。
已採取步驟縮短中國機讀編目格式與其他格式之間的差距, 如: 發展機讀編目延伸標示語言, MARC 21至CMARC3的對照表, 接著要面對的是國際間書目交換的挑戰。討論大五碼及UTF-8兩種繁體中文的編碼系統, 簡體中文的編碼系統有待中國大陸的學者補充。
1. 現況
臺灣地區的圖書館使用中國機讀編目格式, 2002年出版的民國九十年版是最新的版本, 採用最多的是1989年出版的第三版。
中文字碼有點複雜, 直到1984年, 才有互通的中文碼。中華民國財團法人資訊工業策進會和宏碁、神通、佳佳、零壹及大眾等有意願共同推動電腦中文化的資訊公司, 共同創立一個中文字碼, 命名為五大碼(Big5)。
五大碼或稱為大五碼, 雖普及於台灣、香港與澳門等繁體中文通行區, 但並非當地的國家標準。然而, 由於Windows、MacOS等作業系統以及週邊軟體長期使用, 五大碼已成為業界標準(de facto standard)。
五大碼不敷使用後, 圖書館系統廠商曾經使用過CCCII, 由於其軟硬技術尚在發展中, 且價位頗高, 祗有大型圖書館才能負擔。
2000年, Unicode Standard 3.0問世後, 在臺灣的圖書館系統廠商紛紛轉換至Unicode。中文標準交換碼(CNS -11643)是臺灣的國家標準, 與Unicode Standard 5.0是相容的, Unicode本身已化成ISO 10646:2003, Information technology — Universal Multiple-Octet Coded Character Set (UCS)。1991年, 成立「全國圖書資訊網路系統」, 朝著書目資源共享的方向前進; 現在的全國圖書書目資訊網有77個合作館, 透過Z39.50的方式, 可以跨館在異質資料庫裡匯出書目資料。
2. 中國機讀編目格式
機讀編目格式具有 地域性, 是 國家主權的象徵; 臺 灣地區的圖書資訊單位, 經濟部標準檢驗局於1993年制定公佈的中國國家標準CNS-13226號機讀編目格式標準。
2.1. 沿革
為了發展中文的機 讀編目格式, 做 為國內外目錄作業之規範, 於1980年成立的「圖書館自動化作業規劃委員會」, 以研訂中文機讀編目格式為首要工作項 目。先於1980年5月成立「中文機讀編目格式工作小組」, 進行研訂符合國際標準之中國機讀編目 格式, 以 便於在國際間交流及分享資料。
參照國際機讀編目格式(UNIMARC, 1980)的內容, 1981元月, 中文圖書機讀編目格式第一版問世; 接著, 邀集多位美國、澳洲、日本、韓國、新加坡、香港、荷蘭等國專家提供意見, 同年七月第二版印行, 同時也編印使用手冊。
考量美國、英國、加拿大、法國等機讀編目格式, 並參考OCLC的資料格式, 於1982年八月出 版中國機讀編目格式, 同 時將工作小組更名為「中國機讀編目格式工作小組」。
1983年國際圖書館協會聯盟編訂UNIMARC Handbook, 1984年 出版中國機讀編目格式第二版, 不但依照國際間的趨向調整內容, 而且增加對善本書和拓片的適用欄位。
源於對新資訊媒體的湧現, 參酌1987年出版之國際機讀編目格式手冊(UNIMARC Manual)與美國國會圖書館書目 服務部發表之美國機讀編目格式修訂建議書, 以及國立中央圖書館歷年來的實際作業經驗, 歷經年餘的努力, 於1989年出版第三版。
鑑於電子資源大幅成長, 配合USMARC的改變, 於1997年修訂出版第四版。
然而, 第四版並未獲得圖書館及廠商的青睞, 因此, 全面徵詢圖書館界的意見, 分析遭遇到的問題; 參考MARC 21及UNIMARC的最新發展之原則及其條文, 於2002年修訂出版民90年修訂版。
2.2 特性
中國機讀編目格式建立在UNIMARC的基礎上, 大量引用UNIMARC的素材; 然而, 受到美國文化的影響, 系統廠商的要求, 圖書館的隨和, 現在的中國機讀編目格式已經融入甚多MARC 21的內容,
3. 中文字碼
3.1. 沿革
3.2. 特性
4. 全國圖書書目資訊網
4.1. 沿革
圖書聯合目錄、大陸出版品目錄、善本古籍聯合目錄
4.2. 特性
5. 展望未來
美國國會圖書館於1960年代推出機讀編目格式, 將圖書館的服務帶入電腦化的時代, 書目記錄電腦化之後, 不僅強化資料檢索及儲存的能力 , 也是資料交換的基礎。幾乎同時, 英國國家書目也推出機讀編目格式。雖然, 美國國會圖書館於1968年推出的第二代機讀編目格式, 已參酌英國機讀編目格式的內容, 但到了1970年代之後, 仍有多個機讀編目格式問世, USMARC、UKMARC、INTERMARC等[1]。UNIMARC適時推出, 企圖成為各機讀編目格式之間的中人, 擔任資料交換的角色。考量臺灣地區的需求及國際書目交換的可能, 中國機讀編目格式在多種機讀編目格式的環境下出版。[2]
1980年, 中國圖書館學會與國立中央圖書館共同成立圖書館自動化規畫委員會, 以改進圖書館及資訊管理的服務。其中一個目標是發展機讀編目格式, 做為編目中文出版品的標準。中國機讀編目格式工作小組於焉成立, 設立適合處理中文資料的機讀編目格式, 同時兼顧國際書目交換。最後決定, 採用UNIMARC的架構, 將USMARC當成主要的參考資料。
中國機 讀編目格式工作小組參照稍晚出版的USMARC Formats for Bibliographic Data 及 UNIMARC, 於1981年出版Chinese MARC for Books, 以處理單本圖書為對象。1982年出版First Edition of Chinese MARC Format (CMARC), 處理對象不以單本圖書為限, 包括連續性出版品、地圖、樂譜、視聽資料等; 在中央研究院歷史語言研究所及國家圖書館特藏組的參與下, 1984年的中國機讀編目格式第二版再納入中文的善本書及拓片。[3]
中國機讀編目格式第三版於1989年出版時, 臺灣的圖書館正處於自動化的轉型期, 很多圖書館將中國機讀編目格式第三版視為圖書館自動化的標準之一, 涵蓋當時圖書館的各種館藏; 即使1997年的第四版、2001年版問世後, 第三版仍是臺灣圖書館界最流行的機讀編目格式。
2. 現況
2.1 中國機讀編目格式的特色
中國機讀編目格式的基本架構與UNIMARC或其他機讀編目格式一樣, 包括record structure, content designation and data content:
根據中文資料的特性發展
為了描述中文資料的所有類型, 新增若干UNIMARC沒有的資料欄位及代碼, 如:
指定 "90" 為 CCCII, "91" 為 Big5, "92" 為 CNS-11643, "93" for GB
-- 於分欄a 作曲形式, 指定 "ya" 至 "yz" 等17個代碼為中國的作曲形式; 於分欄b 合奏或合唱,
及分欄c 獨奏或獨唱, 共同指定 "pr" "po"; "sh" "sq"; ****
1 "te" 至 "tk" 等7個代碼為中國的撥弦樂器, "wj" 至 "wr" 等8個代碼為中國的木管樂器。
於分欄a 內, 以7個位元組表示拓片形式、拓製方法、資料類型(2個位元組)、書體、文體、墨色等資料單元。
2.2 中國機讀編目格式的發展
中國機讀編目格式以UNIMARC為藍本, 必須時時保持兩者的合諧; 不過, 中國機讀編目格式以臺灣地區的圖書館為對象, 必須將圖書館員的適應性及圖書館系統的應用納入考量。
圖書館員、圖書館系統廠商及學者專家對於中國機讀編目格式的修訂, 提出很多寶貴的意見,最重大的建議是將連接款目段(4__)刪除, 將各欄的內容併入相關題名段(5__); 圖書館員及圖書館系統廠商必須做出重大的調整, 才能適應此改變, 圖書館採取若干變通的手段, 包括不更動舊載體的編目習慣, 祗在編目新載體時, 才使用新的格式。
在持續修訂的過程裡, 中國機讀編目格式加圖保持與UNIMARC和MARC21的結構一致與欄位相容, 可以想見在未來的日子裡, 中國機讀編目格式的結構與圖書館實務之間的爭議, 不會停歇; 希望在下一版的中國機讀編目格式, 能夠強調長期策略, 配合圖書館的實務, 維持中國機讀編目格式結構的穩定性。
2.3 中國機讀編目格式第三版 XML schema/DTD
與ISO 2709/CNS-13148相符的機讀編目格式被認為是圖書館的標準之一, XML 已成為資料處理及傳輸的趨勢, 圖書館界有必要正視此現象; 2004年, 在國家圖書館的補助下, 世新大學余顯強博士完成CMARC XML計畫。[5]
由於具備文件格式定義及資料匯入標準格式的特性, XML成為跨系統資料交換或轉換的理想工具; 與XML相比, 與ISO 2709/CNS-13148相符的機讀編目格式, 既不能辨識機讀編目格式的類型, 也無法直接從網頁讀取內容, 限制其在自動化系統的應用。
該計畫分析國內外書目資料交換的格式, 擷取與定義和內容相關的XML綱要格式, 發展出ISO2709/CNS-13148檔案格式與XML綱要文件的互換程式, 登入後, 可以試用此轉換程式。
2.4 中國機讀編目格式第三版轉換至MARC21
臺灣的圖書館擁有相當館藏後, 採用機讀編目格式做為編目中文資料的依據; 過去20多年,臺灣的圖書館從國外的書目資源裡, 納入甚多USMARC的西文編目資料, 尤其是來自OCLC與ITS MARC的英文書目資源。
為了避免轉換機讀編目格式造成資料的遺漏, 很多圖書館以中國機讀編目格式處理中文資料,以USMARC/MARC 21處理西文資料。採用單一機讀編目格式的圖書館, 必須有互相轉換機讀編目格式的程式, 供內部使用。這些轉換程式多綁在圖書館系統之內, 圖書館必須確定它們的轉換標準是一樣的。
1992年, 教育部補助一項計畫, 由機讀編目格式的專家學者, 製作中國機讀編目格式與USMARC之間互相轉換的規格; 1993年, 出版該計畫的成果, 分別完成中國機讀編目格式轉換至USMARC的欄位對照表, 以及USMARC轉換至中國機讀編目格式的欄位對照表, 並且建議設計轉換程式的原型及相關技術文件。
2006年4月, 國家圖書館完成中國機讀編目格式轉換至MARC21的轉換規格, 該對照表以美國國會圖書館編寫的UNIMARC至MARC21轉換規格為藍本, 對於臺灣地區的書目記錄共享及上傳至OCLC等國際書目交換, 有相當的助益。
3. 全國圖書書目資訊網
線上聯合目錄是建立中國機讀編目格式的目標之一, 1991年, 國家圖書館成立全國圖書書目資訊網, 1998年改版後, 足以因應多種機讀編目格式及中文的編碼方式。中國機讀編目格式及USMARC是使用最廣泛的機讀編目格式, CCCII及Big5是使 用最廣泛 的中文內碼, 機讀編目格式和中文內碼是全國圖書書目資訊網最關心的兩件事。
全國圖書書目資訊網已經接受符合ISO 2709/CNS-13148標準的多種機讀編目格式, 但祗接受CCCII的編碼, 近期內將轉換至Unicode, 屆時, 會員可以上傳CCCII、Big5或Unicode編碼的任何機讀編目格式書目資料, 轉換為CCCII後, 再儲存在系統的資料庫裡; 匯出的時候, 可以應使用者要求, 以指定的機讀編目格式及編碼方式匯出。
3.1 多種機讀編目格式的議題
全國圖書書目資訊網有77個會員圖書館, 其中67個會員圖書館採用中國機讀編目格式處理中日韓文的資料, 10個會員圖書館祗採用USMARC/MARC21處理所有語文的資 料; 67個採用中國機讀編目格式處理中日韓文資料的會員圖書館裡, 有32個會員圖書館以中國機讀編目格式處理所有語文的資料, 另外35個會員圖書館以中國機讀編目格式處理中日韓文的資料, 以USMARC/MARC21處理其他語文的資料。換句話說, 幾乎所有西文資料的書目都以USMARC/MARC21處理。混用USMARC/MARC21及中國機讀編目格式祗有一個目的, 避免轉換格式時, 造成資料流失。
聯合目錄採用多種機讀編目格式, 有優點也有不便之處。優點有三: (1)擴大書目資源的範圍, 不受限於特定的機讀編目格式, (2)匯入資料時, 省去轉換的工夫, (3)在同一機讀編目格式內匯入及匯出時, 沒有任何資料遺漏。它的缺點也需注意: (1)同樣的內容可能以多個機讀編目格式重複儲存, (2)將資料匯入之前, 圖書館必須先檢視其機讀編目格式, (3)以其他機讀編目格式匯出時, 轉換的過程, 不免遺漏資料。
3.2 多種內碼的議題
中文有多種編碼方式, 臺灣圖書館系統的煩惱已久。5萬4千多字的CCCII及1萬3千多字的Big5, 是較常用的兩種中文內碼, 對於書目記錄及讀者記錄的品質, 有決定性的影響。全國圖書書目資訊網的77個會員圖書館裡, 有38間圖書館採用CCCII, 32間圖書館採用Big5, 另有7間圖書館採用Unicode。雖然CCCII可編定較多的中文字, 但祗限於特定的圖書館系統, 在Big5或Unicode的公用目錄裡, 仍無法呈現這些中文字; Big5可精準呈現鍵入的字, 圖書館嫌它的字數太少, 無法因應實際的需要。[6]
圖書館員隨時歡迎新的編碼方式, 可惜沒有任何機構定期維護字碼, 圖書館不可能無限期等待新的字碼。圖書館資訊系統廠商在使用者自訂區新增若干字, 應付資料交換的需要; 毫無疑問地, 已編碼7萬多中日韓字的Unicode, 是解決混亂情況的最佳選擇。
系統廠商及轉換標準是採用Unicode的考量因素, 如果廠商認定轉換沒有商業價值, 圖書館就需考慮以自己的資源投入。標準化的轉換程式, 有助於減少資料的流失及錯誤, Unicode的字數較多, 因此, 從Big5轉換成Unicode沒有問題; 由CCCII轉換成Unicode, 需要相當的準備工夫, CCCII將多個內碼對應到 相同的字。
國家圖書館於2004年成立非官方的Unicode工作小組, 其任務如下:[7]
To establish a preferred CCCII listing for characters with multiple mapped codes;
To maintain the modification and extension of the above mapping tables.
該工作小組已完成可對應Unicode之50,764個 CCCII碼, 可對應CCCII之46,057個Unicode碼, 足以涵蓋常用的字, 罕用字的對照表有待後續修訂, 該等對照表不僅有利於Unicode環境, 對於仍使用CCCII的圖書館也是一個交換標準。
4. 結論
典藏各種型式的出版品, 是圖書館達成保存文化的手段之一; 各國發展的機讀編目格式及文字編碼系統, 儼然成為圖書館記錄及保存出版的標準工具之一。對於代表各種文化的多種標準, 應該給予尊重。雖然, UNIMARC及Unicode都以橋樑自居, 但仍無法達到溝通中國機讀編目格式內各細目或所有中文字的目標; 我們認為現階段最好的策略是改進現行標準及維持與其他標準的相容性。
Reference
中國機讀編目格式, http://catweb.ncl.edu.tw/2-1.htm#marc
The Unicode Standard, Version 5.0 / The Unicode
ConsortiumUnicode; 5th edition; Boston, MA : Addison-Wesley, 2006;
1,472 pages, ISBN 0321480910, http://www.unicode.org/
CNS11643中文全字庫, http://www.cns11643.gov.tw
全國圖書書目資訊網, http://nbinet1.ncl.edu.tw/
UNIMARC Bibliographic format 1996, 1998, 2000 and 2002. The fifth update will be available in 2003.
2
1. The UKMARC Manual: Preface [英國機讀編目格式序言], http://www.bl.uk/services/bibliographic/marc/marcintro.html, accessed 27th June 2006
2. Chinese MARC Working Group, Library Automation Planning Committee, "Preface," Chinese MARC Format for Books (Taipei, Taiwan: Library Association of China & National Central Library, 1981), pp. iii-iv.
3. "中國機讀編目格式的相容性"[.pdf] 6MB, 教育資料與圖書館學 35(4): 310-337 (1998/6)
黃美蓮、黃文玉, "中國機讀編目格式第三版與第四版之比較研究" 圖書與資訊學刊 第三十九期(2001年11月), 頁94-108
4. 江綉瑛 中國機讀編目格式Chiang, Hsiu-ying, "Introduction to MARC format" [in Chinese], Library Association of China Workshop on Management of Library Resources, 26-31 July, 1999 (Taipei: National Central Library, 1999), pp. 20-21.
5. 余顯強, 機讀編目延伸標示語言文件型別研究: 研究報告, 2004年9月, [PDF], 國家圖書館, http://digbig.com/4pgwk,
6. 中文碼介紹, 在"全字庫", http://www.cns11643.gov.tw/web/word.jsp, accessed 27th June 2006.
7. Unicode 工作小組, http://unicode.ncl.edu.tw/, accessed 27th June 2006.