标,在对传统纸质古籍进行校勘整理的基础上,利用计算机技术将其转换成可读、可检索及实现了语义关联和知识重组的数字化信息的过程。”[64]由此可见,对于古籍数字化的基本概念,研究者们还存在不同的认识,这是古籍数字化发展中所必须经历的过程。但同时我们也应看到,研究者已认识到古籍数字化理论问题的重要性,不再局限于单纯的实践研究,这是古籍数字化研究的一项重要突破。
毛建军在分析当前古籍数字化研究的现状后,提出了要以“数字化古籍”为逻辑单元,构建理论体系,并勾勒了其框架为:数字化古籍生产学、数字化古籍流通学、数字化古籍整序学、数字化古籍利用学[65]。
2009年他主编的《古籍数字化的理论与实践》一书出版,标志着古籍数字化的理论建构已经有了雏形。他在本书中进一步在分析了诸多关于古籍数字化的定义之后认为:古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成电子索引、古籍书目数据库和古籍全文数据库,用以解释古籍文献信息资源的一项系统工作。以上说明古籍数字化开始了系统化的梳理,理论建构初步成型,学科体制已经形成。
2.3.4 FRBR研究
严格的说,FRBR的出现是古籍书目描述的一次革命,但其思想是关系到整个古籍数字化工程的建设,对于全文库、书目库、知识库等都有相应的影响,故一些有识之士已经开始这方面的研究,其中鲍国强在古籍书目元素设计、古地图书目元素设计以及可视化检索上面利用FRBR的原理进行的探索值得我们肯定[66-67]。在《文献编目新理念对古籍数字化的影响》一文中,作者在分析归纳文献编目中FRBR、复本编目、文献关联、全面规范和工具保障等新理念的基础上,具体说明了古籍数字化系统工程中书目、载体、图文、知识、关联和工具六个方面的主要内容,并从书目揭示、信息规范、知识链接和工具保障四个层面重点阐述了这些新的编目原则和理论对古籍数字化各方面工作的重大影响。而在《FRBR基本模式在古旧地图编目及数字化信息检索中的应用》中,他针对FRBR提出的书目实体的三组四维实体的概念,分析了中国古地图的文献特点,并作了对应性的比较,提出了著作、品种、版本、复本的概念,对于古旧地图的类型、古旧地图在书目层次的元素组成、古旧地图在规范数据制作要求等等都作了相应的说明,并描述了古旧地图实体之间所存在的基本关系,以及这些关系与MARC之间的映射关系。他提出,FRBR关系模式的作用就是建立一种古旧地图和其他古旧地图的连接,古旧地图诸对象、属性之间的连接,进一步帮助用户更好地在所描述的书目数据库和数字化信息库中“航行”。为了达到这种导航,他认为可起用GIS检索模式,拓展书目检索点,健全信息规范关联。这种探索利用FRBR所建立的古籍关系关联机制,对于把古籍书目库、版本库、知识库、全文库进行关联,通过本体的web发布和检索,并利用GIS检索模式,使可视化检索和关联检索联合起来,将使FRBR在古籍的数字化过程起到很重要的作用。
2.3.5古籍全文检索与本体论研究随着古籍数字化的逐步深入,一些基于知识发现的技术应用到古籍全文库中,利用本体论的思想来建构知识库、进行语义识别和检索成为当前古籍数字化工程的热点之一。如杨继红在调研了中医古籍信息资源组织方式的基础上,系统分析了知识的组织体系及表示方法,阐述了叙词表、本体的基础理论和研究进展,在柳长华教授提出的基于“知识元”的中医古籍计算机知识表示方法建设的中医古籍知识库的工作基础上,充分利用中医传统知识保护课题组有关中医传统知识分类的研究成果,借鉴本体论的思想,采用自上而下的方法编制了适合知识库建设的中医古籍分类表和古籍概念关系体系,作为分类主题一体化中医古籍叙词表的基础[68]。在这个领域,谷建军就中医古籍的本体设计方面也作了很多有益的探索[69]。而李晓菲在民族古籍的本体建构方面[70]、曹玲在农业古籍的本体设计方面[71]也有自己独到的见解。肖怀志提出了构建基于本体的历史年代知识元的设想,在利用该本体实现古籍数字化资源的重组和知识发现方面进行了有益的探索[72]。这些在以某个专题为研究突破口,以本体的建设为机制来探索语义检索,对于寻找新的技术手段实现古籍的知识发掘,无疑具有开启新思维的作用。
2.3.6古籍元数据研究
国内古籍元数据研究始于1997年上海图书馆启动的第一个数字化项目———善本古籍的数字化。在上海图书馆的数字图书馆项目实施中,元数据方案的选择是其中的一个关键所在。上海图书馆采用的元数据方案是以DC为核心、多种对应于不同资源类型元数据并存的元数据集,通过RDF体系将它们进行封装[73]。北京大学数字图书馆自1999年研发以来,在元数据研究方面成果显著,有《中文元数据标准框架及其应用》、《古籍描述元数据著录规范》等研究成果。
《中文元数据标准框架及其应用》针对具有中国特色和在我国广泛应用的数字对象分别建立了相应的数字规范,包括格式定义、语义定义、开放标记规范、内容编码体系、扩展规则以及各种专门元数据与基本元数据的标准转换关系和转换模板,编制了各个专门元数据的应用指南、元数据定义信息、应用协议和转换工具的等级机制。《古籍描述元数据著录规范》解决了古籍著录的对象范围、古籍的著录级别、古籍的基本著录单位,以及著录对象之间不同关系等有关元数据标准确立的基本性问题[74]。同时针对北大图书馆收藏的近3万种、6万多份金石拓片,特别是其中缪荃孙艺风堂、张仁蘸柳风堂的全部藏拓的开发利用,北大图书馆对拓片的元数据进行了设计和开发[75]。2003年,姚伯岳等人对北京大学图书馆的古籍元数据研究进行了总结,明确了古籍著录的对象范围、古籍的著录级别、古籍的基本著录单位,以及著录对象之间不同关系等有关元数据标准确立的基本性问题,并介绍了北京大学数字图书馆古籍元数据标准的结构、内容、实施方案[76]。此外还有施艳蕊对藏文古文献的元数据研究[77],丁侃对中医古籍的元数据研究[78]。山川尝试用XML和XML Schema语言来描述古籍元数据,并提出了一种基于本体论著录古籍元数据的方案[79]。
2.3.7古籍数据库整合研究
随着古籍数字化技术的发展以及人们对古籍利用层次的要求的提高,有研究者开始就古籍数据库的整合设计进行探索。如程佳羽认为,首先要以DC元数据为基础,书目著录检索系统要充分保证多层次的数据集成体系,并结合主题标引进行全文解析,在充分利用书目数据库的基础上,利用可扩展的灵活存储机制和多种发布形式把全文库和书目数据库整合起来进行全方位的统一设计[80]。
3评述
我国古籍的开发经历了从自发的个体行为,发展到有规划有步骤地大范围合作的阶段,取得了丰富的成果。以“中国基本古籍库”、《文渊阁四库全书》(电子版)、《国家图书馆古籍机读目录》、《CALIS古籍联合目录》为代表的数据库建设充分体现了这一发展壮大的过程。在古籍数字化理论与和技术不断取得突破的同时,也面临许多问题,需要我们进一步梳理思路,搞好规划,分工协作,整体推进古籍数字化工作。
第一,缺乏整体规划,重复建设严重。我国古籍数量庞大,且往往分散各地,而古籍整理出版规划并没有明确规定古籍数字化的规划问题。古籍数字化工作基本上处于一种缺乏宏观管理和调控的状态。开发单位各自为政,热点项目重复建设,冷门项目少有问津。例如,中国历史上规模最大的丛书《四库全书》,1998年一年内至少出现了3种光盘版,造成了人力、财力、物力的极大浪费。这在很大程度上阻碍了我国古籍 上一页 [1] [2] [3] [4] [5] [6] 下一页
Tags:
|