的参考价值。
2.3古籍数字化与全文库建设的综合研究2.3.1古籍数字化进展及资源调查吴家驹、吴夏平、郝淑东等分地区对中国台湾、香港和大陆地区的古籍数字化进程进行了介绍[36-38];潘德利对古籍网络资源的分布状况作了调查和统计,以表格的形式描述了台湾、香港和大陆地区的古籍数字化成果[39];李明杰也对古籍网络资源作了相应的调研[40];毛建军则对海峡两岸的古籍数字化建设与交流情况作了概述[41]。这些研究者认为:台湾地区中文古籍数字化建设先声夺人,香港地区古籍数字化建设成果丰硕。相比而言,大陆地区起步较晚,且由于经济、技术等原因,在起步阶段的成果不明显。但近年来,大陆依靠丰富的文献资源和人才优势,古籍数字化建设奋起直追,尤其是古籍光盘数据库异军突起,陆续取得可喜成果。至于世界其他地方中文古籍数字化建设情况,毛建军在《国外中文古籍数字化资源概述》[42]和《欧美地区中文古籍数字化概述》[43]中论述得较为全面。他详细介绍了国外公共图书馆和科研院所图书馆中文古籍数字化资源的开发与建设情况,以及“古藤堡计划”、“周易电林”网页等专题网站和“国际敦煌项目”、“中美百万册书数字图书馆计划”等国际合作开发建设的中文古籍数字化资源。陈立新、孟忻、刘安琴等分类型对国内科研院所、高校图书馆、公共图书馆和一些致力于古籍数字化的商业机构在古籍数字化建设过程中所作出的努力和贡献作了介绍[44-46]。李弘毅、陈阳、王敏等则分阶段介绍了古籍数字化的发展进程。
李弘毅从历史发展的角度,分析了数字化建立的准备阶段、自动化实施的过渡阶段、自动化发展的高级阶段等不同阶段古籍数字化发展的基本特色[47];陈阳则将我国古籍数字化的发展经历划分为古籍数据库检索系统、光盘版古籍、古籍网络化三个阶段[48];王敏按照古籍数字化的奠基阶段(20世纪70年代末至20世纪80年代中期)、古籍数字化初步发展阶段(20世纪80年代中期至20世纪90年代末期)、古籍数字化规模化成熟阶段(20世纪90年代末至今)三个阶段概述了我国古籍数字化的主要发展情况[49]。
2.3.2古籍数字化技术
古籍数字化技术的发展,跟古籍数字化的过程和古籍书目库的建设和发展的阶段相对应,可进一步划分为三个阶段:第一阶段:探索阶段,20世纪70年代到90年代中期。这一阶段的技术特征是利用计算机技术探索建立书目数据库和专题索引库,因此其主要技术的发展集中于计算机索引技术、汉字字符集的设计,特别是如何利用计算机的辅助索引的编制来对专书进行检索、统计等,如陈光祚80年代开始了对地方志检索系统的研究[50]。1987年6月,哈尔滨师范大学李波等建成“史记全文检索系统”,北京师范大学建成了“中国年历日历谱微机检索数据库”等等。同时,不少研究者针对古籍录入的过程中遇到的庞大的汉字的问题,认为汉字字符集是古籍数字化的一个基础性工作,是关系到数字化能否成功实现的关键,因此提出建立符合中国古籍特点的中文平台[51]。
第二阶段,从20世纪90年代中期到2000年左右,古籍数字化走向了产品输出的阶段。此时汉字字符集的进一步统一、录入技术与识别以及版面还原等方面成为主要的技术研究与探索的内容。关于文字录入技术,北京书同文公司在研制《文渊阁四库全书》电子版时,与清华大学合作完善了OCR技术,并开发出与之配套的校对软件。这一尝试意味着利用OCR技术扫描录入将成为一种重要的古籍录入方式。但OCR技术扫描录入的局限为速度不够快,处理大幅面的古籍比较麻烦,因此有学者指出,数码相机拍摄可以克服这些局限[52]。随着数码拍摄技术的成熟及与之配套的校对软件的完善,数码拍摄将成为古籍数字化的一种重要录入方式,从而创造出错字很少的数字化古籍。
第三阶段,从2002年起,基于互联网的古籍数字化产品和大型的全文数据库的出现,结合全文检索、可视检索、知识库等技术得到了快速发展;同时针对古籍的统一字符集的问题,研究者也作了相应的探索。
在全文检索与基于WEB检索方面,从2002年~2005年,“中国基本古籍库”从研制到面世,共计500张光盘,总字数20亿,图像2000万页,收录了先秦到民国时期的典籍1万余种,提供一个通行版本的全文信息和1~2个重要版本的图像信息。检索利用了ASE检索系统,可以进行分类检索、条目检索、全文检索和高级检索,速度都可以在两秒内完成,方便快速,具有良好的阅读编辑功能[53]。而2004年由农业信息研究所承担的“农业古籍珍藏及全文数字化研究与建设”项目完成研制。它包括基于图像的数字化农业古籍全文检索技术研究、国家农业图书馆古籍数字馆藏质量控制研究、农业古籍全文数字化检索技术研究和用户服务系统完善等。实现古籍文献目录、全文图像、检索工具的“一站式”查询检索门户体系建设,为国家农业图书馆古籍网络化、数字化资源共享,搭建基础平台;设计出“Web农业古汉语电子词典”(试用版),作为帮助读者在线阅读农业古籍的工具[54]。
关于字库问题,2002出版的《西夏文字数字化方法及其应用》系统介绍了非汉字古籍数字化的方法,讨论了西夏字库的建立和编码及版面识别等问题[55]。
2006年刘博在《大规模古籍数字化之汉字编码选择》一文中,分析了ISO/IEC10646和Unicode对古籍数字化的重要意义,探讨了以Unicode为汉字编码的古籍数字化的跨平台展现[56]。徐健、肖卓针对古籍数字化工作中大量繁难汉字录入和显示困难的问题,从计算机汉字输入与显示的基本原理入手,从五个方面提出了具体解决方案,较好地解决了古籍繁难文字处理的难题[57]。而黄飞龙提出针对Windows最新的操作系统,利用其Unicode平台进行蒙古文古籍版本库的构建,该数据库系统除了基本功能(填加、修改、检索、统计、关联推荐)之外,还将提供容错检索、拉丁文转写自动生成、传统蒙古文排版、多种蒙古文的录入解决方案、版本统计等等。这是中国第一个基于Uni-code编码的少数民族语言文字建立的数据库[58]。
2.3.3古籍数字化概念与理论建构初步成型随着古籍数字化技术的提高,人们对于“古籍数字化”概念和性质的理论研究走进了人们的视线。20世纪90年代末,史睿在《论中国古籍数字化与人文学术研究》一文中指出,古籍数字化的理论问题比技术问题更为重要,因为一旦理论发生了偏差,技术越高明,则解决方案越是难以成功[59]。之后,越来越多的研究者开始关注古籍数字化的理论问题。
关于古籍数字化的概念,彭江岸从技术转化的角度给出如下定义:“古籍数字化就是利用数字技术将古籍的有关信息转换成数字信息,存贮在计算机上,从而达到使用和保护古籍的目的。”[60]乔红霞则把古籍数字化看作一项系统的工作过程,她认为古籍数字化就是:“利用多媒体技术、数据库技术、数据压缩技术、光盘存储技术、网络传输技术等手段把馆藏印刷型文献、缩微型文献、音像型文献等传统介质文献转化为数字化、电子化的光盘或网络信息的工作。”[61]刘琳、吴洪泽在《古籍整理学》一书中对古籍数字化作了动态描述:“所谓古籍数字化,就是将古代典籍中以文字符号记录的信息输入计算机,从而实现了整理、存储、传输、检索等手段的计算机化。”[62]毛建军在综合上述认识的基础上指出:“古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作。”[63]李明杰进一步指出:“古籍数字化是以保存和普及传统文化为基本目的,以知识发现的功能服务学术研究为最高目 上一页 [1] [2] [3] [4] [5] [6] 下一页
Tags:
|