择对保证数字信息的可读性起到关键的作用。产生电子文件的部门处于不同的领域、有不同的事务处理需求,在工作中产生了各种各样格式的文件。软件开发商有针对性,很少考虑到文件格式的长期保存能力。为了使各种数字文件信息能够在将来继续被利用,必须在繁多的文件格式中进行选择,选取有利于长期保存的电子文件格式。 PDF在世界上拥有众多用户,有许多第三方公司支持。PDF有可能成为电子出版物的国际标准。广泛的支持者和众多的合作者,成为PDF格式长期发展的基础。PDF可以从任何支持标准印刷语言PostScript的应用系统中产生。Acrobat Writer支持把常见的字处理文件如.txt、rtf和.doc等转换为PDF文件。PDF还可以从扫描文档中产生,使传统文件数字化后得到外观非常接近于原件的电子文档。 迄今为止,已公布的PDF规范的版本都是向下兼容的。不过,由于数据迁移的窗口时间较短暂,对PDF文件仍需要合理规划以减少数据丢失。PDF采用CCITT Group 4无损压缩算法。由扫描文件制作的PDF文件体积较大,有时需要进一步压缩。 如今DjVu的用户数量远不如PDF。但是,AT&T开放参考库的做法为DjVu在开源社区争取到了很多支持。已经开发的项目有不同平台上的浏览器、图像转换器、JavaScript搜索引擎、在线格式转换服务器(http://any2djvu.djvuzone.org)等。在美国,DjVu已经拥有很多政府、企业以及档案部门等的客户。 DjVu对背景层采用小波压缩算法IW44,压缩后文件大小非常理想,能够显著地节省存储空间。对包括文字和图像的彩色文件来说,DjVu文件在同等质量下其大小通常只有JPEG文件的1/5-1/10。对由扫描文件制作的黑白PDF文件来说,DiVu文件只相当于它们的1/2-1/4。 文件保存方面与开源有关的两个关键问题是: (1)保存成本。拥有源代码使用户可以自主控制应用中与文件格式有关的模块,而不必受制于格式的开发者。PDF本身很复杂,而且功能扩充很快,对第三方开源项目的升级来说是一个挑战。大多数PDF用户仍依赖于Adobe的技术支持。DjVu的发展时间还不长,已经转入了商业开发。未来DiVu能够继续保持完全开源的地位,存在一些不易预测的变数。 (2)信息耗损。作为一种长期保存的文件格式,要尽量降低格式转换或数据压缩造成的信息损耗。PDF的矢量图形元素不会耗损,图像采用无损压缩也不会耗损。DjVu技术同时支持无损压缩和有损压缩,采用无损压缩时压缩性能有较大的下降。需要注意的是,DjVu的开发者对开源代码有一定保留,公开的算法并不一定是最优的。 5.其他格式 与微软公司的字处理文件DOC不同,它的电子文件格式并不普及。CHM格式是微软的基于HTML的帮助文件。CHM支持与HTML相关的各种技术,并可以通过URL与Internet联系在一起。CHM可以直接在Windows系统上打开,制作工具有WinCHM和PowerCHM等。LIT格式是软件Microsoft Reader的专有格式。Microsoft Reader是一个易用的电子文件阅读器,但是目前还不支持中文。 此外,国外的电子文件格式还有SWB、EBX、EBK等。SWB格式是软件WinEbook Compiler的专有格式;EBX格式是软件Glassbook Reader的专有格式;EBK格式是Voyager公司制定的格式。这几种格式主要用于电子图书,而且市场份额不大。 6.结论 开源软件对电子文件格式及其支持软件产生了深刻影响。PDF和DjVu是国外的两种主流电子文件格式。一方面,完整的第三方开源软件的出现,对Adobe的垄断地位提出了挑战。另一方面,PDF原先的技术壁垒降低了,这有利于PDF的进一步普及。DjVu作为一种技术先进的开源软件出现,近些年得到快速发展,已经转入大规模的商业开发。 从技术上看,基于图形的格式和基于图像的格式有互补性,分别侧重不同的应用场合。同时,文件格式的开发机构之间存在一定的协作关系,主流文件格式之间通常有可转换性。用户在选用格式时有很大的余地。可以预见,在国内市场上这两种格式以及其他格式将形成长期竞争的局面。 【参考文献】 [1] 刘家真主编.电子文件管理——理论与实践.科学出版社,2003 [2] 冯惠玲主编.电子文件管理教程.中国人民大学出版社,2001 [3] Adobe, PDF Reference (fourth edition), http://www. adobe. com/devnet/pdf/pdfs/PDF Reference15_v5.pdf [4] Bottou L, et al. High Quality Document Image Compression with DjVu. Journal of Electronic Imaging, 7(3):410-428,1998 [5] Microsoft, RTF specification, version 1.8,http://www.microsoft.com/downloads [6] W3C, XML 1.0 (fourth edition), http://www.w3.org/TR/2006/REC-xml-20060816 [7] Raymond E S, the Cathedral and the Bazzar, http://www.firstmonday.org/issues/issue3_3/raymond 上一页 [1] [2]
Tags:
|