书刊扫描仪:古籍数字化主要技术标准
1、 汉字字符集编码
汉字数量约有十万左右,其中常用字三四千,绝大多数字属于生僻字、避讳字、异体字等。古籍数字化的字符编码方案的继承性非常重要,否则会使已经数字化的成果变成历史的古董。古籍数字化目前使用的主要的汉字通用字符编码集:
(1)GB2312 GB13000 GB18030均为国家标准,而GBK是国家规范。GB2312收录6763个汉字。GB13000收录20902字,是我国等同采用ISO/IEC10646标准的国家标准。GB 18030-2005收录了70244个汉字。总编码空间超过150万个码位,为解决人名、地名用字问题提供了方案,为汉字研究、古籍整理等领域提供了统一的信息平台基础。 GBK是在保持GB2312原貌的基础上,将其字汇扩充至ISO10646中的CJK20902汉字,同时也就包容了台湾的工业标准Big5中的全部汉字。
(2)ISO/IEC 10646信息技术--通用多八位编码字符集(Information technology - Universal Multiple - Octet Coded Character Set) 用来实现全球所有文种的统一编码。它与Unicode在字符编码上保持一致,在两个标准里,所有的字符都在相同的位置并且有相同的名字,并且版本更新也保持同步,ISO/IEC 10646:2003的字符编码相当于Unicode 5.0。
(3)Unicode是一种在计算机上使用的字符编码,满足跨语言、跨平台进行文本转换、处理的要求。Unicode目前已经完全与国际标准ISO10646 同步,由于它所涵盖的汉字目前已超过7万个,并且还在不断扩充,因此在古籍数字化时绝大多数机构都采用了Unicode 字符集。
国家图书馆已建古籍数字资源,如地方志、家谱、拓片的文字著录和置标,使用unicode5.0的字符集。unicode5.0覆盖了古籍的大部分可处理文字,其基本级20902,扩充A有6千多个汉字,扩充B有4.5万个汉字。以国图数字方志字符处理为例,基本集 99.2%,扩A集0.11%,扩B集0.63%,集外字0.06% 。
2、 图像格式编码
古籍属于非再生性的文化遗产,古籍数字化技术在文献保护和文化传承方面发挥积极支持作用。各种图像是古籍数字化*直观的结果。由于图像文件的保存和应用目的不同,古籍图像文件格式编码选择也不同。达到数据的长期保存和广泛应用的需求,我们应尽量采用国际通用的格式编解码。
古籍图像文件分为主文件和派生文件。图像主文件以存档为目的,在确保图像数据的内容和物理完整性的前提下采集,用于长期保存及必要时作复制和格式转换的母本,不进行图像处理。图像派生文件由图像主文件经过自动化或人工处理过程转化而来,处理过程中通常丢失一些信息,用于编辑性处理或不同格式的转换及网络表现和传输。
(1)TIFF
Tag Image File Format Aldus和微软联合开发。文件扩展名为TIF。格式支持1位、256色、24位真彩色、32位色、48位色等多种色彩位,同时支持RGB、CMYK等多种色彩模式,支持多平台。TIFF文件可以是不压缩的,文件体积较大,也可以是压缩的,支持LZW、JPEG、CCITT3组和4组等多种压缩方式。
TIFF编码格式存储质量高,细微层次的信息多,有利于原稿的复制。用于古籍图像主文件格式,为长期保存级别。
资源级别 |
技术规格 |
|
数字主文件 (长期保存级) |
位深 |
RGB 24 位 |
光学分辨率 |
文献小于10X12.5cm,用600DPI 文献大于10X12.5cm ,小于A3,用400 DPI |
|
文件格式 |
TIF 不压缩 |
|
色调再现 |
ICC配置文件 |
(2)JPEG2000
Joint Photographic Experts Group,ISO15444,文件扩展名为JP2或J2K。JPEG2000压缩率比JPEG高约30%左右。同时支持有损和无损压缩。能实现渐进传输,可任意指定影像上感兴趣区域的压缩质量,还可以选择指定的部分先解压缩。
JPEG2000编码格式用于古籍图像派生文件的保存,为复制加工级别,数字主文件TIFF格式1:1转换生成,无损压缩。供组织成员网上有条件权限的访问。有较高的精度和较大的尺寸。用于加工复制各种精度、大小的屏幕浏览图像的文件。也可供一般品质的出版印刷使用。
(3)jpeg
Joint Photographic Experts Group ISO/IEC 10918联合图片组。文件扩展名为JPG或JPEG。在所有静止图像压缩格式中,JPEG格式应该是我们*为熟悉、也是应用*为广泛的格式之一。它用有损压缩方式去除冗余的图像和彩色数据,获取极高的压缩率的同时能展现十分丰富生动的图像。
通用浏览器和图像处理软件均可正常解读,兼容性强,易于图象编辑和处理,压缩技术比较稳定。可用于互联网的图像交换、缩略图显示。
资源级别 |
技术规格 |
数字派生文件,(发布服务级) |
图像*长边的像素不超过3000,图像分辨率72~300DPI 缩略图,图像以图标显示,通常以屏幕显示尺寸为度。图像*长边的像素不超过120。 |
有损压缩,根据图像规格、颜色、数据量动态调整压缩因子。 |
A2彩色改版具有平板传感技术和自动升降扫描平台的生产型扫描仪
新改版的book2net(柏耐)终极版扫描仪是为生产领域研发的。此款型号的特殊处在于具有自动升降扫描台。压力传感器在整个扫描处理过程中可以保护敏感易坏的文档不受损坏。另一个特殊处在于自动控制玻璃盖可以平均的在文档上分配压力。
400 dpi 光学分辨率
扫描时间:0,3 秒 扫描速度,1,9秒扫描周期
*佳色彩再现的光控系统
12cm扫描深度
原件的扫描平台可达到601 mm x 457 mm
自动玻璃盖开关设置
有无玻璃盖都可轻松操作
自动调解扫描平台高度设置
为数字化中心的使用而设计的生产软件
平板传感器技术的数字化理念
相对传统线性传感技术平板传感技术注重色彩的质量,景深,噪音的平衡,以及无可比拟的扫描速度。
高级的景深技术可以使扫描延伸至书籍折页以及文档倾斜的边缘,与此同时扫描仪仍可提供*的OCR识别