古籍扫描仪在历史报刊数字化流程的关键技术福特瑞斯_中国教育装备采购网
  • 首页
  • 装备资讯
  • 热点专题
  • 人物访谈
  • 政府采购
  • 产品库
  • 求购库
  • 企业库
  • 院校库
  • 案例·技术
  • 会展信息
  • 行业日历
  • 古籍扫描仪在历史报刊数字化流程的关键技术福特瑞斯

    中国教育装备采购网 2014/3/28 16:43:00 围观85次 我要分享

      

      关键词:书刊扫描仪、古籍扫描仪、全自动书刊扫描仪、古籍数字化、非接触式书刊扫描仪,图书馆扫描仪,期刊扫描仪、书籍扫描仪

      历史报刊数字化流程概述

      历史报刊数字化技术与最近十多年普通的报刊数字化技术不尽相同。自从报业实现数字化工作流程以来,报纸的采编发排都采用计算机技术,其信息已经实现了数字化,而历史报刊由于早期使用铅字印刷或者石印、油印等,没有对应的数字信息,因此需要通过相应的技术手段将纸质信息数字化提取到计算机当中。

      历史报刊特别是早期报纸是历史文档的重要资料,虽然人们对报纸的格式十分熟悉和认可,但从数字化处理的角度来看,报纸的格式是相当复杂的:文章长短不一,早期报纸有竖排版面、繁体字等,字体也不是当代的标准化字库里的字体,有照片图表,长篇的文字分布在不同的版面或页面中。另外,早期报纸的印刷质量和纸张质量不是很好,随着时间推移,有的字体可能会模糊,纸质会变得非常脆、易碎,难于处理,还有一些报纸只能在缩微胶片上找到。所有这些因素都使历史报刊的数字化面临很多困难,需要进行一些特殊处理。

      目前,历史报刊数字化有比较标准的制作流程和技术工艺,不同的厂商可能会有自己的特点,不过制作流程一般会包括以下几个步骤:

      1.报刊的清点。按照日期、版面清点数量,确认其完整性、可识别性、可扫描性。由于报刊一般都有一定的发行量,不止一个复本,应尽可能寻找最佳的一份,如果现实中找不到可用的报刊实体,可以用缩微胶片替代。

      2.扫描和修图。利用大幅面扫描仪扫描纸质报刊,用胶片扫描仪扫描缩微胶片。对扫描得到的TIF图片进行修正,去除污渍、裂纹等。

      3.OCR文字识别与校对。OCR(光学字符识别)是一种通过计算机自动识别图片上文字的技术,标准印刷汉字的OCR识别正确率可达到99%以上。由于早期报刊印刷技术简单和保存环境的原因,识别率可能稍低一些,需要进行多次校对以保证最终的质量。校对包括人工校对和智能化自动校对。

      4.版面分析和划分。将修正后的版面扫描图片按照主题文章进行区域划分和标识。

      5.制作版式文件。根据步骤2、3、4得到的信息制作可检索的数字版式文件,比如PDF等。

      6.数字数据验收。对上述步骤得到的文字、图片、版式文件等数字数据进行再检验,以确保完整性和正确性。

      7.数据入库。文字入全文数据库,图片入图片数据库,版式文件入版面数据库,三种数据库是相关联的,可以联合检索。

      8.建立双平台检索系统。一般采用B/S架构,用户通过浏览器即可检索上述三种数据库。

      经过上述步骤的处理加工后,最终的产品是一个完整的系统,其中包括:包含全部报刊文字和元数据的全文数据库、包含报纸照片和版面扫描图片的图片、可检索的PDF版式文件、基于B/S架构的双平台检索系统等。此外,为了支持高质量的再印刷,也包括修正后的版面扫描TIF图片。

      历史报刊数字化关键技术研究

      历史报刊数字化的关键技术包括:

      1.图像获取:主要通过扫描,包括纸质扫描和胶片扫描等。

      2.OCR文字识别与校对、版面分析和划分等:将修正后的版面扫描图片按照主题文章进行区域划分,目前有自动识别主题文章区域的技术。

      3.元数据抽取和分类标引:文章的元数据抽取包括对文章主题、副题、引题、作者、来源、关键词、摘要、引文、外部特征等信息的自动识别和自动抽取;分标引类是按照国家新闻标准分类法对文章进行分类标识。

      4.全文数据库和图片数据库:全文数据库是实现全文检索的数据库系统,为按关键字检索整篇文章带来很大便利;图片数据库一般按照文件存储、按照标引检索。

      5.数字版式文件的制作、检索技术:制作数字化版式文件是为了能够展现历史报刊的原始风貌,使读者能直观地感受到是在阅读一份早期的报刊,更具有视觉震撼力。目前报刊的数字版式文件一般采用Adobe的PDF格式,根据扫描图像制作成可检索PDF一般采用双层和重构技术。

      下面进行更详细的阐述。

      1.扫描技术

      扫描是历史报刊数字化制作流程中的关键,因为后续工作完全基于扫描后得到的TIF图片,其扫描质量、分辨率的选择、所使用的设备和参数设定都对后期制作有重要影响。特别是分辨率的选择,需要考虑到当代印刷术和近代的印刷术,当代彩色报刊的印刷一般要求彩色图片在200~300dpi即可,既不宜过低也不宜过高,而近代的印刷主要是以铅印、油印等为主,历史报刊的扫描精度一般采用300~600dpi,其目的是为了保存更多的细节,更具参考和研究价值。扫描精度越高,所得到扫描图片的容量也越大,因此,在选择扫描精度的时候也需要考虑硬件方面的存储容量。

      由于报刊在印刷时是靠细小点阵来显示图像,并不是连续的色彩,高精度扫描会扫描出网状条纹,这种情况可能会降低OCR软件的处理速度。现在许多扫描仪有去除网纹的功能,可以解决此类问题。对于没有去除网纹功能的扫描仪,如对图像要求不高的话,可用降低扫描分辨率的办法。因此,如果考虑到下一步的文字识别率, 5号以上字体使用300dpi扫描,6号、7号字体使用400~600dpi扫描。综合考虑上述因素,可以统一使用400dpi左右的扫描精度。

      纸质报纸和缩微胶片扫描所使用的设备和参数设定也有所差别,纸质报纸一般使用大幅面的快速扫描设备,而缩微胶片扫描仪在扫描前需要进行预先光学处理,目的是为了达到和纸质扫描相同的分辨率。

      2.OCR技术与校对

      OCR技术原理是对光学仪器产生的影像(比如扫描图片)进行处理,消除一些影响识别的可忽略因素(自动或者手工),将影像进行区域分割,使之成为可以独立识别的单元,然后从这些影响单元中提取形态特征,再与标准特征库中的数据进行对比,根据对比的结果决定该单元的识别结果。由于不确定因素较多,比如扫描设备的质量、扫描资料的质量、扫描精度、识别软件、学习和测试样本等都会影响到识别的准确率。

      文字识别之前的影像预处理是该过程中需要处理问题最多的阶段,其中包括影像的正规化、除噪声、图像矫正、图文分析、文字行与字分离等步骤。举例说明,对于历史报刊而言,如果其扫描图片出现倾斜,超出计算机自动识别的误差范围,就需要就行图像旋转矫正;如果原始报刊本身由于存放时间过长,出现污点裂痕较多,影响到正常文字的识别,那么就需要将扫描图片上的这些污点裂痕去除、背景化;此外,早期报纸有竖排版,在行、字分离上需要进行特殊处理。

      从识别技术的难度角度来看,印刷体识别相对要容易、正确率更高一些,因此对于历史报刊而言,只要预处理做得比较完善,其自动识别不会产生过多的错误。为了保证更高的文字正确率(比如差错率在万分之一以下),需要进行校对。校对包括软件自动校对和人工校对,自动校对是根据自然语言处理技术对识别出的文字语句的正确性进行判断和标注,然后进行纠错;人工校对是完全依赖校对员的判断。OCR的校对一般都是结合自动和人工两种方式进行反复多遍的排查纠错。

      3.元数据抽取和标引技术

      在建立全文数据库、图片数据库和版式文件数据库之前,需要对文章进行元数据抽取和标引,其目的是从多角度对文章、图片和版面文件进行标注说明,以完善检索系统。文章的元数据主要包括题名信息、作者信息、来源信息、关键词信息、摘要信息、引文信息、外部特征信息等。对于报刊而言,题名信息、作者信息、来源信息一般都在版面上明确标出,在OCR识别的版面区域划分过程中获得相应的信息;而对于其他元数据,比如关键词信息、摘要信息、引文信息等,因为没有明确标出,需要从报刊正文中提取,由于历史报刊数字化需要在短时间内处理海量的报刊文章,依靠人工无法完成,所以必须要进行元数据的自动抽取,需要结合自然语言处理、机器学习等技术。

      在文本中抽取元数据标引,可分为全关键词标引和主关键词标引。自动标引过程与人工标引过程相似,其特点是标引速度快,标引的前后一致性好,在随机存储介质容量允许、软件检索功能具备的情况下,可以实现文摘、甚至全文的无人工标引自动检索。目前自动标引系统抽出的表述文献主题的主关键词准确性较差,还不能完全代替人工标引。

      4.版式文件制作技术

      版式文件是一种具有版权保护、加密、防止非法复制、防止屏幕拷贝、能够全面展示版面多媒体内容和样式、并且能够精确输出到打印设备的文件格式,目前比较流行的版式文件是Adobe公司的PDF,国内北大方正采用了CEB,另外还有epub等。报刊的版式文件一般采用PDF格式。

      制作版式文件是历史报刊数字化的一项重要工作,其意义有以下几个方面:(1)首先通过版式文件能够直观地展示历史报刊的外观,包括版面布局、文字样式和图片等。(2)支持版面检索,在双平台检索平台通过关键字检索就能找到包含关键字的版面。(3)支持再印刷,矢量字体的版式文件能够进行更大幅面的印刷输出,不会有字体的变形。(4)标准化的文件格式便于存储和交换。

      目前历史报刊数字化的PDF版式文件制作有两种技术:双层和重构。对于前期历史报刊而言,因为没有对应的电子版面文件,所以需要制作双层或者重构PDF。制作双层PDF的重点在于扫描图片处理成合适清晰度的压缩图片用于双层PDF的上层图片层,并将文本按照原始版面结构重排并与图片层对应,形成隐藏的下层文字层;重构PDF则是利用图片和文本数据按照原始版面结构进行整版的图文混合重排,是单层结构。这两种PDF的主要区别有以下几方面:

      (1)在PDF文件结构方面:双层PDF,顾名思义,该PDF逻辑上具有两层(一层纯图片层、一层纯文本层),上层是用于浏览的可视图片层(为了避免文件体积过大,该图片层一般使用高清扫描图片的压缩格式),能够浏览版面扫描原貌;下层是用于文字检索的隐藏文本层(浏览时不可见),文本层中的文字就是版式图片经OCR识别校正后的文本,它与上层图片层版式图片中的文字是一一对应的,一个是图片化文字、一个是文本化的文字。这样形成的双层PDF既可以100%保留原始版面效果,又可以通过下层的文字信息支持选择、复制、文字检索等功能。重构PDF,是当代流行的单层图文混排结构。

      (2)在PDF版式重排方面:对于历史报刊而言,双层和重构PDF都要进行相应的版面重排,但是双层PDF仅对其文字层的文字按照原始版面位置进行重排和对应;而重构PDF则要按照当今的图文混排方式重现原始版面的样貌,所以制作方面工作量要大一些。对于组版出版数字化之后的近期历史报刊而言,由于已经存在可印刷的数字PS版面文件和对应的数字矢量字库,而且这些PS版面文件可以精确地批量生成当今流行的图文混排的PDF版,不必再进行版面重排,就没有制作双层或者重构PDF之说了。

      (3)在视觉浏览方面:双层PDF是100%保留扫描版面视觉效果,但受图片层的精度所限,其中的文字缩至较小时会产生字体变形,而放大到一定程度字体会产生马赛克模糊;重构PDF中的文字是矢量字体,可对字体进行任意缩放,保持字体边缘依然光滑,字体色素不会丢失,因此不会变形和模糊。但是,重构PDF中的文字字体可能与原始字体有所差别。特别是早期铅字或者油印的报刊,由于没有对应的数字矢量字库,所以无法100%保留原始效果。但数字化以后的历史版面,就不存在这个问题。

      (4)在用于印刷方面:同视觉浏览方面相类似,双层PDF是100%保留扫描版面视觉效果(原汁原味),但受图片层的精度所限,不能进行大幅的放大印刷,字体会产生马赛克模糊。对此可以直接使用修正后的高清TIF扫描图片进行大幅面的印刷。重构PDF支持任意放大的印刷,字体边缘光滑清晰,不会产生变形和模糊,印刷质量好于双层PDF。

      (5)在版式文字检索和定位方面:双层和重构PDF都支持版面文字检索和定位,在检索速度上,双层的速度慢于重构,因为双层PDF的文件较大。

      (6)在存储容量方面:重构PDF文件的存储容量比双层PDF文件小得多,一般是其1/4至1/6左右。因此重构PDF文件的打开和网络传输都要比双层PDF快,更适合于网络浏览。

      (7)在文字差错率方面:理论上,历史报刊数字化的文字差错率和PDF采用双层和重构并无关系,差错率只和OCR识别准确率和人工校正等有关。在这方面,双层和重构的差别在于:对于双层PDF来说,即使文字层有错字,由于其本身是隐藏的(上层是可视图片),也不会被看见,但会在文本检索和复制过程中体现出来;对于重构PDF来说,文字如果有错误,则直接能看到。出错率的产生,很大程度上取决于原始扫描图的修正、文字识别准确率、校改人员的责任心、新闻常识、历史经验和承接公司的项目管理经验等。

      (8)在发布渠道方面:双层PDF适合在本地电脑和局域网上浏览,重构PDF除本地电脑和局域网上之外,也适合在互联网上、手机、平板电脑、户外大屏上浏览。

      (9)在专辑出品方面:这两种技术都能够满足个性化专辑出品的需求。

      (10)费用方面:由于重构PDF的制作工作量相对大一些,所以制作重构PDF的费用比双层PDF高15%~20%左右。

      总的来说,实施历史报刊数字化项目,如果仅从保护、存档的角度考虑,那么扫描历史报版面建立图片数据库,进而进行文字识别、校正、标引、入库、建立全文数据库和检索网站即可;如果进一步从满足版式检索和PDF浏览功能考虑,可采用双层PDF技术;如果考虑未来媒体终端的应用(例如苹果的iPhone手机、iPad平板电脑)、开发更多的衍生产品,那么可采用重构PDF的技术方案。

      作为Bookeye家族的最新成员,Image Access隆重推出Bookeye 4系列V型书刊扫描仪。紧凑,便捷,性价比高,Bookeye 4为客户带来高端专业的扫描效果,满足更多用户需求。

      创新V型书稿台设计,能大大减少扫描操作对书籍的伤害。120°张开角度,能保证完全捕捉书本上的所有文字内容,绝无遗漏。还能根据用户需求,变为180°平面书稿台,灵活实用。

      Bookeye 4系列A2生产型是一款多功能设备,不但适合图书古籍的扫描加工,还可作为自助型设备,无需连接电脑,直接扫描至USB闪存盘,一机两用,满足顾客不同需求。

      120°V型书稿台,支持180°平面

      

      

      Bookeye 4系列 A2生产型支持扫描客户端

      

      福特瑞斯(北京)科技有限公司是是一家专业数字化信息采集设备的供应商;同时也提供专业数模整合解决方案提供给广大用用户。具体产品内容公司网站:www.caigou.com.cn/c71423

     

    点击进入福特瑞斯(北京)科技有限公司展台查看更多 来源:福特瑞斯(北京)科技有限公司 我要投稿
    2018南京展
    采购网二维码

    扫一扫,欢迎关注

    教育装备采购网官方微信

    掌握教育装备行业最新、最权威资讯

    相关阅读

  • 古籍扫描仪古籍数字化10大优势

    古籍扫描仪古籍数字化10大优势
    中国教育装备采购网08-07
    古籍保护离不开古籍的数字化,将纸质的资料转化为电子版的资料这是图书馆等行业现在重点工作之一,古籍扫描仪能够高清还原古籍原色,对古籍纸质几乎不...
  • 书刊古籍扫描仪让信息化资源实现共享

    书刊古籍扫描仪让信息化资源实现共享
    中国教育装备采购网06-14
    信息资源数字化是图书信息化管理的基础,图书馆的信息(包括文字、图片、声音、动态图像等)是以数字代码方式存储在光盘及其他介质的存储库中,通过计...
  • 2018中国民国文献古籍研讨会古籍扫描数字化

    2018中国民国文献古籍研讨会古籍扫描数字化
    中国教育装备采购网06-08
    十三五时期全国古籍保护工作主要指标到2020年,全国古籍资源和保存状况基本摸清,国家级、省级珍贵古籍保护状况明显改善,实施一批珍贵古籍修复项目,...
  • 波兰国家图书馆书刊古籍扫描仪现场安装

    波兰国家图书馆书刊古籍扫描仪现场安装
    中国教育装备采购网06-06
    历史及现今状况:-成立于1747年名为BibliotekaZałuskich-1794起义反对俄罗斯和普鲁士后,整个收藏被抢劫并搬到圣彼得堡,成为帝国公共图书馆的一部分。...
  • 书刊古籍扫描仪-图书馆古籍数字化完美设备

    书刊古籍扫描仪-图书馆古籍数字化完美设备
    中国教育装备采购网05-28
    古籍实现数字化,是继古籍整理出版之后,对学术界的又一重大贡献。跟传统的纸质古籍产品相比,古籍数字产品有着更多优势。首先,数字化技术带来了强大...
  • 免拆装订 古籍扫描仪成册无损

    免拆装订 古籍扫描仪成册无损
    中国教育装备采购网05-14
    四大发明让中华民族扬名古今中外;而印刷术更是人类文明发展的加速器;相较于其他文明古国,我国的古籍可以说浩如烟海、卷帙浩繁。古旧文献典籍,是中华...
  • 低调的奢华大气,书刊案卷扫描仪OS16000

    低调的奢华大气,书刊案卷扫描仪OS16000
    中国教育装备采购网05-07
    春日阳光明媚的午后,坐在宽敞明亮的图书馆里,在知识的海洋里肆意挥洒时光,这是多么美妙的一件事。现在网上读书很普遍,但是我们国家电子书版权等法...
  • 纸质文献保护不只有原生性保护,还有...

    纸质文献保护不只有原生性保护,还有...
    中国教育装备采购网05-02
    古籍是中华文化的瑰宝,是民族文化的珍贵遗产,具有艺术性、历史性和文物性。古旧文献、古籍是图书馆馆藏的重要组成部分。如何对文献、古籍进行保护修...
  • 中达电通股份有限公司
    产品线 企业简称 成立时间