教育装备采购网
第七届图书馆 体育培训

档案数字化过程中OCR技术发展历程

教育装备采购网 2016-12-23 13:44 围观875次

  OCR,即使用书刊扫描仪扫描文字.结果以图片格式(.bmp)存入电脑.然后使用OCR识别系统进行转换.最终用WORD进行修改编辑.

  下面教你如何使用ORC: OCR是英文Optical Character Recognition的缩写.翻译成中文就是通过光学技术对文字进行识别的意思. 是自动识别技术研究和应用领域中的一个重要方面.它是一种能够将文字自动识别录入到电脑中的软件技术.是与书刊扫描仪配套的主要软件.属于非键盘输入范畴.需要图像输入设备主要是书刊扫描仪相配合.现在OCR主要是指文字识别软件.在1996年清华紫光开始搭配中文识别软件之前.市场上的扫描仪和OCR软件一直是分开销售的。书刊扫描仪厂商现在已把专业的OCR软件搭配自己生产的扫描仪出售.OCR技术的迅速发展与扫描仪的广泛使用是密不可分的.近两年随着书刊扫描仪逐渐普及和OCR技术的日臻完善.OCR己成为绝大多数扫描仪用户的得力助手.

  OCR技术的发展历程

  自20世纪60年代初期出现第一代OCR产品开始.经过30多年的不断发 展改进.包括手写体的各种OCR技术的研究取得了令人瞩目的成果.人们对OCR产品的功能要求也从原来的单纯注重识别率.发展到对整个OCR系统的识别速度.用户界面的友好性.操作的简便性.产品的稳定性.适应性.可靠性和易升级性.售前售后服务质量等各方面提出更高的要求.

  IBM公司最早开发了OCR产品.1965年在纽约世界博览会上展出了IBM公司的OCR产品--IBMl287.当时的这款产品只能识别印刷体的数字.英文字母及部分符号.并且必须是指定的字体.20世纪60年代末.日立公司和富士通公司也分别研制出各自的OCR产品.全世界第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的.两年后NEC公司也推出了同样的系统.到了1974年.信函的自动分拣率达到92%左右.并且广泛地应用在邮政系统中.发挥着较好的作用.1983年日本东芝公司发布了其识别印刷体日文汉字的OCR系统OCRV595.其识别速度为每秒70-100个汉字.识别率为99.5%.其后东芝公司又开始了手写体日文汉字识别的研究工作.

  中国在OCR技术方面的研究工作相对起步较晚.在20世纪70年代才开始对数字.英文字母及符号的识别技术进行研究.20世纪70年代末开始进行汉字识别的研究.1986年.国家863计划信息领域课题组织了清华大学.北京信息工程学院.沈阳自动化所三家单位联合进行中文OCR软件的开发工作.清华大学率先推出了国内第一套中文OCR软件--清华文通TH-OCR1.0版.至此中文OCR正式从实验室走向了市场.清华OCR印刷体汉字识别软件其后又推出了TH-OCR 92高性能实用简/繁体.多字体.多功能印刷汉字识别系统.使印刷体汉字识别技术又取得重大进展.到1994年推出的TH-OCR 94高性能汉英混排印刷文本识别系统.则被专家鉴定为[是国内外首次推出的汉英混排印刷文本识别系统.总体上居国际领先水平".上个世纪90年代中后期.清华大学电子工程系提出并进行了汉字识别综合研究.使汉字识别技术在印刷体文本.联机手写汉字识别.脱机手写汉字识别和脱机手写数字符号识别等领域全面地取得了重要成果.具有代表性的成果是TH-OCR 97综合集成汉字识别系统.它可以完成多文种(汉.英.日)印刷文本.联机手写汉字.脱机手写汉字和手写数字的识别输入.几年来.除清华文通TH-OCR外.其它如尚书SH-OCR等各具风格的OCR软件也相继问世.中文OCR市场稳步扩大.用户遍布世界各地.

  可以说目前印刷体OCR的识别技术已经达到较高水平.OCR产品已由早期的只能识别指定的印刷体数字.英文字母和部分符号.发展成为可以自动进行版面分析.表格识别.实现混合文字.多字体.多字号.横竖混排识别的强大的计算机信息快速录入工具.对印刷体汉字的识别率达到98%以上.即使对印刷质量较差的文字其识别率也达到95%以上.可识别宋体.黑体.楷体.仿宋体等多种字体的简.繁体.并且可以对多种字体.不同字号混合排版进行识别.对手写体汉字的识别率达到70%以上.特别是我国的汉字OCR技术经过十几年的努力.克服了起步晚.汉字字符集异常庞大等困难.单字的识别速度(指在单位时间内所完成的从特征提取到识别结果输出的字数)可以达到70字/秒以上.由于印刷体OCR汉字识别技术已经比较成熟.所以OCR产品被广泛地应用在新闻.印刷.出版.图书馆.办公自动化等各个行业.

  专业型OCR产品多是面向特定的行业.即适用于每天需处理大量表格信息录入的部门.如邮政.税务.海关.统计等等.这种面向特定行业的专业型OCR系统.格式较为固定.识别的字符集相对较小.经常与专用的输入设备结合使用.因此具有速度快.效率高等特点.比如邮件自动分拣系统等.

  手写文稿的识别直到1996.1997年才开始有产品问世.而且是作为印刷文稿识别产品的一项附加功能提供的.由于人写字的习惯千差万别.实现自由手写体识别相当困难.所以手写体OCR技术的使用领域是联机手写体识别.即人一边写.计算机一边识别.是一种实时识别方式.

  

  赛数A2高精度案卷扫描仪OS12002

  如果您需要将大幅面文献、珍贵书籍、字画、案卷和档案数字化,OS12002产品家族能为您的需求提供最前瞻的解决方案。适用于高校、图书馆、档案馆、博物馆、国土、测绘、机械、美术行业、印刷出版等等。

点击进入北京市汉龙实业有限公司展台查看更多 来源:教育装备采购网 作者:北京市汉龙实业有限公司 责任编辑:黄磊 我要投稿
校体购终极页

相关阅读

  • 赛数扫描仪荣获2021年现代图书馆白金奖

    赛数扫描仪荣获2021年现代图书馆白金奖
    教育装备采购网03-04
    2021年1月,美国图书馆领域选出了荣获本年度现代图书馆大奖的产品和服务。赛数OSQ高精度大幅面扫描仪和赛数DSC全能影像采集系统荣获本年度现代图书馆白...
  • 档案行业光盘硬盘智能备份管理解决方案

    档案行业光盘硬盘智能备份管理解决方案
    教育装备采购网05-18
    近年来,随着电子文件单套归档、单轨运行试点工作在上海自贸区、浙江省档案局、国家开发银行、青岛啤酒股份有限公司等单位的不断推广实施,电子档案的...
  • 利用数字化技术对珍贵档案的复制与保护

    利用数字化技术对珍贵档案的复制与保护
    教育装备采购网04-24
    关于档案的保护,特别是涉及具有重要社会价值与历史价值的珍贵档案,除了档案原件修复之外,往往会提到数字化这种技术保护措施。社会信息化的深入发展...
  • 教育信息化浪潮方兴未艾,学校图书馆功能不断完善

    教育信息化浪潮方兴未艾,学校图书馆功能不断完善
    教育装备采购网04-15
    图书馆作为学校的第二课堂,是获取跨领域知识和信息的场所。读者在图书馆翻阅图书的同时,可以通过与历史的对话,进一步了解当下,面向未来。当前,教...
  • 赛数zeta书刊扫描仪升级服务:让您的设备

    赛数zeta书刊扫描仪升级服务:让您的设备"变旧为新"
    教育装备采购网04-07
    赛数公司已开始为zeta书刊扫描仪用户提供极具性价比的升级服务,包括全新的操作面板,触摸屏大小差不多是原来的两倍,并集成了Windows10操作系统。升级...
  • 赛数书刊扫描仪为图书馆数字化量身打造

    赛数书刊扫描仪为图书馆数字化量身打造
    教育装备采购网09-04
    为什么说赛数b书刊扫描仪是高校图书馆书籍数字化必备神器?为图书馆书籍数字化量身打造?我觉得有以下五个理由,虽然说远远不止这5个理由.........第一...
  • 公共图书馆数字化必备神器了解一下
    教育装备采购网05-16
    春日阳光明媚的午后,坐在宽敞明亮的图书馆里,在知识的海洋里肆意挥洒时光,这是多么美妙的一件事。现在网上读书很普遍,但是我们国家电子书版权等法律纠纷比较多。公共图书馆加强数字资源建设...
  • "新生来袭"!! 赛数OS12002活力全开
    教育装备采购网05-08
    当谈到书刊扫描仪,OS12002AdvancedPlus无疑像是一个全能性人才。它具备强大的功能,适合大规模数字化和scan-on-demand应用,同样也适合很多领域的数字化,是图书馆、档案馆和扫描服务机构的最佳...

版权与免责声明:

① 凡本网注明"来源:教育装备采购网"的所有作品,版权均属于教育装备采购网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:教育装备采购网"。违者本网将追究相关法律责任。

② 本网凡注明"来源:XXX(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。

③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为放弃相关权利。

校体购产品