档案大数据是在档案方面涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。
我们通常理解为大量非结构化数据(包含所有格式的办公文档、文本、图片、图像和音频/视频信息等等)和半结构化数据(结构方面缺少统一规律的数据),这些数据在获取并用于分析时会花费过多时间和金钱。
档案大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些有较高价值的饱含历史意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。也就是我们不仅要拥有一座矿山,还要通过各种手段发掘、开采、提炼出高价值的产品。方法和手段不一样,产出的价值是不同的。
档案大数据的特点:数据量巨大、数据类型繁多、价值密度低、处理速度快。
数据量巨大:以“十一五末”我国的馆藏档案量已达到近4亿卷,以每卷3厘米厚度。我国的馆藏档案能把长江从源头至入海口码个来回。根据估算我国档案正以每5年40%速度递增。
数据类型繁多:档案涉及政府机关、集团企业、金融、通信、建筑、房产、教育、军工、法院等行业。这些行业运行不同的业务,产生档案数据是各不相同的。如文档、设计图、照片、录音材料、视频、GIS信息、水文气象信息等。这些不同的文档又存在一定的关联性。比如城市建设的平面图、设计图可以和GIS数据信息关联,同时还要关联政府建设规划文件、批复与施工文件等。这些不同类型的数据不同程度上对数据的处理能力提出了更高的要求。
价值密度低:价值密度的高低与数据总量的大小成反比。如保险档案,我们会把保险单逐一存档,但发生理赔的概率是极低的。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
处理速度快:这是大数据区分于传统数据挖掘的最显著特征。在海量的数据面前,处理数据的效率就是企业的生命。档案大数据也是如此。
档案大数据与互联网大数据有着相同的特点,从档案本身属性看其特点还表现在一方面可以提供政府企业运行的依据,支持核心生产力与应用,另一方面档案仍对合规、电子取证、安全、诊断以及其他支持性应用程序有相当大的价值。
全自动扫描机器人主要特点
全自动扫描速度每小时3300页;
捕捉图像分辨率为325dpi--600dpi,24位彩色。
专利SmarCradle“激光眼”动态处理程序,自动测量功能。
V100度的书托角度支持罕见脆弱的古籍、案卷。
模拟人手臂真空吸附翻页技术,比人手还要温柔的机器人。
surturn机器人手臂真空吸附翻页技术,比人手还要温柔的机器人。
元数据检索和创建MARC记录,DublinCore文件,和MODS文件。
METS/AL TO兼容的输出。
输出TIFF、JPG2000、JPG,PDF/A和更多格式文件。
高质量的结果是任何数字化项目的首要目标。高质量包括卓越的图像,高精确度OCR识别、全面的元数据和全册资料的完整性,实现这些数字化目标才能让您充分利用数字化的成果,并满足您未来尚不确定的更多需求。使用高效完美的扫描设备,让珍贵原件永久的保存。
Kabis全自动扫描机器人系统延续了Kirtas机器人的传统,提供“激光眼”全自动成册资料中心自动定位系统,精准定位不同规格的案卷、图书中心位置、自动测量它们的规格,全自动控制大大提高了数字化生产效率。V110度的书托角度是最佳力学开角,最大程度的保证珍贵资料在数字化过程不受到损坏。全球专利的气流和超声波分页技术完美剥离难以翻开的书页、模拟人手臂真空吸附翻页触手会轻轻的拿起并翻开新的一页。
在摸拟人手臂真空吸附翻页技术中我们应用了书页边缘传感器技术,配合“激光眼”来检测机械臂拿起多页或无页的情况,并自动采取机器人自学模式启动纠正。其结果是全部书籍案卷内容的完整性和高质量。
最新的Kabis Manager Plus软件提供了简单的用户界面,让您可以迅速开始数字化操作。新的接口提供了更方便的页面捕获监控和管理的精准度。真正让您做到了谈笑风生间完成海量数字化工作。