教育装备采购网
第七届图书馆 体育教师课题研修班

数字人文视角下的数字方志集成平台构建

教育装备采购网 2018-06-13 11:36 围观2713次

  内容摘要:数字人文视角下的数字方志集成平台以异构数字方志数据为基础、方法为导向,力求为人文学者提供统一的数据资源管理、大数据分析、可视化展示和智慧型服务的人文研究环境建设思路。通过资源与研究平台的融合,尝试整合全国高校师范联盟图书馆数字方志资源,为人文学者在数字环境中寻求和使用新形式的信息提供方便,为人文研究提供全新的研究方法和平台。案例采用BIBFRAME2.0进行知识组织、运用可视化以及知识图谱技术实现数据之间的关联关系、通过自然语言处理(NLP)技术实现文本深度挖掘与可视化检索、基于关联数据技术实现更大范围的数据集成。

  关键词:方志、集成、异构

  1.引言

  数字人文也称人文计算,1949年Busa使用电脑对神学家Aquinas著作内的字词进行大规模处理,被认为是数字人文的起源[1]。目前学界对其定义尚无权威界定,它是伴随人文学者研究方式的变化而产生的。从资源服务研究角度看,数字人文即结合大量数字资源,运用信息技术来从事人文研究[2]。数字人文研究主要集中在文学、历史、地理、古籍等方面[3]。

  方志特藏资源作为数字人文研究的重要数据来源,具有资料性、真实性、区域性、时限性和传承性特征[4]。且数据的历史、地理研究特征明显;数据的时间、地点、人物、事件之间的关联关系复杂。数字方志集成平台基础设施研究的目的在于基于信息技术对异构数据进行多角度、全方位有效揭示;深度挖掘数据之间的关联关系及产生量化分析结果。从而为人文学者在数字环境中寻求和使用新形式的数字资源提供便利;为人文研究提供新的辅助研究方法、工具和平台。通过资源的异构与集成,使人文学者从既有资源中挖掘出过去不曾发现的更大范围的现象与课题,为跨越学科知识的界限、拓展研究者的视野、发现跨学科与跨领域特色的新研究方向与研究方法提供途径。案例通过数字方志集成平台设计,

  2.总体设计

  数字方志集成平台以构建行业数字人文基础设施为目标,通过异构特藏资源的集成、知识组织与数据关联,将可视化技术与工具应用于其上,通过知识图谱表现数据的复杂关系。

  数字方志集成平台通过数据集成实现数据互操作,通过异构方志元数据构建知识本体。数字方志集成平台由数据集成、数据处理、数据应用3部分组成。

  1)数据集成

  系统主要集成数据:

  书目方志元数据。以华东师范大学图书馆馆藏方志数据为基础,约40000种,基于全国师范大学图书馆联盟成员馆为参建对象,正在处理北京师范大学图书馆馆藏方志数据、上海师范大学图书馆馆藏方志数据,并逐渐扩大方志数据参建图书馆。

  电子资源方志数据库元数据。目前完成的元数据:中国方志数据库、超星系统方志资源、汉唐系统方志元数据以及华东师范大学参与CADAL项目的方志数据。上述方志数据资源实现了统一一次性处理元数据入库,并根据参建图书馆实际购买情况,增加馆藏信息,实现全文开放。

  2)数据处理

  通过集成方志资源元数据的内部细粒度加工与外部关联的方式实现数据规范处理。方志书目资源的合订本数据处理,

  3)数据应用

  分两部分:通过数字方志集成平台实现资源的统一揭示、分析、互动(通过社会网络接口实现众包方式的数据扩展、系统功能优化以及建立更多的语义关联)等。同时,通过开放平台实现元数据与关联数据在更大范围的共享,实现从数据孤岛向数据共享的转变。

  图1数字方志集成平台框架

  3. 本体与知识组织

  基于BIBFRAME2.0、FOAF、RDF、RDFs等词表构建数字方志知识库本体模型,模型主要分为作品、版本、单件三大类,将用于CNMARC格式到RDF格式的转换。数字方志集成数据遵循关联数据四原则进行RDF数据的发布,并提供诸如RDF/XML、JSON-LD、N3等多种内容协商方式。

  系统采用BIBFRAME2.0作为元数据主词表,并根据方志资源特点通过FOAF、RDF、RDFs等词表进行有效扩展。BIBFRAME2.0的优点主要体现在以下3方面。

  1)普适性。BIBFRAME2.0不仅体现在书目框架可描述的资源类型不限于描述传统图书,还可描述网络资源,还体现在其采用RDF、URI等标准化的数据模型和编码方式,可与网络上的数据很好地兼容和互操作。

  2)语义化。因为BIBFRAME2.0是采用RDF描述的,因而数据的最小单位不是记录,而是RDF的陈述,这就打破了 MARC书目“记录”的格式,将记录分拆为一个或多个三元组,成为一个又一个相互关联的语义单元,为书目数据赋予了机器可处理的语义。

  3)开放性。用HTTP URI来标识所有的“东西”是关联数据技术框架的基石,而HTTP URI是万维网的基本信息组织方式,可全球唯一定位,当书目数据中的一切实体都赋予了URI,就可在全网范围内被定位和访问,突破了MARC数据的局限,打破了封闭的图书馆系统与开放网络之间的藩篱,使书目数据能够方便地与其他网络数据混搭,融入“数据的网络”,构建新的数据服务。

  表1.方志元数据与知识本体的对应表设计

  4. 功能设计

  检索基于作品层设计的最大特点在于从检索角度体现资源关联性,作品层检索角度可以检索出所有不同载体、语言、版本等信息,同时可有效规避基于通常的版本项检索的显示重复性大、界面有效内容显示少等情况。

  1)时空检索界面设计。主要表现作品的检索结果地理信息、时间(方志以朝代标注)信息以及具体作品的文本记录信息。

  界面分为3个层次,见图2.

  GIS结果。表现资源的地理位置、数量等,通过划分面积,可产生面积内的资源量化结果。

  时间轴结果。通过鼠标拖动,曲线与GIS结果同步显示量化结果。

  作品记录层列表。点击具体作品记录列表,显示版本层结果。

  图2时空检索界面设计

  2)通过可视化技术表现数据(作者、资源)之间的关联关系,主要表现知识组织的3层结构,见图3:作品、版本、单件。

  图3 知识组织3层结构

  3)关键词可视化检索。基于资源的自然语言关键词可视化检索的实现,主要通过题名、自然语言关键词、摘要等描述性元数据的分词,并与规范主题词构成标签数据,用于可视化检索。同时,结合特定属性(时间、地点、人物等)的全文标注来实现知识关联。实现上述文本数据的细粒度化,涉及到自动分词/自然语言处理NLP (Natural Language Processing)技术、标注技术。中国科学院计算技术研究所开发的商业化软件汉语词法分析系统ICTCLAS(Institute of Computing Technology Chinese Lexical Analysis System)[5],是功能较强的非开源系统。主要功能包括中文分词、词性标注、命名实体识别、新词识别,不仅支持用户词典与繁体中文转换,还支持GBK、UTF-8、UTF-7、UNICODE等多种编码格式。此外,有许多开源软件可供使用,如类似开源LAMP平台的基于字符串匹配PHP Analysis分词组件工具[6]。SCWS –简易中文分词系统,采用的是自行采集的词频词典进行分词,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集来实现自动标注。同时,提供共享函数库,可方便嵌入各种现有软件系统,支持GBK、UTF-8、BIG5等汉字编码[7]。自动分词和属性标注在专有名词和特有需求甚多的垂直领域,要提升文本数据细粒度化处理的精准度,往往需要大规模语料库的支撑,而在中文垂直领域语料库很少,很难将比较通用的如在 Wikipedia上面训练的模型直接拿过来用[8]。本系统采用开源LAMP平台实现分词功能,见图4

  图4分词可视化检索

  4)检索结果的时空量化。主要基于GIS实现面积的检索结果量化,见图5。

  图5基于面积的检索结果量化

  5)异构资源整合结果展示,同一作品的不同收藏地表现、同一作品不同载体形态表现等,见图6。

  图6 资源整合文字界面

  5. 结语

  数字方志集成平台的设计,基于国家社科基金项目“图书馆异构特藏资源的数字人文研发与共享模式研究”的阶段性研究成果。力求通过资源的集成,为人文学者提供更方便、更权威的研究环境;基于知识本体的知识组织,通过可视化技术、GIS技术、关联数据技术、知识图谱等技术的应用,为人文学者提供全新的数字化研究环境,辅助人文学者在数字时代的研究过程。

  构建数字人文视角下的数字方志研究环境,数据处理和平台功能同样重要。全文数据的深度挖掘与分析以及基于时间、地点、人物、事件等的标注,这些相关不断细化的自然语言处理,需要信息技术的进一步辅助才能逐步实现。数字方志集成平台目前还有很多功能需要进一步完善。如众包功能的嵌入、文本分析工具应用、产生更多量化结果等,这些功能都在不断探索中。

  参考文献

  [1]HOCKEY S.The History of Humanities Computing[M]//A Companion to Digital Humanities. Blackwell Publishing Ltd,2004:1-19.

  [2]于淑娟.台大资讯工程学教授:新技术能为历史研究提供什么帮助[EB/OL].[2018-03-28].http://www.thepaper.cn/newsDetail_forward_1340177.

  [3]柯平,宫平.数字人文研究演化路径与热点领域分析[J].中国图书馆学报,2016(11),13-30.

  [4]方志特征[EB/OL].[2018-03-28].https://baijiahao.baidu.com/s?id=1594922-446661171625&wfr=spider&for=pc.

  [5]百度百科.ICTCLAS[EB/OL].[2018-03-28].https://baike.baidu.com/item/ ICTCLAS/8609-504?fr=Aladdin.

  [6]分词系统简介:PHPAnalysis分词程序[EB/OL].[2018-03-28].http://www. cnblogs.c-om/sanwenyu/p/4054728.html.

  [7]SCWS中文分词[EB/OL].[2018-03-28].http://www.xunsearch.com/scws/.

  [8]构想:中文文本标注工具[EB/OL].[2018-03-28]. https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/78560121.

来源:1华东师范大学数据科学与工程学院,2华东师范大学图书馆 作者:李欣 鲁丹 责任编辑:杨静 我要投稿
校体购终极页

版权与免责声明:

① 凡本网注明"来源:教育装备采购网"的所有作品,版权均属于教育装备采购网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:教育装备采购网"。违者本网将追究相关法律责任。

② 本网凡注明"来源:XXX(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。

③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为放弃相关权利。

校体购产品