首页> 中国专利> 一种数字出版资源语义增强描述系统及其方法

一种数字出版资源语义增强描述系统及其方法

摘要

本发明公开了一种数字出版资源的语义增强描述系统,包括:输入接口层、数据层、服务层和输出接口层。还提供了一种数字出版资源语义增强描述方法,此方法基于数字出版元数据集和数字出版领域知识库,从数字出版资源的类型出发,应用不同的划分方法将数字出版资源内容划分为通用概念语义单元和特殊语义单元,从而得到数字出版资源的语义单元表述,而后采用文本直观形式的七层文件层次模型对数字出版资源语义单元表述中的语义单元进行组合,得到数字出版资源的语义增强描述。本发明基于数字出版资源的特点,充分利用了元数据和领域知识,得到的数字出版资源语义增强描述可标识出数字出版资源的基础版权点和语义表述点,可应用于对数字出版资源的版权保护,并为数字出版资源内容的统一编目、精确检索等提供技术支撑,为海量数字出版资源管理和共享打下坚实基础。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-06-24

    授权

    授权

  • 2013-04-24

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20121224

    实质审查的生效

  • 2013-03-27

    公开

    公开

说明书

技术领域

本发明涉及针对中文文本的自然语言处理的应用技术,尤其涉及一种 基于元数据和领域知识的数字出版资源语义增强描述系统及其方法。

背景技术

随着计算机技术的发展,数字出版运用了数字化和网络化等新技术, 使得数字出版的产出规模持续增长。与此同时,数字出版产业的发展造成 了出版资源的爆炸式增长,这给读者带来了严重的信息过载压力,但是读 者对于阅读的本质仍未改变,理解数字出版资源内容仍是提高资源利用率 的核心。

语义增强技术是提高资源语义分析和应用,进而提升资源利用率的方 法和技术手段,随着2001年伯纳斯·李语义网概念的提出及迅猛发展,语 义增强技术也随着蓬勃兴旺,它广泛应用于解决文本、图形图像、视频、 数据库等众多类型资源在行业中的语义搜索、服务和资源管理的问题。数 字出版资源语义增强是对数字出版内容信息的深度整合,是使计算机理解 数字出版资源内容的基础,而语义增强描述又是语义增强的基础。

2009年,David Shotton等人正式提出语义出版及出版资源的语义增 强概念,开启了该技术领域应用的系统性研究,并将其定义为任何能够提 高、丰富数字出版内容与知识的手段、技术和方法,它横跨数字出版从出 版平台、出版物和阅读终端的各个环节,涉及环节中的各种语义信息处理 技术,处理对象囊括数字出版的各种类型资源,比如数字图书、在线新闻、 和学术期刊中的教学资源、政务信息等。它利用语义技术为读者提供期望 的信息质量和深度,是数字出版的未来发展之路,并受到学术界和企业界 越来越多的关注。

国际上:在第五届世界语义网大会期间还专门具备了首届语义出版研 讨会,讨论出版内容资源之间的互操作、学术交流的新方式、如何在EPUB 和其他格式电子图中嵌入和链接语义以及什么样的本体来标识文档结构 和要素等多个主题。行业应用机构方面:国际晶体学联盟出版的《结晶学 报,A辑:结晶学基础》支持文本语义标签;公共科学图书馆和国际计算 生物学协会(ISCB)共同发布计算生物学实体能够自动来凝结至外部关联 数据库;爱思维尔《欧洲生物化学会联盟通讯》与分子间相互作用数据库 进行合作,对其上发表的论文采用结构化的数字摘要等等。

国内出版界和图书馆对数字出版的语义增强相关研究相对滞后,主要 是在自身发展需求和技术推动下完成了特定的应用点研发,比如知网和万 方数据等少数学术数据库服务商的基于资源标签的相似相近文献推介,高 等教育出版社和中华书局等出版机构的资源语义标签标注,中医药出版社 的军医出版物内容的语义标注,大百科出版社的词条及定义的语义分析, 百度百科中的词条关联等等。

同时在以应用为导向关注于某类型的语义增强表现催生了一些语义 增强工具,比如微软实验室针对编辑软件word开发了一种本体识别插件 用于在文档中自动识别和添加语义信息,并将公共数据库中的相关数据整 合到文档中;在现有阅读器上借助第三方插件完成特定的语义增强分析, 比如利用reflect在现有浏览器上自动识别资源中的术语,并以弹出窗口 的形式展示来自多个科学数据库的解释性资料,Getutopia在现有PDF文 档阅读器上附带更多语义信息,Flipboard在大众阅读器上订阅多个信息 源的新闻,Zite在大众阅读器上记录读者浏览历史分析读者兴趣爱好,自 动选择并推介读者感兴趣的文档;抓取Scopus、Web of Science、CiteUlike、 Delicious等网站上的统计信息帮助读者评估所读文章的价值和意义等等。

从以上技术应用现状可见,由于缺乏对底层语义描述的基础支撑,应 用和研究缺少统一基石,目前多是针对某特定应用目标或特定资源类型而 开展的研究,应用针对性太强,在数字出版资源的整体性、系统性的问题 研究方面建树较少。

发明内容

针对以上问题,本发明的目的在于对数字出版资源进行底层语义增强 描述,标识出资源语义点和版权保护点,以对较高层资源的应用和研究, 特别是统一编目、精确检索等技术提供支撑,并可对数字出版资源的版权 提供保护。

为了实现所述的目的,本发明提出了一种数字出版资源的语义增强描 述系统,包括:

输入接口层模块,用于接收需要处理的数字出版资源;

数据层模块,为服务层模块提供支持数据,所述支持数据包括数字出 版元数据集和数字出版领域知识库;

服务层模块,用于对输入的数字出版资源进行加工处理;

输出接口层模块,用于输出数字出版资源的语义增强描述。

所述的数据层模块包括:

数字出版元数据提取系统,用于构建数字出版元数据集;

数字出版领域知识编辑系统,用于构建数字出版领域知识库。

所述服务层模块包括:

语义单元划分系统:基于数据层模块提供的支持数据,将待处理的数 字出版资源依据类型的不同划分为通用概念语义单元和特殊语义单元,构 建数字出版资源的语义单元表述;

语义单元组合系统:基于数据层模块提供的支持数据,采用文本直观 形式的七层文件层次模型对语义单元表述中的语义单元进行组合,得到数 字出版资源的语义增强描述。

本发明还提供了一种数字出版资源的语义增强描述方法,包括如下步 骤:

步骤1、以数字出版元数据集和数字出版领域知识库为基础,根据数 字出版资源的类型,对输入的数字出版资源内容划分为通用概念语义单元 和特殊语义单元,得到数字出版资源的语义单元表述;

步骤2、采用文本直观形式的七层文件层次模型对数字出版资源的语 义单元表述中的语义单元进行组合,得到数字出版资源的语义增强描述, 并将其输出。

本发明的有益效果:本发明将领域知识和元数据相结合,应用不同的 划分方法将数字出版资源内容划分为通用概念语义单元和特殊语义单元, 构建出数字出版资源的语义单元表述,最后通过七层文件层次模型组合语 义单元得到数字出版资源的语义增强描述,为数字出版资源的进一步语义 分析以及基于其上的关联分析和垂直检索提供基础技术支撑。

附图说明

图1是本发明的数字出版资源语义增强描述系统的结构示意图;

图2是本发明的数字出版语义增强描述方法的方法步骤流程图;

图3是本发明的数字出版资源语义增强描述系统的操作流程图;

图4是本发明中构建数字出版领域知识库的结构示意图;

图5是本发明中七层文件层次模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明作进一步详细说明。

本发明一种数字出版资源语义增强描述系统的结构如图1所示,包括:

1)输入接口层,用于接收需要处理的数字出版资源。输入接口层接 收数字出版资源,并对数字出版资源进行审核、分类处理,将数 字出版资源分为:百科辞典、通俗读物等。

2)数据层,为服务层的操作提供支持数据。其用于构建数字出版元 数据集和数字出版领域知识库,以为服务层提供数据支撑。

3)服务层,用于对输入的数字出版资源进行加工。主要是对数字出 版资源进行语义单元的划分和语义单元的重新组合。

4)输出接口层,用于输出数字出版资源的语义增强描述。

所述数字出版资源元数据集,是由数字出版资源元数据以及元素模型 构成;其中,元素是元数据中用于定义和描述数字出版数据的内涵特征, 由一组属性来描述、定义和标识,并给出允许限值,形式化表述为元素: <描述属性:描述属性1>,<定义:定义1>,<标识:标识号1>,……。2) 元数据由数字出版中描述数字出版参与方、出版物产品以及出版过程和服 务等共性特征的数据元素组成。核心元数据集定义了核心数据元素及其基 本属性和代码表。

所述的数据层包括:

数字出版元数据提取系统,用于构建数字出版元数据集;

数字出版领域知识编辑系统,用于构建数字出版领域知识库。

所述服务层包括:

语义单元划分系统:基于数据层模块提供的支持数据,将待处理的数 字出版资源依据类型的不同划分为通用概念语义单元和特殊语义单元,构 建数字出版资源的语义单元表述;

语义单元组合系统:基于数据层模块提供的支持数据,采用文本直观 形式的七层文件层次模型对语义单元表述中的语义单元进行组合,得到数 字出版资源的语义增强描述。

本发明还提出了一种数字出版资源语义增强描述方法,算法的流程如 图2所示,通过对各种各类数字出版资源的特征的分析及要素的抽象,提 取出数字出版资源的元数据和元数据集;基于元数据和元数据集,构建出 数字出版资源的本体概念库和领域知识树,即数字出版资源的领域知识库; 以数字出版资源的元数据集和领域知识库为基础,从数字出版资源的类型 出发,对输入的数字出版资源应用不同的划分方法将数字出版资源内容划 分为通用概念语义单元和特殊语义单元,从而得到数字出版资源的语义单 元表述,而后采用文本直观形式的七层文件层次模型对数字出版资源语义 单元表述中的语义单元进行组合,得到数字出版资源的语义增强描述,并 将其输出。具体来说,方法包括:

1、元数据和元数据集的构建

本发明所述的元数据和元数据集是由数字出版资源中描述数字出版 参与方、出版物产品以及出版过程和服务等共性特征的数据元素组成。核 心元数据集定义了核心数据元素及其基本属性和代码表,其中核心数据元 素包括题名、标识符、日期、主题、类型、语言、版本等。

2、领域知识的表达和组织

本发明所述的领域知识库包括本体概念库和领域知识树两部分。如附 图4所示,本体概念库是整个领域知识库的表示基础,是基于数字出版元 数据集,对元数据集中元数据的概念化抽象,由概念模型构成;在概念库 的基础上,以概念库内的概念为表达基础,分析抽取具有层次关系的概念, 按照层次关系组织表达领域知识的知识树,知识树分为核心知识树和支撑 知识分类树两部分,核心知识树表述的是元数据集中的核心数据元素及其 关系,支撑知识分类树用来描述核心知识树概念的属性和属性值的层次关 系。数字出版资源概念库是基于数字出版元数据集,建立出数字出版本体 概念模型,由概念模型构成;其中所述数字出版本体概念模型从概念、属 性关系和行为三个方面进行内涵表达,形式化为其中属性A是数字出版领域本体的出版特征描述,用属性和属性值对二元 关系来表现,形式化为:属性名取自元数据集,为元数据要素或元数据对应的资源内容。 属性值为语义单元类型,通用概念的语义单元属性为“概念”,并特设数 字出版的特殊单元属性,比如“公式”、“术语”等。关系R包括父子关 系和成员关系,父子关系是概念的一般和具体的关系,成员关系是整体和 部分关系。领域知识树是基于数字出版资源概念库,对数字出版本体概念 进行分类归纳和关联分析,由概念和概念之间的关联而构成。所述领域知 识树,形式组织并表述概念和概念之间的关联关系以及分类特性。知识树 的节点是概念库对应的概念,知识树的边表示节点间的关系,有父子关系 和成员关系(含义类概念关系)。

3、数字出版资源语义单元表述的构建

数字出版资源语义单元表述由各种不同的语义单元组成,而语义单元 的类别是由数字出版资源的内容所决定的。根据数字出版资源内容的不同, 语义单元分为通用概念语义单元和特殊语义单元。特殊语义单元为基础教 学教材中术语、概念、公式或百科字典中的术语条等;通用概念语义单元 则为通俗读物等其他资源语义单元。

由于语义单元类型的不同,因此划分数字出版资源,需要的划分方法 也不同。

1)通用概念语义单元的划分:经过停用词和去除干扰等预处理之后, 在数字出版概念库基础上采用双向最大匹配方法切割分词,并根据概念库 和知识树关联完成词语的上下文语境消歧,同时将语义标注到知识树上, 注明语义单元类别属性,完成资源通用概念语义单元的划分。

2)数字出版特殊语义单元的划分:

a)公式的划分:根据公式、术语等的特殊语义单元的语言结构特征 设定识别算法。根据公式单元会在上下文中有提示说明的特点,比如上下 文跟随“见公式……”/“公式(1.1)”等结构特征,标识出数字出版资 源中出现公式结构特征的文本内容,也即公式出现的上下文,并根据结构 的上下提示作用在其对应位置的上或下范围内识别包含一定长度的字母 数字文字,确立公式头和公式尾的位置,划分出公式,并将提示说明文字 中的基本语义单元作为公式的语义描述标注其上,完成公式的语义单元的 划分。

b)术语的划分:术语会收录于领域学科辞典中,在领域辞典资源基 础上,采用双向最大匹配方法切割分词,同时将语义标注到知识树上,完 成术语的划分。

对数字出版资源应用上述划分方法,得到数字出版资源的语义单元表 述。

4、数字出版资源语义增强描述的构建

本发明所述的数字出版资源语义增强描述以七层文件层次模型(见 附图2)为基础框架,该模型使用文本直观的结构形式,包括标识元素、 行、段、节、章、数据集和数据集群从底层到高层的七级,其中标识元素 为语义单元,低层模型语义根据资源原本文本组织方式组合表达高层语义。 利用此七层文件层次模型对数字出版资源语义单元表述中的语义单元进 行组合,构建出数字出版资源的语义增强描述。

本发明使用的步骤如下(如图3所示):

第一步骤:对资源内容进行分析,提取出数字出版中描述数字出版参 与方、出版物产品以及出版过程和服务等共性特征的数据元素,构建出数 字出版的元数据和元数据集;

第二步骤:基于第一步所建的元数据和元数据集,对元数据进行概念 化抽象,得出数字出版的概念库;将概念库中具有层次关系的概念按照层 次关系组成表达领域知识的知识树;由概念库和知识树共同组成数字出版 的领域知识库;

第三步骤:通过输入接口输入待处理的数字出版资源及其类型,并保 存。

第四步骤:基于第一步骤所建的元数据集和第二步骤所建的领域知识 库,对输入的数字出版资源划分语义单元,构建数字出版资源的语义表述;

第五步骤:以七层文件层次模型为基本框架,对所构建的数字出版资 源的语义表述进行语义单元的组合,得到数字出版资源的语义增强描述, 并通过输出接口将其输出。

为了更好的说明本发明,举例说明本发明的实施方式。应该注意的是, 本例子仅仅是为了更加充分的说明本发明而不是对本发明的限制。

下面选取高中物理第二册(人教版)第20页对向心力的阐述:

向心力做圆周运动的物体为什么不沿直线飞去而沿着一个圆周运动?那是因为它 受到了力的作用。用手抡一个被绳系着的物体,它能做圆周运动,是因为绳子的力在 拉着它。月球绕地球转动,是地球对月球的引力在“拉”着它。

做匀速圆周运动的物体具有向心加速度,根据牛顿第二定律,产生向心加速度的 原因一定是物体受到了指向圆心的合力。这个合力叫做向心力(centripetal force)。

把向心加速度的表达式代入牛顿第二定律,可得向心力的表达式:

Fm=mv2r---(1)

或者

Fn=mω2r    (2)

上述这段对向心力的阐述其核心语义点在于其中的术语概念和公式, 因此以划分其中的公式语义单元为例子来说明构建语义增强描述的具体 过程如下:

以中国新闻出版研究院《数字出版元数据》系列标准得到的元数据集 为基础,利用概念知识树知识表达方法提供的CMC(概念管理中心平台) 对元数据要素进行抽取和关联分析的管理和编辑,构建出数字出版领域知 识的概念库和元数据核心知识树。其中为明确应用,概念和知识树中包括 高中物理术语概念“向心力”,物理教材类资源中的公式划分算法中公式 表述特征:1.文字特征:“表达式”“公式”等;2.表述特征“(公式1/1)”…… “(n)”。

基于以上元数据集和领域知识库,本发明服务层的语义单元划分系统 对本实施例进行如下操作:

(1)针对物理教材,判定其中关键语义单元类型包括术语概念和公 式,并在构建的知识库基础上检索出“向心力”、“表达式”、“(1)”、“(2)” 这些关键术语和特征;

(2)根据语义单元模型生成系统中公式的划分方法,先将:

“向心力的表达式:

Fm=mv2r---(1)

或者

Fn=mω2r    (2)

”部分作为公式出现的上下文;

(3)在上下文中检索连续字符数字范围,判定首次文字结束字符数 字开始出现的“Fm”作为公式开头,在该段字符数字结束并且连带出现特 征“(1)”的位置作为公式结尾,划分出第一个公式同理识 别出第二个公式“Fn=mω2r”;

(4)关键术语概念为“向心力”,特征为“表达式”,因此将概念“向 心力”标识为公式的语义描述,如果有多个核心概念,按语言的最简原则 以最靠近公式的核心术语概念作为公式的语义描述。随后由服务层的语义 单元组合系统——七层文件层次模型生成系统将本实施例语义单元表述 中的语义单元进行组合,得到本实施例的语义增强描述,其表达形式为: <<向心力>,<表达式>,<Fn=mω2r>>。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而 已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号