法律状态公告日
法律状态信息
法律状态
2019-03-26
授权
授权
2016-08-24
实质审查的生效 IPC(主分类):G06F17/30 申请日:20160319
实质审查的生效
2016-07-27
公开
公开
技术领域
本发明涉及利用自然语言处理、数据挖掘等方法进行知识图谱的构建,尤其涉及 基于图书的概念-描述词知识网络的构建方法。
背景技术
随着以LinkingOpenData为代表的链接数据公开项目的全面发展,以及各类语 义Web数据源的飞速增长,大量的资源描述框架(RDF)数据发布到互联网中。互联网环境发 生了巨大的改变,从原来的仅包含网页间超链接的文档万维网(DocumentWeb),转变成描 述各类实体以及实体之间关系的数据万维网(DataWeb)。人们已经不能够满足于原有的文 档内容呈现方式,基于此,谷歌,百度和搜狗等搜索引擎公司纷纷发布了自己的知识图谱, 来提高搜索质量,从而拉开了语义搜索的序幕。
知识图谱旨在对现实世界中存在的各种实体或概念进行描述,正如谷歌的辛格博 士所说的:“Theworldisnotmadeofstrings,butismadeofthings.”。在图谱中, 每一个实体(或概念)通过唯一的标识符(identifier)确定,每个属性-值对(attribute- valuepair,也叫AVP)用来刻画实体的内在特性,而连接两个实体的关系(relation)用来 刻画它们间的某种关联。上述的实体、属性-值对以及关系是对现实世界的建模,可以用图 模型来进行表达。目前,可以通过W3C提出的RDF和属性图(PropertyGraph)来对知识图谱 进行表示。目前,主流的知识图谱包括谷歌知识图谱、搜狗知立方和百度知心。
发明内容
本发明的目的是为了克服现有技术的不足,提供一种从图书中构建概念-描述词 知识网络的方法。
本发明解决其技术问题采用的技术方案包括以下步骤:
1)预处理图书目录:通过正则表达式去除目录无用的前缀,通过自然语言处理工 具将目录分词,保存每个词的词性;
2)基于词嵌入匹配算法的短语抽取:在步骤1)的基础上,训练得到词嵌入匹配模 型,从该模型中得到各个词、词对应的特征和词对应的标注的词嵌入,通过向量间的计算得 到得分最高的标注,最终从图书目录中抽取得到短语;
3)目录短语分类:对步骤2)中得到的目录短语,抽取特征,采用支持向量机分类得 到概念和描述词,然后将概念-描述词对存储到图数据库中。
所述的步骤2)包括:
2.1)以步骤1)预处理的目录为基础,训练得到词嵌入匹配模型,模型参数为输入 特征矩阵α和标注矩阵β;
2.2)对目录中的每一个词ω,查询矩阵α得到输入特征Iω,查询矩阵β得到每个标 注符号x对应的标注向量Ox;
2.3)通过向量间的乘积并做指数归一化得到每一个标注符号的得分,公式如下:
其中scorei表示第i个标注符号的得分,exp表示以e为底的指数运算,Iω表示输入 的特征向量,Oi表示第i个标注符号的标注向量,是所有得分的总和,用来 做归一化;
2.4)通过步骤2.3)对每个词选取得分最高的标注符号,最终将词合并得到短语。
所述的步骤2.1)包括:
2.1.1)用BIO模型对预处理好的目录进行标注,得到训练所需语料;
2.1.2)定义模型的损失函数如下:
其中,K表示样本数量,ak表示第k个样本的预测得到的标注符号,δ(ak)是一个指示 函数,用来预测是否与真实标注相同,Ik表示输入特征向量,O(ak)表示标注向量, 是模型的正则化项,防止模型过拟合,其中λ是正则化项的 惩罚因子;
通过随机梯度下降算法求解上述损失函数得到模型中参数Ik和O(ak),即步骤2.1) 中的α和β。
所述的步骤3)包括:
3.1)通过步骤2)得到了目录中短语,标注得到分类的训练语料;
3.2)选用支持向量机将短语分成概念和描述词,支持向量机的目标函数如下:
subjecttoyi[(ω·xi)]≥1-ζi(i=1,2,…,I)
其中,I表示样本数量,ω和ζ是模型参数,C是惩罚因子,xi表述样本的特征,yi表述 样本的分类;
3.3)目录短语分类所用特征包括TFIDF值、词嵌入特征、上下文特征、词性特征以 及字典特征;
3.4)通过上述步骤得到了同一目录中的概念和描述词,通过映射组成概念-描述 词对,存储到Neo4j图数据库中。
本发明方法与现有技术相比具有的有益效果:
1、该方法采用的数据来自于出版的图书,图书的作者无不是所处领域的专家,具 备丰富的经验和深厚的领域知识。数据的高质量项为方法的效果提供了保证。
2、该方法具有很好的扩展性,当有新的图书数据加进来时,可以按照本方法的各 个步骤进行处理。
3、该方法将图书中知识进行抽取和分解,从图书中提炼知识,能够方便后续的知 识重组或者人们的工作学习。
附图说明
图1是本发明的总体流程图;
图2是步骤2.1)的流程图;
图3是实施例结果的样例展示图。
具体实施方式
如图1所示,本发明方法,包括以下步骤:
1)预处理图书目录:通过正则表达式去除目录无用的前缀,通过自然语言处理工 具将目录分词,保存每个词的词性;
所述步骤1)中的自然语言处理工具为NLPIR汉语分词系统,同过该工具将目录分 词,并保存分词结果中的词性。
2)基于词嵌入匹配算法的短语抽取,具体步骤如下:
2.1)以步骤1)预处理的目录为基础,训练得到词嵌入匹配模型,模型主要参数为 输入特征矩阵α和标注矩阵β;
2.1.1)用BIO模型对预处理好的目录进行标注,得到训练所需语料;
2.1.2)定义模型的损失函数如下:
其中,K表示样本数量,ak表示第k个样本的预测得到的标注符号,δ(ak)是一个指示 函数,用来预测是否与真实标注相同,Ik表示输入特征向量,O(ak)表示标注向量, 是模型的正则化项,防止模型过拟合,其中λ是正则化项的 惩罚因子;
通过随机梯度下降算法求解上述损失函数得到模型中参数Ik和O(ak),即步骤2.1) 中的α和β。
2.2)如图2所示,对目录中的每一个词ω,查询矩阵α得到输入特征Iω,查询矩阵β 得到每个标注符号x对应的标注向量Ox;
2.3)通过向量间的乘积并做指数归一化得到每一个标注符号的得分,公式如下:
其中scorei表示第i个标注符号的得分,exp表示以e为底的指数运算,Iω表示输入 的特征向量,Oi表示第i个标注符号的标注向量,是所有得分的总和,用来 做归一化;
2.4)通过步骤2.3)对每个词选取得分最高的标注符号,最终将词合并得到短语。
3)目录短语分类:对步骤2)中得到的目录短语,抽取特征,采用支持向量机分类得 到概念和描述词,然后将概念-描述词对存储到图数据库中。
3.1)通过步骤2)得到了目录中短语,标注得到分类的训练语料;
3.2)选用支持向量机将短语分成概念和描述词,支持向量机的目标函数如下:
subjecttoyi[(ω·xi)]≥1-ζi(i=1,2,…,I)
其中,I表示样本数量,ω和ζ是模型参数,C是惩罚因子,xi表述样本的特征,yi表述 样本的分类;
3.3)目录短语分类所用特征包括TFIDF值、词嵌入特征、上下文特征、词性特征以 及字典特征;
3.4)通过上述步骤得到了同一目录中的概念和描述词,通过映射组成概念-描述 词对,存储到Neo4j图数据库中。
下面结合本发明的方法详细说明本实例实施的具体步骤,如下:
(1)实例采用的数据集均来自于数字图书馆中的图书。本实例一共从工程科教图 书资源中抽取了53059本工业技术的图书,共计目录251129条。图书涉及类别:农业、生物、 化工、计算机、电子、机械制造、航空航天、医药、自动化等。所有目录经过步骤1)的去无用前 缀和分词处理。
(2)用BIO模型对(1)中数据标注得到词嵌入匹配模型的训练语料,用词嵌入匹配 模型抽取目录短语,并利用支持向量机将目录短语分类成概念和描述词。
(3)将(2)中每个目录的概念和描述词组成二元组存入图数据库中。数据实例如图 3所示。
机译: 基于Lexicon和概念网络的词法概念网络构建方法
机译: 一种基于字典类型的字典自动构建方法,其记录介质及基于字典类型的字典自动构建方法
机译: 基于区块链的图书共享经济平台构建系统及方法