首页> 中国专利> 辽代历史文化领域知识图谱及其智能问答系统的构建方法

辽代历史文化领域知识图谱及其智能问答系统的构建方法

摘要

本发明涉及人工智能问答领域,公开了辽代历史文化领域知识图谱及其智能问答系统的构建方法。技术方案:根据实体所属类别进行图谱设计;根据图谱设计获取相应数据;对原始语料进行处理;对处理后的原始语料进行命名实体识别和关系抽取;构建知识图谱;有益效果:本发明所述的辽代历史文化领域知识图谱及其智能问答系统的构建方法通过构建辽代历史文化知识图谱可将散乱的知识有效整合,便于将其广泛应用于各个行业促进相关文化信息的传播;辽代历史文化智能问答系统的构建是将知识图谱落实于实际应用中的探索,这一实践有利于提高用户对该领域知识的检索效率。

著录项

  • 公开/公告号CN112417100A

    专利类型发明专利

  • 公开/公告日2021-02-26

    原文格式PDF

  • 申请/专利权人 大连民族大学;

    申请/专利号CN202011313409.0

  • 申请日2020-11-20

  • 分类号G06F16/33(20190101);G06F16/332(20190101);G06F16/35(20190101);G06F16/36(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构21235 大连智高专利事务所(特殊普通合伙);

  • 代理人马庆朝

  • 地址 116600 辽宁省大连市经济技术开发区辽河西路18号

  • 入库时间 2023-06-19 10:02:03

说明书

技术领域

本发明属于基于人工智能问答领域,尤其涉及一种辽代历史文化领域知识图谱的构建方法和一种基于辽代历史文化领域知识图谱的智能问答系统的构建方法。

背景技术

辽朝是以我国古代北方少数民族之一契丹贵族为主建立起来的边疆王朝。在辽朝的统治时期内,不同族群之间的文化相互交融碰撞,使得辽朝的政治、经济、思想、文化等都充斥着多元化的色彩。与此同时,辽朝的建立推动了中国历史发展的进程,促进了民族融合,并且有不少的科学文明沿用至今。随着互联网时代大数据的到来,越来越多的历史文化知识通过各个百科平台、历史文化等网站展现出来。如何从海量的数据中提取出用户需要的知识,成为当前分析的关键问题。知识图谱技术可以将海量冗余的数据系统的抽取为结构化知识,并且广泛应用于智能搜索、问答系统、推荐系统等实际中。

知识图谱技术于2012年由Google提出,其初衷是为提高搜索引擎的检索能力,为用户提供高质量的搜索体验。知识图谱本质上是一张语义网,它将庞大零散的知识合理的整理到一起。知识图谱与问答系统的结合可以让用户直观的了解该领域的相关知识。当前市面上存在大规模通用领域知识库,如Freebase、Wikidata、DBpedia等成为知识图谱数据的主要来源。然而关于辽代历史的数据相对较少,基于辽代历史垂直领域的知识图谱更是少之又少。因此,构建了一种基于知识图谱的辽代历史文化领域的智能问答系统对于历史研究者有重要意义。

发明内容

本发明要解决的技术问题是提供一种基于知识图谱的辽代历史文化智能问答方法,该方法能够以知识图谱形式存储和表现辽代历史文化知识;能够以自然语言形式的问句输入,从知识库中检索相应答案,并以自然语言返回给用户。为用户获取知识提供便捷性,使其更精确、快速的获取需要的信息。技术方案如下:

一种辽代历史文化领域知识图谱的构建方法,步骤如下:

步骤1:根据实体所属类别进行图谱设计;

步骤2:根据图谱设计获取相应数据;

步骤3:对原始语料进行处理;

步骤4:对处理后的原始语料进行命名实体识别和关系抽取;

步骤5:构建知识图谱。

进一步的,针对步骤1,所述实体类别包括:中文名、别称、都城、历史人物、语言、民族、军事部署、施行制度、艺术形式、科技、外交往来、服饰、发饰、商业往来、人口数量、宗教、民俗、建筑,每个实体类别下包含若干个实体;针对步骤2,根据图谱设计,通过网络爬虫从百科网站、相关书籍、历史网站获取相关的结构化数据、半结构化数据、非结构化数据。

进一步的,针对步骤3,使用jieba分词工具对数据进行分词和词性标注,并去除标点符号和停用词。

进一步的,针对步骤4,对于获取的半结构化数据进行整体后保存,使用深度学习方法对非结构化数据进行实体识别和关系抽取,然后将获取的数据进行知识融合。

进一步的,针对步骤5中将步骤4中整理好的数据,使用Neo4j进行存储。

本发明还包括一种基于辽代历史文化领域知识图谱的智能问答系统的构建方法,步骤如下:

步骤1:对用户输入的自然语言问句进行命名实体识别;

步骤2:对问句进行问句意图识别;

步骤3:知识库答案检索,返回答案;

步骤4:构造问答库;

步骤5:对问答库进行深度语义匹配,生成返回答案。

进一步的,针对步骤1,对用户输入的问句进行预处理后,通过深度学习的方法来进行实体识别。

进一步的,针对步骤2,通过textCNN卷积神经网络识别问句意图。

进一步的,针对步骤3,将步骤1中得到的实体和步骤2中得到的关系或属性用cypher语句构建查询语句,用于Neo4j图数据库中进行答案的查找。

进一步的,针对步骤4,若步骤3中未查询到对应三元组则通过爬虫方法爬取相关问答网站及论坛,对用一问题的答案筛选出点赞数量排名前2的、回答时间较早的答案存储到问答库中;针对步骤5,在问答库使用孪生网络进行深度语义匹配,进而构造答案。

有益效果:

本发明所述的辽代历史文化领域知识图谱及其智能问答系统的构建方法通过构建辽代历史文化知识图谱可将散乱的知识有效整合,便于将其广泛应用于各个行业促进相关文化信息的传播;辽代历史文化智能问答系统的构建是将知识图谱落实于实际应用中的探索,这一实践有利于提高用户对该领域知识的检索效率。

附图说明

图1为本发明整体结构图;

图2为本发明智能问答系统流程图;

图3为本发明中命名实体识别BiLSTM-CRF网络结构图;

图4为本发明中问句意图识别TextCNN网络结构图;

图5为本发明中孪生LSTM-MatchPyramid模型结构图;

图6为本发明中数据库可视化效果图1;

图7为本发明中数据库可视化效果图2;

图8为本发明中网页可视化效果图。

具体实施方式

下面将参照附图更详细地描述本发明一种基于知识图谱的辽代历史文化智能问答系统构建方法的具体操作步骤。

以下描述的实施例仅作为本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

本发明主要包括两个模块的构建:

模块一:辽代历史文化领域知识图谱的构建;

模块二:智能问答系统的构建;

对于模块一,提供了一个辽代历史文化领域知识图谱的构建方法,其整体结构如图1所示。根据需求,设计辽代历史文化知识图谱。并通过网络爬虫技术获得数据,对相应数据采取一定方法进行处理及抽取后将其存入Neo4j图数据库中。下面将详细介绍每一步骤。

步骤1:图谱设计

该步骤为构建相应领域图谱最为关键的一步。经过对辽代历史文化的了解及分析,本发明对该领域图谱的实体类别进行设计,分别包括:中文名、别称、都城、历史人物、语言、民族、军事部署、施行制度、艺术形式、科技、外交往来、服饰、发饰、商业往来、人口数量、宗教、民俗、建筑、领地划分、丧葬禁忌,其中每类实体类别中包含着多个实体。由于历史类结构化数据较少,本发明中使用的语料大多来自于网络文章及史料书籍。事先人工定义实体类型难以保证全面覆盖。因此对网络文章的标题和史料书籍的目录进行概括后作为实体类别。根据历史特点对每个实体定义了相应的属性信息以表示其内在含义。在历史人物中设置了字、号、谥号还有官职、爵位等人物特点的属性。定义关系来刻画每个实体和实体或属性之间的联系,如历史人物和民族之间可以创建三元组(耶律阿保机,民族,契丹族)。

步骤2:获取相应数据

根据图谱设计,使用爬虫技术爬取百度百科、历史网站等结构化数据、半结构化数据和辽史教材、网络文章等非结构化数据。

步骤3:对原始语料进行处理

将获取的原始语料进行去停用词、删除特殊符号和重复词等处理,并且利用jieba分词工具及根据辽代文化特点制定的自定义词典对收集到的数据进行分词。根据辽代少数民族起名习惯等规则,使用正则表达式保留停用词前后最长字符,经人工筛选后存入自定义词典。如“耶律突吕不和耶律鲁不古创制文字”在未使用自定义词典时的分词结果是“耶律突吕/不和/耶律鲁不古/创制/文字”,将耶律突吕不加入词典后的分词结果为“耶律突吕不/和/耶律鲁不古/创制/文字”。若非结构化语料中存在繁体字,则使用百度文字提取工具将繁体字提取出来,再使用word完成繁体字的转化。然后对分词后的数据进行人工筛选,确保其准确性后执行步骤4。

步骤4:命名实体识别和关系抽取

将步骤3中处理好的数据分别进行处理。对结构化数据进行整理保存,半结构化数据进行人工抽取,非结构化数据进行语料标注后对其采用深度学习模型ALBERT-BiLSTM-CRF进行抽取。

步骤5:构建知识图谱

将步骤4中的数据使用cypher语句导入到Neo4j图数据库中。

对于模块二,提供了一种基于辽代历史文化领域知识图谱的智能问答系统的构建方法,包括如下步骤:

步骤1:对用户输入的自然语言问句进行命名实体识别

首先对用户输入的问句进行预处理后,将其训练为词向量。然后通过BiLSTM-CRF模型进行实体识别。

步骤2:问句意图识别

将对问句意图的识别转化为关系分类问题,抽取出的问句的关系即为三元组中的实体或属性。通常情况下,问句一般为单跳问题,单跳问题大都以短文本形式存在,因此本项目采用TextCNN对问句进行分类。

步骤3:知识库答案检索,返回答案

对步骤1和步骤2中获取的实体和关系,使用cypher语言在Neo4j图数据库中进行查询,找到对应的实体或属性值后构建答案返回。若在未查询到知识库中的数据,将执行步骤4。

步骤4:构造问答库

对相关问答网站及专业领域论坛爬取时,筛选出正确率高的问答对进行预处理后作为问答库。

步骤5:对步骤4的问答库进行深度语义匹配,生成返回答案

未查询到答案时,对构造的问答库使用孪生网络及交互矩阵对问答库进行深度语义匹配,将得分最高的回答返回给用户。

实施例2

由图1所示,一种辽代历史文化领域的知识图谱问答系统构建方法主要从五个方面进行构建。

步骤1:辽代历史文化图谱的设计;

步骤2:辽代历史文化领域的数据获取;

步骤3:对该领域数据进行知识抽取及融合;

步骤4:构建知识图谱;

步骤5:实现辽代历史文化领域知识的问答系统;

下面将详细介绍每一步骤:

步骤1:根据对辽代历史信息的系统分析,从百科类网站、相关历史网站入手,确定知识图谱中的实体类别,实体关系及实体属性。如定义历史人物类,该类别实体中包含历代帝王和在该朝代有名的各领域人物。将每个人的生平事迹作为描述该实体的属性,建立相应关系用以反映历代人物类实体与其他实体的联系。

步骤2:通过对各大网站进行爬取后获得的数据来源主要分为三类:结构化数据、半结构化数据、非结构化数据。

步骤3:分别对不同存储形式的数据进行抽取及融合。

对于结构化数据,获取后将其保存到列表中。

对于半结构化数据,对百科类网站和历史网站的网页结构进行xpath解析,使用scrapy爬虫框架抓取网页相应的知识。

对于非结构化数据,爬取的网络文章、辽史教材为大段的文本数据。因此需要对其进行命名实体识别抽取所需实体。本项目中采用联合学习模型ALBERT-BiLSTM-CRF抽取特定领域的实体。主要步骤如下:

步骤⑴:使用jieba分词工具和自定义词典对收集的数据进行分词、去停用词等;将未正确分词的结果分词后添加到自定义词典中。

步骤⑵:使用构建的语料进行预训练,采用的标记数据格式为BIO标注模式,将每个元素标记为其中之一形式(“B-XX”,“I-XX”,“O-XX”)。其中B表示开始,XX表示定义的元素类别;I表示中间;O表示其他,用于标记无关字符。

步骤⑶:本模型使用预训练模型BERT生成关于上下文信息的词向量,将训练出的词向量作为BiLSTM层的输入,获取每个单词的前后语义关系,最后送入CRF层以进一步保证序列标注的准确性。

步骤⑷:将抽取的实体和关系进行链接、融合。

步骤4:将三元组存入Neo4j图数据库。

步骤5:如图2所示,辽代历史文化领域智能问答系统的构建步骤包括:

步骤[1]:对自然语言问句进行命名实体识别;

步骤[2]:问句意图识别;

步骤[3]:知识库答案检索,返回答案;

步骤[4]:构造问答库;

步骤[5]:对问答库进行深度语义匹配,生成返回答案;

步骤[1]:对问句进行实体识别时,使用的是BiLSTM-CRF模型,首先对问句进行分词、去停用词等数据处理操作后,利用词嵌入技术将其作为该实体识别模型中BiLSTM层的输入。本项目使用word2vec工具的Skip-gram模型训练进行训练。模型如图3所示。

模型训练描述如下:

1)嵌入层:在进行实体识别之前需先进行词向量预训练,为embedding层提供依据。本项目采用基于词向量的训练。首先将输入的问句用jieba分词工具进行分词和去停用词后,使用gensim中的word2vec工具进行词向量的预训练,词向量的维度设置为300维,窗口大小设置为5。

2)BiLSTM层:由前向LSTM与后向LSTM组合而成的双向LSTM模型可以有效解决长期依赖的问题,更好的捕捉双向的语义信息。LSTM模型中的隐藏层由遗忘门f

3)CRF层:条件随机场是一个序列标注模型,它接收BiLSTM层输出的标签分值后训练CRF模型,可得到相应的概率分布及权重值。通过CRF层对输出序列的约束,能够很好的避免BiLSTM层输出的错误信息。

步骤[2]:问句的意图就是三元组中的关系或者属性,因此对问句意图的识别,即为识别三元组中第二个元素。根据分析,用户输入的问句通常是以短文本形式存在的,所以本项目将问问句意图的识别当作短文本分类问题进行解决。通常短文本信息结构组成较少,问句意图可通过局部特征来决定。因此利用卷积神经网络对问句进行分类。模型如图4所示。

模型训练描述如下:

a)嵌入层:使用word2vec工具的Skip-gram训练词向量作为嵌入层的输入。

句子矩阵为d*h,其中d为词向量的维度,h为句子的长度。

b)卷积层:在TextCNN模型中,有卷积核大小为(2,3,4)的一维卷积层,用于提取不同的文本特征。卷积后得到的卷积后得到的特征为

C

其中,f为激活函数,w为h×k维的权重矩阵,h表示窗口中的单词数,x

c)池化层:本项目使用max-pooling保留feature map中最重要的特征,将其变为一维向量。这一操作起到了降维的效果,并且减少了参数数量和计算量,有利于降低过拟合的风险。

d)全连接层:将池化层的结果拼接后作为全连接层的输入,加入隐含层和softmax层,充当分类器,对问句进行分类。

步骤[3]:知识图谱中三元组格式为(头实体,关系,尾实体)或者(实体,属性,属性值)。其中头实体是根据步骤[1]中命名实体识别获得,关系或者属性是根据步骤[2]中问句意图识别获得。已知这两个元素,就可以通过cypher语言在Neo4j图数据库中查找其对应的尾实体或属性值,然后将答案返回。若没有该三元组的即没有检索到答案,则执行步骤[4]。

部分cypher语句如下:

1.描述历史人物与民族:Match(p:Person)-[r:Relation]->(m:Nation)wherep.name=$name returnp.name,r.name,m.name

2.查询历史人物别称:Match(p:Person)where p.name=$name return p.name,p.Pname

未经可视化的问答结果如下:

a.用户输入:辽代的开国皇帝是谁?

辽史百科:耶律阿保机

b.用户输入:大辽王朝有了解的吗?

辽史百科:辽朝(公元907年-1125年)是中国历史上由契丹族在中国北方地区建立的封建王朝。公元916年,辽太祖耶律阿保机统一契丹各部称汗,国号"契丹",定都临潢府(今内蒙古赤峰市巴林左旗南波罗城)。公元947年,辽太宗率军南下中原,攻灭五代后晋,改国号为"辽",1066年改为"大辽"。公元1125年,辽朝被金朝所灭。辽朝全盛时期疆域东到日本海,西至阿尔泰山,北到额尔古纳河、大兴安岭一带,南到河北省南部的白沟河。契丹本是游牧民族,辽朝皇帝使农牧业共同发展繁荣,建立独特的、比较完整的管理体制。辽朝将重心放在民族发展,开创出两院制的政治体制,并创造契丹文字,保存自己的文化。

c.用户输入:辽代的主要民族有哪些?

辽史百科:辽代的主要民族有契丹族、奚族、汉族、阻卜、女真、室韦

步骤[4]:采用爬虫技术爬取问答类网站、论坛、历史类网站中的问答页面中的问句、答案、回答时间、点赞数量。再对爬取的数据进行筛选。通常用户在浏览页面时,会对认为对的留言点赞,因此针对一问多答问题,根据回答时间和点赞数量判断,选取出点赞数量排名前3的答案(若点赞数相同,则考虑回答时间早的)存储到文件中。再使用深度学习模型提取出问句主旨作为标题存储。最终的问答库形式为(标题,问句,答案,点赞数)。

步骤[5]:当在知识库中无法检索到相关答案时,采用构建的问答库对用户输入的问句进行检索。检索的过程需要将用户输入的问句与问答库中的问句进行语义匹配。检索问答库时先针对问句意图识别出的关系检索问句库中的标题栏使得其能快速定位到问答库中的具体位置,这一做法有效解决了直接进行问句间语义匹配增加的参数和计算量。然后使用深度学习模型对用户输入问句与问答库中问句的语义相似程度进行建模,因为问答库中存在一问多答情况,若问句间语义相似度相同,则采纳点赞数量高的答案,返回给用户。

模型选择:当前使用深度学习方法对句子对进行语义匹配考虑的因素有:1.两个句子之间语义上的差异,2.两个句子之间的关联性。面对第一个问题,孪生网络可以有效考虑句子的上下文信息,但是会忽略两个句子之间的连接;面对第二个问题,MatchPyramid神经网络更注重两句子之间的关联性。通过将二者结合可以提取更丰富的特征信息,进而避免上述情况的发生。因此采用孪生LSTM与MatchPyramid结合的方法进行文本语义匹配。模型如图5所示。

孪生LSTM-MatchPyramid联合模型主要包括嵌入层、特征提取层、全连接层与输出结果。

(1)嵌入层:先使用jieba分词工具将问句进行分词,再将输入的用户问句与问答库的问句中的词进行word2vec向量初始化后作为输入层的输入。

(2)特征提取层:在孪生LSTM中,两个LSTM模型权重设置一样,再采用池化层获得两个句子的特征信息。在MatchPyramid模型中,构造两个句子间单词级的相似度矩阵,相似度矩阵的维度为M*N,M和N为两句子的长度,该相似度矩阵通过词向量的点乘构成;再使用两层CNN提取特征,其中,第一层卷积核分别算两个句子的特征,第二层卷积核将两个句子进行求和。

(3)全连接层与输出结果:将特征提取完之后,将三个特征进行拼接后输入到全连接网络和交叉熵损失函数对其进行分类后输出结果。该损失函数公式如为

L

其中y

最后经过可视化操作的结果图如图8所示。

应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号