首页> 中国专利> 一种基于知识图谱的保险自动问答方法及问答系统

一种基于知识图谱的保险自动问答方法及问答系统

摘要

本发明公开了一种基于知识图谱的保险自动问答方法,其应用于保险自动问答系统,其中步骤依次包括:步骤S1:首先利用爬虫技术采集保险产品的相关信息;步骤S2:对保险实体关系的数据进行标注;步骤S3:利用预训练的词向量文件构建embedding矩阵;步骤S4:制定实体对齐方法基于I‑SPRS相似度;步骤S5:问句理解模型构建;步骤S6:最后答案生成;制定实体对齐方法基于I‑SPRS(Insurance‑Surrounding Property and relation Similarity)相似度,问句理解模型构建,最后答案生成。有益效果是:这样的设计使得在查询数据时可以减少由于传统数据库的约束所带来的影响,使答案更为准确且易于理解,并且也提高问句理解的泛化能力。

著录项

  • 公开/公告号CN112800174A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 广东技术师范大学;

    申请/专利号CN202010826806.1

  • 发明设计人 闫艺婷;肖政宏;马智勇;周健烨;

    申请日2020-08-17

  • 分类号G06F16/33(20190101);G06F16/332(20190101);G06F16/36(20190101);G06Q40/08(20120101);

  • 代理机构44379 佛山市禾才知识产权代理有限公司;

  • 代理人曹振;罗凯欣

  • 地址 510635 广东省广州市天河区中山大道西293号

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本发明涉及人工智能问答技术领域,特别是一种基于知识图谱的保险自动问答方法及问答系统。

背景技术

随着自然语言处理技术的发展,自动问答成了各行各业的趋势。据相关研究表明,自动问答的方式有多种:检索式问答、阅读理解、生成式问答和知识图谱问答。对于保险行业而言,其数据量多而复杂。

知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

发明内容

针对上述缺陷,本发明的目的在于提出一种基于知识图谱的保险自动问答方法及问答系统。该方法集合自然语言处理的方法与知识图谱的技术,首先对语料数据中的主体、客体、时间、地点、金额、保险条款及保险产品特点等进行知识抽取,构建保险知识图谱。再根据现有且成熟的深度学习方法,对输入问句进行分析,结合知识图谱生成答案,进而实现保险领域自动问答,为用户提供服务。

为达此目的,本发明采用以下技术方案:

一种基于知识图谱的保险自动问答方法,其应用于保险自动问答系统,其中步骤依次包括:

步骤S1:首先利用爬虫技术采集保险产品的相关信息;

步骤S2:对保险实体关系的数据进行标注;

步骤S3:利用预训练的词向量文件构建embedding矩阵;

步骤S4:制定实体对齐方法基于I-SPRS相似度;

步骤S5:问句理解模型构建;

步骤S6:最后答案生成。

优选地,上述的基于知识图谱的保险自动问答方法,所述步骤S1具体包括如下内容:利用爬虫技术从中国XX保险、XX险和XXX保险网站采集保险产品的相关信息,保险产品的相关信息包括:保险产品名称、保险产品适用人群性别、保险产品适用人群年龄、保险产品价格、保险产品保障范围、保险产品保障期限和保险产品销售范围。

优选地,上述的基于知识图谱的保险自动问答方法,所述步骤S2具体包括如下内容:保险实体关系的数据标注,使用最常用的BIOES标注规范,实体位置信息主要由三部分组成:{B(实体开始),I(实体内部),E(实体结尾),S(单个实体)};实体关系类型信息:{由预先定义的关系类型进行编码};实体的关系方向:{1(实体1),2(实体2)};其余实体关系不是三元组内的字标签记为“o”; Name-Alias为别名关系,记为NA;Disease-contain代表重疾-包含,记为DC; Disease-belong表示疾病-属于关系,记为DB,采用实体与关系共同标注策略,把知识抽取转为序列标注问题,关系标注类型包括24类,分别是:B-NA-1、 I-NA-1、E-NA-1、S-NA-1、B-NA-2、I-NA-2、E-NA-2、S-NA-2、B-DC-1、I-DC-1、 E-DC-1、S-DC-1、B-DC-2、I-DC-2、E-DC-2、S-DC-2、B-DB-1、I-DB-1、E-DB-1、 S-DB-1、B-DC-2、I-DC-2、E-DC-2、S-DC-2。

优选地,上述的基于知识图谱的保险自动问答方法,所述步骤S3具体包括如下内容:利用实体关系联合抽取模型图,采用腾讯开源高质量中文词向量数据包含800多万中文词汇,用预训练的词向量文件构建embedding矩阵,通过 e(x

优选地,上述的基于知识图谱的保险自动问答方法,还包括步骤S7:设置数据增强方案;所述数据增强方案包括:采用停用词规则即省区不重要的词语部分。

优选地,上述的基于知识图谱的保险自动问答方法,还包括步骤S7:设置数据增强方案;所述数据增强方案包括:采用同义词规则即替换词语保证同义。

优选地,上述的基于知识图谱的保险自动问答方法,利用实体关系联合抽取模型图的步骤还包括如下内容:

Bi-LSTM layer是利用长短忘记网络特性来提取特征,第一步是把生成每个字符的向量表示序列作为Bi-LSTM的输入,第二步是将Bi-LSTM在各时间位置进行拼接,得到一个完整的序列;第三步是将Bi-LSTM每个时间序列上输出的多个概率值,通过softmax分类预测,因为softmax只考虑当前的信息,忽略了上下文;第四步,用CRF进行句子级别的序列标注,CRF的特点是在一个位置上标注时,利用之前标注过的标签,窗口大小的不同决定了逻辑关系;会加入限制标签,排除出现无效情况。

优选地,上述的基于知识图谱的保险自动问答方法,所述提取特征还包括如下步骤:将所述Bi-LSTM每个时间序列上输出的多个概率值,通过softmax 分类预测。

一种保险自动问答系统,其中步骤依次包括:

输入模块:用于接收用户保险问句;

问句实体识别模块:用于建议模型和匹配实体连接;

保险知识图谱模块:用于分析问句,实现保险自动问答功能;

问句关系预测模块:用于抽取问句的特征;

查询模块:问句的特征对传统数据库进行查询;

输出模块:用于回答用户提出的问题。

本发明的有益效果:

制定实体对齐方法基于I-SPRS(Insurance-Surrounding Property andrelation Similarity)相似度,问句理解模型构建,最后答案生成,这样的设计使得在查询数据时可以减少由于传统数据库的约束所带来的影响,使答案更为准确且易于理解,并且也提高问句理解的泛化能力。

附图说明

图1为本发明的系统流程图;

图2为序列标注的标注图;

图3为实体关系联合抽取模型图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

如图1、2、3所示,一种基于知识图谱的保险自动问答方法,其应用于保险自动问答系统,其中步骤依次包括:步骤S1:首先利用爬虫技术采集保险产品的相关信息;步骤S2:对保险实体关系的数据进行标注;步骤S3:利用预训练的词向量文件构建embedding矩阵;步骤S4:制定实体对齐方法基于I-SPRS 相似度;步骤S5:问句理解模型构建;步骤S6:最后答案生成;制定实体对齐方法基于I-SPRS(Insurance-Surrounding Property and relationSimilarity)相似度,问句理解模型构建,最后答案生成,这样的设计使得在查询数据时可以减少由于传统数据库的约束所带来的影响,使答案更为准确且易于理解,并且也提高问句理解的泛化能力。

本发明中的基于知识图谱的保险自动问答方法,其中步骤S1具体包括如下内容:利用爬虫技术从中国XX保险、XX险和XXX保险网站采集保险产品的相关信息,保险产品的相关信息包括:保险产品名称、保险产品适用人群性别、保险产品适用人群年龄、保险产品价格、保险产品保障范围、保险产品保障期限和保险产品销售范围。

本发明中的基于知识图谱的保险自动问答方法,其中步骤S2具体包括如下内容:保险实体关系的数据标注,使用最常用的BIOES标注规范,实体位置信息主要由三部分组成:{B(实体开始),I(实体内部),E(实体结尾),S(单个实体)};实体关系类型信息:{由预先定义的关系类型进行编码};实体的关系方向:{1(实体1),2(实体2)};其余实体关系不是三元组内的字标签记为“o”;Name-Alias 为别名关系,记为NA;Disease-contain代表重疾-包含,记为DC;Disease-belong 表示疾病-属于关系,记为DB,采用实体与关系共同标注策略,把知识抽取转为序列标注问题,关系标注类型包括24类,分别是:B-NA-1、I-NA-1、E-NA-1、S-NA-1、B-NA-2、I-NA-2、E-NA-2、S-NA-2、B-DC-1、I-DC-1、E-DC-1、S-DC-1、 B-DC-2、I-DC-2、E-DC-2、S-DC-2、B-DB-1、I-DB-1、E-DB-1、S-DB-1、B-DC-2、 I-DC-2、E-DC-2、S-DC-2;说明书,如图2所示。

本发明中的基于知识图谱的保险自动问答方法,其中步骤S3具体包括如下内容:利用实体关系联合抽取模型图,采用腾讯开源高质量中文词向量数据包含800多万中文词汇,用预训练的词向量文件构建embedding矩阵,通过e(x

本发明中的基于知识图谱的保险自动问答方法,其中还包括步骤S7:设置数据增强方案;数据增强方案包括:采用停用词规则即省区不重要的词语部分,这样的设计使得停用词规则是省略不重要部分,比如:语气助词,只保留关键词,关键词一般主要由名词、形容词、动词、限定性副词等,可以提高泛化能力;停用词规则是省略不重要部分,比如:语气助词(就是、一样、罢了、一般、而已、再说、来着、也好、不成、得了、也罢、着呢)、介词(为了、对于、等到、自从、按照、由于、依据、通过、作为、除了、关于、鉴于、依照、经由、除去、),只保留关键词,关键词一般主要由名词、形容词、动词、限定性副词等。

本发明中的基于知识图谱的保险自动问答方法,其中还包括步骤S7:设置数据增强方案;数据增强方案包括:采用同义词规则即替换词语保证同义,同义词规则:替换词语保证同义,涉及问句分类i问题。当射击问句分类的问题,主要根据表3-1进行模块匹配替换,具体方法是对于每个类别的语料进行随机生成100条,人工校对完成替换。

表3-1数据增强替换词表

本发明中的基于知识图谱的保险自动问答方法,其中利用实体关系联合抽取模型图的步骤还包括如下内容:Bi-LSTM layer是利用长短忘记网络特性来提取特征,第一步是把生成每个字符的向量表示序列作为Bi-LSTM的输入,第二步是将Bi-LSTM在各时间位置进行拼接,得到一个完整的序列;第三步是将 Bi-LSTM每个时间序列上输出的多个概率值,通过softmax分类预测,因为 softmax只考虑当前的信息,忽略了上下文;第四步,用CRF进行句子级别的序列标注,CRF的特点是在一个位置上标注时,利用之前标注过的标签,窗口大小的不同决定了逻辑关系;会加入限制标签,排除出现无效情况。

本发明中的基于知识图谱的保险自动问答方法,其中提取特征还包括如下步骤:将Bi-LSTM每个时间序列上输出的多个概率值,通过softmax分类预测,将生成每个字符的向量表示序列作为Bi-LSTM的输入,再通过Bi-LSTM在各时间位置进行拼接,得到一个完整的序列,将Bi-LSTM每个时间序列上输出的多个概率值,通过softmax分类预测,这样的设计通过Bi-LSTM layer利用长短忘记网络特性来提取特征。

一种保险自动问答系统,其中步骤依次包括:输入模块:用于接收用户保险问句;问句实体识别模块:用于建议模型和匹配实体连接;保险知识图谱模块:用于分析问句,实现保险自动问答功能;问句关系预测模块:用于抽取问句的特征;查询模块:问句的特征对传统数据库进行查询;输出模块:用于回答用户提出的问题。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号