首页> 中国专利> 保险知识图谱的构建方法、装置、计算机设备及存储介质

保险知识图谱的构建方法、装置、计算机设备及存储介质

摘要

本发明公开了一种保险知识图谱的构建方法、装置、计算机设备及存储介质,该方法包括:接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息;基于网址信息和网络爬虫程序分别从第三方保险平台和官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集;根据口碑评分模型从第一数据集中获取每一保险产品的口碑评分;根据本体模型从第一数据集、第二数据集中进行数据抓取以得到保险知识图谱中所有保险产品的销售状态信息、产品属性信息;根据销售状态信息、产品属性信息、口碑评分构建保险知识图谱。本发明基于知识图谱技术,通过该方法不仅准确的对保险产品进行全方位的记录,而且兼顾了时效性和信息的权威性。

著录项

  • 公开/公告号CN112417167A

    专利类型发明专利

  • 公开/公告日2021-02-26

    原文格式PDF

  • 申请/专利权人 中国平安人寿保险股份有限公司;

    申请/专利号CN202011313478.1

  • 发明设计人 陈岳峰;

    申请日2020-11-20

  • 分类号G06F16/36(20190101);G06F40/289(20200101);G06F40/295(20200101);G06F40/30(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06Q40/08(20120101);

  • 代理机构44242 深圳市精英专利事务所;

  • 代理人涂年影

  • 地址 518000 广东省深圳市福田区益田路5033号平安金融中心14、15、16、37、41、44、45、46层

  • 入库时间 2023-06-19 10:02:03

说明书

技术领域

本发明涉及知识图谱技术领域,尤其涉及一种保险知识图谱的构建方法、装置、计算机设备及存储介质。

背景技术

保险行业一直以来都注重将创新思维融入到传统商业模式之中,而知识图谱这项极具潜力的技术早已在保险业内成为炙手可热的话题,但是由于目前相关技术尚不成熟以及技术与业务的契合点尚不明晰等原因,使得目前大多数保险公司或者保险科技初创公司在知识图谱技术上的实践仅仅停留在十分初级的阶段,而且并没有一个从一个保险产品备案到停售,从多个信息来源,完整地对保险产品的属性进行准确的提取和记录并记录其市场口碑的完整方案。

发明内容

针对上述技术问题,本发明实施例提供了一种保险知识图谱的构建方法、装置、计算机设备及存储介质,通过多个信息源的数据的收集,不仅准确的对保险产品进行全方位的记录,而且兼顾了时效性和信息的权威性。

第一方面,本发明实施例提供了一种保险知识图谱的构建方法,其包括:

接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息;

基于所述网址信息和预置的网络爬虫程序分别从所述第三方保险平台和所述官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集;

根据预置的口碑评分模型从所述第一数据集中获取每一保险产品的口碑评分;

根据预置的本体模型从所述第一数据集、所述第二数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息;

根据所述销售状态信息、所述产品属性信息、所述口碑评分构建所述保险知识图谱。

第二方面,本发明实施例提供了一种保险知识图谱的构建装置,其包括:

第一接收单元,用于接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息;

第一获取单元,用于基于所述网址信息和预置的网络爬虫程序分别从所述第三方保险平台和所述官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集;

第二获取单元,用于根据预置的口碑评分模型从所述第一数据集中获取每一保险产品的口碑评分;

第三获取单元,用于根据预置的本体模型从所述第一数据集、所述第二数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息;

构建单元,用于根据所述销售状态信息、所述产品属性信息、所述口碑评分构建所述保险知识图谱。

第三方面,本发明实施例又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的保险知识图谱的构建方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的保险知识图谱的构建方法。

本发明实施例提供了一种保险知识图谱的构建方法、装置、计算机设备及存储介质,该方法包括:接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息;基于所述网址信息和预置的网络爬虫程序分别从所述第三方保险平台和所述官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集;根据预置的口碑评分模型从所述第一数据集中获取每一保险产品的口碑评分;根据预置的本体模型从所述第一数据集、所述第二数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息;根据所述销售状态信息、所述产品属性信息、所述口碑评分构建所述保险知识图谱。通过该方法不仅提高了建立保险知识图谱的效率和准确率,而且构建得到的保险知识图谱兼顾了时效性和信息的权威性,同时展示了保险产品的口碑和销售状态,完整的刻画出一个保险产品的生命周期。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的保险知识图谱的构建方法的流程示意图;

图2为本发明实施例提供的保险知识图谱的构建方法的子流程示意图;

图3为本发明实施例提供的保险知识图谱的构建方法的另一子流程示意图;

图4为本发明实施例提供的保险知识图谱的构建方法的另一子流程示意图;

图5为本发明实施例提供的保险知识图谱的构建方法的另一子流程示意图;

图6为本发明实施例提供的保险知识图谱的构建方法的另一子流程示意图;

图7为本发明实施例提供的保险知识图谱的构建方法的另一流程示意图;

图8为本发明实施例提供的保险知识图谱的构建装置的示意性框图;

图9为本发明实施例提供的保险知识图谱的构建装置的子单元示意性框图;

图10为本发明实施例提供的保险知识图谱的构建装置的另一子单元示意性框图;

图11为本发明实施例提供的保险知识图谱的构建装置的另一子单元示意性框图;

图12为本发明实施例提供的保险知识图谱的构建装置的另一子单元示意性框图;

图13为本发明实施例提供的保险知识图谱的构建装置的另一子单元示意性框图;

图14为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1,图1为本发明实施例提供的保险知识图谱的构建方法的流程示意图。本发明实施例的所述的保险知识图谱的构建方法应用于终端设备中,该方法通过安装于终端设备中的应用软件进行执行。其中,终端设备为具备接入互联网功能的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等设备。

下面对所述的保险知识图谱的构建方法进行详细说明。如图1所示,该方法包括以下步骤S110~S150。

S110、接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息。

接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息。具体的,所述第三方保险平台是指保险公司依托有成熟技术的第三方提供的网站平台进行保险产品的销售平台,所述第三方保险平台可以是提供保险中介和兼业代理行业网站,即由第三方建设的电子商务平台并为多个买方和多个卖方提供信息和交易等服务的电子场所,可对信息流、资金流、物流三个核心流程能够有很好的运转并为企业搭建一个高效的信息交流平台;所述官方备案平台为中国银行保险监督管理委员会的官方平台,市场上任何销售的保险产品都需经过中国银行保险监督管理委员会的备案,而第三方保险平台通常不会销售无亮点的保险产品,通过所述第三方保险平台和所述官方保险平台上进行数据收集,不仅兼顾了构建保险知识图谱所需数据的收集效率,而且提高了构建得到的保险知识图谱的准确性。在本发明实施例中,所述第三方保险平台为多个提供保险中介和兼业代理行业网站。

S120、基于所述网址信息和预置的网络爬虫程序分别从所述第三方保险平台和所述官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集。

基于所述网址信息和预置的网络爬虫程序分别从所述第三方保险平台和所述官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集。具体的,所述网络爬虫程序为沿着链接漫游Web文档集合的程序,所述网络爬虫程序通过给定的一些URL,利用HTTP等标准协议在相应的网页上进行数据爬取。在本发明实施例中,所述网络爬虫程序通过所述第三方保险平台的网址信息进行数据爬取,得到构建所述保险知识图谱的第一数据集,所述第一数据集包括从所述第三方保险平台中爬取的文本和图片,所述第一数据集中的文本中包括有用户对相应的保险产品进行评价的信息、相应保险产品的销售状态信息以及部分属性信息,而所述第一数据集中的图片为所述第三方保险平台对相应的保险产品进行宣传的属性信息;通过所述官方备案平台的网址信息进行数据爬取,得到构建所述保险知识图谱的第二数据集,所述第二数据集包括从所述官方备案平台的网址信息中爬取的保险产品的属性信息以及销售状态信息的文本数据。

S130、根据预置的口碑评分模型从所述第一数据集中获取每一保险产品的口碑评分。

根据预置的口碑评分模型从所述第一数据集中获取每一保险产品的口碑评分。具体的,所述口碑评分模型为用于对所有保险产品的口碑进行评分的模型。所述第一数据集的文本集中包括有用户对相应的保险产品进行评价的文本信息,基于所述保险列表从所述第一数据集中获取每一保险产品的文本信息,然后将该评价的文本信息输入到所述口碑评分模型中便可得到所述该评价的文本信息中相应的保险产品的口碑评分。

在另一实施例中,如图2所示,步骤S130包括子步骤S131和S132。

S131、获取所述第一数据集中每一保险产品的文本并根据预置的文本分类模型对所述第一数据集中每一保险产品的文本进行分类处理,得到所述第一数据集中每一保险产品的多个评价信息。

获取所述第一数据集中每一保险产品的文本并根据预置的文本分类模型对所述第一数据集中每一保险产品的文本进行分类处理,得到所述第一数据集中每一保险产品的多个评价信息。具体的,所述评价信息为用户对相应的保险产品进行评价的类别信息,该类别信息包括正面评价、负面评价以及中性评价。所述第一数据集中每一保险产品的文本中记载了多个用户对某一个保险产品的评价。由于不同用户对同一保险产品的评论不同,且无法形成统一标准,通过所述文本分类模型对所述第一数据集中每一保险产品的文本中不同用户对该保险产品的评价进行分类处理,进而得到所述第一数据集中每一保险产品的多个标准化评价,即所述多个评价信息。在本发明实施例中,所述文本分类模型为基于TextCNN文本分类算法对所述第一数据集中每一保险产品的文本进行分类处理,从而得到所述第一数据集中每一保险产品的多个评价信息。

在另一实施例中,如图3所示,步骤S131包括子步骤S1311~S1314。

S1311、将所述第一数据集中每一保险产品的文本进行分词处理,得到所述第一数据集中每一保险产品的文本中每个词语。

将所述第一数据集中每一保险产品的文本进行分词处理,得到所述第一数据集中每一保险产品的文本中每个词语。具体的,在对所述第一数据集中每一保险产品的文本进行分词的过程中,可采用基于规则、统计、语义或者理解四大类方法进行分词。在本发明实施例中,采用基于统计的分词方法对所述第一数据集中每一保险产品的文本进行分词处理,所述基于统计的分词方法的主要原理为:通过预置的N-gram模型获得所述第一数据集中每一保险产品的文本中字与字相邻出现的概率,然后对所述第一数据集中每一保险产品的文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息,进而完成对所述第一数据集中每一保险产品的文本进行分词,得到所述第一数据集中每一保险产品的文本中每个词语。

S1312、根据预置的词嵌入模型对所述第一数据集中每一保险产品的文本中每个词语进行处理,得到所述第一数据集中每一保险产品的文本的词向量。

根据预置的词嵌入模型对所述第一数据集中每一保险产品的文本中每个词语进行处理,得到所述第一数据集中每一保险产品的文本的词向量。具体的,所述词嵌入模型为用于将所述第一数据集中每一保险产品的文本中每个词语映射成词向量的模型,即所述词嵌入模型用于将所述第一数据集中每一保险产品的文本中每个词语数值化处理,所述词嵌入模型对所述第一数据集中每一保险产品的文本中每个词语进行向量化处理后,以便于后续对所述第一数据集中每一保险产品的文本中每个词语进行卷积处理。

S1313、对所述第一数据集中每一保险产品的文本的词向量依次进行卷积、池化处理,得到所述第一数据集中每一保险产品的文本的特征向量。

对所述第一数据集中每一保险产品的文本的词向量依次进行卷积、池化处理,得到所述第一数据集中每一保险产品的文本的特征向量。具体的,通过将所述第一数据集中每一保险产品的文本的词向量使用一维卷积来进行特征提取,得到所述第一数据集中每一保险产品的文本的浅层次的特征向量,然后该浅层次的特征向量进行最大池化操作,最终得到所述第一数据集中每一保险产品的文本的特征向量。

S1314、将所述第一数据集中每一保险产品的文本的特征向量输入至分类器中进行分类处理,得到所述第一数据集中每一保险产品的多个评价信息。

将所述第一数据集中每一保险产品的文本的特征向量输入至分类器中进行分类处理,得到所述第一数据集中每一保险产品的多个评价信息。在本发明实施例中,所述第一数据集中每一保险产品的文本的特征向量输入至Softmax分类器中,经Softmax分类器进行分类处理,便可得到所述第一数据集中每一保险产品的多个评价信息。

S132、根据所述第一数据集中每一保险产品的多个评价信息获取所述第一数据集中每一保险产品的口碑评分。

根据所述第一数据集中每一保险产品的多个评价信息获取所述第一数据集中每一保险产品的口碑评分。具体的,通过获取所述第一数据集中每一保险产品的多个评价信息后,对该保险产品的多个评价信息进行统计以得到所述第一数据集中每一保险产品的正面评价的次数、负面评价的次数以及中性评价的次数,然后通过预设的口碑计算公式获取所述第一数据集中每一保险产品的口碑评分,其中,所述口碑评分计算公式为:口碑评分P=(a

S140、根据预置的本体模型从所述第一数据集、所述第二数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息。

根据预置的本体模型从所述第一数据集、所述第二数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息。具体的,所述本体模型为用于构建所述保险知识图谱的结构层的模型,由于保险领域中的保险产品的特性相对单一固定,因此可直接使用现有技术中的保险知识图谱的本体,所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息为构建所述保险知识图谱的实体层信息。所述销售状态信息为所述保险知识图谱中每一保险产品进行销售的初始时间信息以及是否已经终止销售信息,所述产品属性信息为所述保险知识图谱中每一保险产品所属的销售公司以及每一保险产品的属性介绍信息。通过所述本体模型从所述第一数据集、所述第二数据集中进行数据抓取,便可得到构建所述保险知识图谱的实体层信息,即所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息。在本发明实施例中,所述本体模型中本体的概念为保险,财产保险、人身保险和责任保险为所述保险的子概念,所述财产保险下层的海上保险、火险、运输险、工程险等险种,所述人身保险下层的人寿险、健康险、意外伤害险等险种,所述责任保险下层的雇主责任险、职业责任险、产品责任险等险种分别作为所述财产保险、所述人身保险、所述责任保险的子概念。

在另一实施例中,如图4所示,步骤S140包括子步骤S141和S142。

S141、根据预置的数据处理模型分别对所述第一数据集、所述第二数据集进行处理以得到结构化数据集。

根据预置的数据处理模型分别对所述第一数据集、所述第二数据集进行处理以得到结构化数据集。所述数据处理模型为用于分别将所述第一数据集、所述第二数据集中的非结构化数据转换成结构化数据的模型。由于所述网络爬虫程序从所述第三方保险平台、所述官方备案保险平台中爬取的数据集为非结构化数据和结构化数据,而非结构化数据为数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,因此需要对所述第一数据集、所述第二数据集中非结构化数据进行处理以使得所述第一数据集、所述第二数据集中所有的数据均为结构化数据。

在另一实施例中,如图5所示,步骤S141包括子步骤S1411和S1412。

S1411、根据预置的文本转换模型分别对所述第一数据集、所述第二数据集中非结构化文本进行文本转换,得到结构化文本。

根据预置的文本转换模型分别对所述第一数据集、所述第二数据集中非结构化文本进行文本转换,得到结构化文本。具体的,所述文本转换模型为用于将所述第一数据集、所述第二数据集中非结构化文本转换成结构化文本的模型,具体的转换过程为:获取所述第一数据集、所述第二数据集中非结构化文本,然后将该非结构化文本转换成半结构化文本,最后将该半结构化文本进行转换,便可得到所述结构化文本。在本发明实施例中,所述半结构化文本为XML格式的文本。

S1412、基于OCR识别技术对所述第一数据集中的图片进行识别处理,得到所述图片中的文字信息。

基于OCR识别技术对所述第一数据集中的图片进行识别处理,得到所述图片中的文字信息。具体的,所述OCR(Optical Character Recognition,光学字符识别)技术为针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。在本发明实施例中,首先对所述图片进行预处理,然后将预处理后的图片输入至预先训练好的卷积神经网络模型中,得到所述图片中的文字信息。

在另一实施例中,如图6所示,步骤S1412包括子步骤S14121、S14122和S14123。

S14121、根据非线性规整化规则将所述图片进行规整化处理,以放大或缩小所述图片。

根据非线性规整化规则将所述图片进行规整化处理,以放大或缩小所述图片。具体的,所述非线性规整化规则在保持所述图片的整体形状不变的前提下,对所述图片的大小进行改变,能较大程度的保持所述图片中的字符的原样,失真度小。其转换公式为:

其中,W表示的是字符的原始宽度,H表示的是字符的原始高度,W‘表示的是字符经规整化后的宽度,H‘表示的是字符经规整化后的高度,m表示的是字符的宽度的转化比率,n表示的是字符的高度的转化比率。

假设所述图片中的字符点坐标为(x,y),则点坐标对应的线性规整化计算公式为:

其中,(x,y)表示的是字符的原始点坐标,(x′,y′)表示的是字符经规整化后的原始点坐标,m表示的是字符的宽度的转化比率,n表示的是字符的高度的转化比率。

S14122、根据所述字符的分段插值处理规则将规整化处理后的图片进行插值处理以生成预处理后的图片。

根据所述字符的分段插值处理规则将规整化处理后的图片进行插值处理以生成预处理后的图片。具体的,所述字符的分段插值处理规则依据特定函数来对规整化处理后的所述图片中的字符进行分段插值处理。利用分段线性插值构造函数来模拟字符的轨迹,从而图片中文字的识别率。

假设有区间[a,b],区间上存在点x

分段线性插值也叫分段一次插值,在每个子区间[x

其中,x,x

S14123、将所述预处理后的图片输入到预先训练好的卷积神经网络模型中,得到所述图片中的文字信息。

将所述预处理后的图片输入到预先训练好的卷积神经网络模型中,得到所述图片中的文字信息。具体的,所述卷积神经网络模型为预先训练好且用于对含有字符的图片进行文字识别的神经网络模型。所述卷积神经网络模型对所述预处理后的图片分别进行卷积、池化、分类后,便可获取所述图片中的文字信息。

S142、根据所述本体模型从所述结构化数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息。

S150、根据所述销售状态信息、所述产品属性信息、所述口碑评分构建所述保险知识图谱。

根据所述销售状态信息、所述产品属性信息、所述口碑评分构建所述保险知识图谱。具体的,所述销售状态信息、所述产品属性信息既包括从所述第一数据集中进行抓取的数据,也包括从第二数据集中抓取的数据,因此需分别将同一保险产品中分别属于所述第一数据集、所述第二数据集中的销售状态信息、产品属性信息实体对齐技术进行知识融合,得到每一个保险产品融合后的销售状态信息、产品属性信息,最后将每一个保险产品的口碑评分、融合后的销售状态信息、融合后的产品属性信息存储到结构化数据库中,从而得到所述保险知识图谱。

在另一实施例中,如图6所示,步骤S150之后,还包括步骤S161和S162。

S161、若接收到用户输入的查询语句,根据预置的命名实体识别模型获取所述查询语句中具备实体命名的词语。

若接收到用户输入的查询语句,根据预置的命名实体识别模型获取所述查询语句中具备实体命名的词语。具体的,所述命名实体识别模型为用于对所述查询语句中每个词语进行命名实体识别的模型。在接收到所述第二用户输入的查询语句后,通过对所述查询语句进行分词处理,得到所述查询语句中单个词语,然后进行实体命名识别,从而得到所述查询语句中具备实体命名的词语。其中,命名实体识别(NER)为自然语言处理(NLP)中的一种,例如,当所述第二用户输入的查询语句为“我想知道健康险的相关情况”,则该查询语句分词处理后,得到“我”、“想”、“知道”、“健康险”、“的”、“相关”、“情况”,然后将“我”、“想”、“知道”、“健康险”、“的”、“相关”、“情况”七个词语进行实体命名识别,得到该查询语句中具备实体命名的词语为“健康险”。

S162、根据所述查询语句中具备实体命名的词语从所述保险知识图谱中进行实体链接,得到查询结果。

根据所述查询语句中具备实体命名的词语从所述保险知识图谱中进行实体链接,得到查询结果。具体的,通过所述查询语句中具备实体命名的词语便可从所述保险知识图谱中获取多个与所述查询语句中具备实体命名的词语相似的实体,然后对所述查询语句中具备实体命名的词语与多个与所述查询语句中具备实体命名的词语相似的实体进行相似度计算,相似度最高的实体为最接近所述查询语句中具备实体命名的词语,并进行实体链接,便可从所述保险知识图谱中获取所述查询语句相匹配的查询结果。

在本发明实施例所提供的保险知识图谱的构建方法中,通过接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息;基于所述网址信息和预置的网络爬虫程序分别从所述第三方保险平台和所述官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集;根据预置的口碑评分模型从所述第一数据集中获取每一保险产品的口碑评分;根据预置的本体模型从所述第一数据集、所述第二数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息;根据所述销售状态信息、所述产品属性信息、所述口碑评分构建所述保险知识图谱。通过该方法不仅提高了建立保险知识图谱的效率和准确率,而且构建得到的保险知识图谱兼顾了时效性和信息的权威性,同时展示了保险产品的口碑和销售状态,完整的刻画出一个保险产品的生命周期。

本发明实施例还提供了一种保险知识图谱的构建装置100,该装置用于执行前述保险知识图谱的构建方法的任一实施例。具体地,请参阅图8,图8是本发明实施例提供的保险知识图谱的构建装置100的示意性框图。

如图8所示,所述的保险知识图谱的构建装置100,该装置包括第一接收单元110、第一获取单元120、第二获取单元130、第三获取单元140和构建单元150。

第一接收单元110,用于接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息。

第一获取单元120,用于基于所述网址信息和预置的网络爬虫程序分别从所述第三方保险平台和所述官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集。

第二获取单元130,用于根据预置的口碑评分模型从所述第一数据集中获取每一保险产品的口碑评分。

在其他发明实施例中,如图9所示,所述第二获取单元130包括:第一分类单元131和第四获取单元132。

第一分类单元131,用于获取所述第一数据集中每一保险产品的文本并根据预置的文本分类模型对所述第一数据集中每一保险产品的文本进行分类处理,得到所述第一数据集中每一保险产品的多个评价信息。

在其他发明实施例中,如图10所示,所述第一分类单元131包括:分词单元1311、处理单元1312、卷积单元1313和第二分类单元1314。

分词单元1311,用于将所述第一数据集中每一保险产品的文本进行分词处理,得到所述第一数据集中每一保险产品的文本中每个词。

处理单元1312,用于根据预置的词嵌入模型对所述第一数据集中每一保险产品的文本中每个词语进行处理,得到所述第一数据集中每一保险产品的文本的词向量。

卷积单元1313,用于对所述第一数据集中每一保险产品的文本的词向量依次进行卷积、池化处理,得到所述第一数据集中每一保险产品的文本的特征向量。

第二分类单元1314,用于将所述第一数据集中每一保险产品的文本的特征向量输入至分类器中进行分类处理,得到所述第一数据集中每一保险产品的多个评价信息。

第四获取单元132,用于根据所述第一数据集中每一保险产品的多个评价信息获取所述第一数据集中每一保险产品的口碑评分。

第三获取单元140,用于根据预置的本体模型从所述第一数据集、所述第二数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息。

在其他发明实施例中,如图11所示,所述第三获取单元140包括:数据处理单元141和数据抓取单元142。

数据处理单元141,用于根据预置的数据处理模型分别对所述第一数据集、所述第二数据集进行处理以得到结构化数据集。

在其他发明实施例中,如图12所示,所述数据处理单元141包括:转换单元1411和第一识别单元1412。

转换单元1411,用于根据预置的文本转换模型分别对所述第一数据集、所述第二数据集中非结构化文本进行文本转换,得到结构化文本。

第一识别单元1412,用于基于OCR识别技术对所述第一数据集中的图片进行识别处理,得到所述图片中的文字信息。

在其他发明实施例中,如图13所示,所述第一识别单元1412包括:规整化处理单元14121、插值处理单元14122和第二识别单元14123。

规整化处理单元14121,用于根据非线性规整化规则将所述图片进行规整化处理,以放大或缩小所述图片。

插值处理单元14122,用于根据所述字符的分段插值处理规则将规整化处理后的图片进行插值处理以生成预处理后的图片。

第二识别单元14123,用于将所述预处理后的图片输入到预先训练好的卷积神经网络模型中,得到所述图片中的文字信息。

数据抓取单元142,用于根据所述本体模型从所述结构化数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息。

构建单元150,用于根据所述销售状态信息、所述产品属性信息、所述口碑评分构建所述保险知识图谱。

在其他发明实施例中,所述的保险知识图谱的构建装置100还包括:第二接收单元161和第五获取单元162。

第二接收单元161,用于若接收到用户输入的查询语句,根据预置的命名实体识别模型获取所述查询语句中具备实体命名的词语。

第五获取单元162,用于根据所述查询语句中具备实体命名的词语从所述保险知识图谱中进行实体链接,得到查询结果。

本发明实施例所提供的保险知识图谱的构建装置100用于执行上述用于接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息;基于所述网址信息和预置的网络爬虫程序分别从所述第三方保险平台和所述官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集;根据预置的口碑评分模型从所述第一数据集中获取每一保险产品的口碑评分;根据预置的本体模型从所述第一数据集、所述第二数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息;根据所述销售状态信息、所述产品属性信息、所述口碑评分构建所述保险知识图谱。

请参阅图14,图14是本发明实施例提供的计算机设备的示意性框图。

参阅图14,该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行保险知识图谱的构建方法。

该处理器502用于提供计算和控制能力,支撑整个设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行保险知识图谱的构建方法。

该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图14中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的设备500的限定,具体的设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息;基于所述网址信息和预置的网络爬虫程序分别从所述第三方保险平台和所述官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集;根据预置的口碑评分模型从所述第一数据集中获取每一保险产品的口碑评分;根据预置的本体模型从所述第一数据集、所述第二数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息;根据所述销售状态信息、所述产品属性信息、所述口碑评分构建所述保险知识图谱。

本领域技术人员可以理解,图14中示出的设备500的实施例并不构成对设备500具体构成的限定,在其他实施例中,设备500可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,设备500可以仅包括存储器及处理器502,在这样的实施例中,存储器及处理器502的结构及功能与图14所示实施例一致,在此不再赘述。

应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。

在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序5032,其中计算机程序5032被处理器502执行时实现以下步骤:接收用户输入的第三方保险平台的网址信息和官方备案平台的网址信息;基于所述网址信息和预置的网络爬虫程序分别从所述第三方保险平台和所述官方备案平台中获取构建保险知识图谱的第一数据集和第二数据集;根据预置的口碑评分模型从所述第一数据集中获取每一保险产品的口碑评分;根据预置的本体模型从所述第一数据集、所述第二数据集中进行数据抓取以得到所述保险知识图谱中所有保险产品的销售状态信息、产品属性信息;根据所述销售状态信息、所述产品属性信息、所述口碑评分构建所述保险知识图谱。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备500(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号