首页> 中国专利> 一种基于交互式图结构的政策文本关系的挖掘与表达方法

一种基于交互式图结构的政策文本关系的挖掘与表达方法

摘要

本发明涉及一种基于交互式图结构的政策文本关系的挖掘与表达方法,采用了自然语言处理与深度学习的方法,对政策文本数据进行分词、主题词提取,并基于知识图谱的展示方式,绘制各个政策之间的相关性;本发明提供的基于交互式图结构的政策文本关系的挖掘与表达方法解析了政策文本数据的潜在相关性,展现了政策文本数据的内在关系。

著录项

  • 公开/公告号CN113064971A

    专利类型发明专利

  • 公开/公告日2021-07-02

    原文格式PDF

  • 申请/专利权人 苏州城方信息技术有限公司;

    申请/专利号CN202110387708.7

  • 发明设计人 张磊;郭丽;陶虹;

    申请日2021-04-12

  • 分类号G06F16/33(20190101);G06F16/338(20190101);G06F16/36(20190101);G06F16/951(20190101);

  • 代理机构11357 北京同辉知识产权代理事务所(普通合伙);

  • 代理人刘洪勋

  • 地址 215000 江苏省苏州市工业园区金鸡湖大道88号人工智能产业园G1-801单元

  • 入库时间 2023-06-19 11:42:32

说明书

技术领域

本发明属于自然语言处理技术及知识图谱领域,具体涉及一种基于深度学习的政策专题词挖掘及主题词联想的基于交互式图结构的政策文本关系的挖掘与表达方法。

背景技术

当前,各级政府、各条线部门制定了诸多的政策,这些政策文本之间可能存在内化的相关性,如:不同层级的政府部门对于某特定事件、某特定政策对象颁布的一系列政策,这一系列政策之间可能存在着某种极强的相关性。这种隐藏在政策之间的相关性无法通过阅读和理解知悉。因此,需要采用一种基于政策文本关系挖掘的交互式表达来展现政策文本的内在关系。

为了提取政策文本中的关键信息并体现政策文本之间的相关性,需要提供一种基于自然语言处理的政策关键信息提取方法,并基于知识图谱的展示方式,绘制各个政策之间的相关性。

发明内容

为解决上述技术问题,本发明的目的是提供一种基于交互式图结构的政策文本关系的挖掘与表达方法。

本发明的基于交互式图结构的政策文本关系的挖掘与表达方法,包括以下步骤:

S1、利用网络爬虫技术获取政府发布的文本数据,并从中提取出政策文本;

S2、对所述步骤S1中提取出的政策文本进行各个政策专题的模糊搜索,对搜索出的目标政治文本标注上对应的政策专题;

S3、利用自然语言处理并提取各个政策专题相对应的目标政策文本中的目标主题词和/或目标主题短语,在目标主题词和/或目标主题短语上标注上相对应的目标政策文本,并将目标主题词和/或目标主题短语作为节点代表交互式图结构中的实体;

S4、如果有两个或者两个以上的实体出现在同一个目标政策文本中,则代表这两个或者两个以上的实体相关,并以实体关系代表实体之间的相关;

S5、通过交互式图结构展示目标政策文本的关联性,交互式图结构包括三个相互联动的模块:目标政策文本、实体和实体关系,交互式图结构用于联动性地展示目标政策文本、实体和实体关系。

在本发明提供的具体实施例中,所述步骤S1中政府发布的文本包括国家、省、市和地级政府发布在政府信息公开栏中的文本数据。

在本发明提供的具体实施例中,可以通过所述步骤S2输出各个政策专题下的政策文本列表。

在本发明提供的具体实施例中,所述步骤S3中的节点是在每一个所述目标政策文本中提取出的与其相对应的政策专题关联性强并且频次高的目标主题词和/目标主题短语。

在本发明提供的具体实施例中,所述步骤S3中利用自然语言处理并提取各个政策专题相对应的目标政策文本中的目标主题词和/或目标主题短语后,设置阈值用于删除和过滤掉较长的目标主题词和/或目标主题短语。

在本发明提供的具体实施例中,所述步骤S5中的交互式图结构可以联动性地展示与目标政策文本相关的实体及实体间的关系,实体关系的动态图可以展现各个政策专题下所有目标政策文本下的所有实体及实体关系,实体间的关系可以联动性地展示与该实体相关的目标政策列表。

在本发明提供的具体实施例中,所述步骤S5中的政策文本交互式图结构将各个政策专题下的实体及实体关系的图结构元素动态性地展示在交互式图结构的中间位置。

在本发明提供的具体实施例中,所述步骤S5中的政策文本交互式图结构的一侧展示各个政策专题,以时间流的方式倒序性地展示各个政策专题,当选择一侧政策专题时,政策文本交互式图结构上与政策专题无关的实体将会被虚化。

在本发明提供的具体实施例中,所述步骤S5中的政策文本交互式图结构的另一侧展示实体的相关性,用户点击关注某一实体后,交互式图结构的另一侧会出现和该实体相匹配的其他实体,点击相应的实体关系,会为用户展现该关键词对出现的目标政策文本,使用户可以快速的根据想要查找的关键词对找到相应的目标政策文本。

借由上述方案,本发明至少具有以下优点:

本发明提供了一种基于自然语言处理的政策关键信息提取方法,并基于知识图谱的展示方式,绘制各个政策之间的相关性。

首先,需要对政策信息按专题进行数据归类,其次,还需要对各政策专题下的政策信息进行政策专题词、主题短语的提取和标注,同时设置阈值删除过滤掉较长的主题词、主题短语,才能将自然语言处理后输出的主题词、主题短语与政策的关系通过知识图谱的方式进行展示。

交互式图结构在中间位置展现了实体及关系等与图结构相关的元素;交互式图结构的一侧展示在不同政策专题下,以时间流的方式展示政策数据;选择一侧政策文本,图结构中与该政策无关的实体将会被虚化,便于用户观察该政策的主要内容;交互式图结构的另一侧展示实体的相关性,用户点击关注某实体后,交互式图结构的另一侧会出现和该实体相匹配的其他实体,点击相应的实体关系,会为用户展现该关键词对出现的政策,使用户可以快速的根据想要查找的关键词对找到相应的政策,实现精确展示。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明的基于交互式图结构的政策文本关系的挖掘与表达方法中实体及关系等与图谱相关的元素展示在中间位置的交互式图结构;

图2是本发明的基于交互式图结构的政策文本关系的挖掘与表达方法中选择一个政策专题或者目标政策文本,图谱上和该政策无关的实体将会被虚化的交互式图结构。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

自然语言处理(Natural Language Processing,NLP)是一种让计算机能够理解人类语言的技术,而分词技术是NLP的一种基础任务。NLP算法通常以词作为基本单位,将深层次的语法进行语义分析。当建立NLP模型时,一般需要建模人员掌握一定的语言学知识以利于提取合适的特征。而深度学习优秀的泛化能力,能够无监督地基于数据抽取特征,并从训练数据中学习到上下文信息特征,从而提供优质的训练数据,减少对建模人员的语言学要求,使实验者只需要设计神经网络的结构。

交互式图结构,以节点代表图结构中的实体,以边代表实体之间的各种关系。利用可视化的图谱形象地展示通过数据挖掘而获得的复杂的知识领域。

政策文本关系的挖掘正是采用了自然语言处理与深度学习的方法,对政策文本数据进行分词、主题词提取,并基于知识图谱的展示方式,绘制各个政策之间的相关性。本发明通过算法改进,解析了政策文本数据的潜在相关性,展现了政策文本数据的内在关系。

本发明提供的一种基于交互式图结构的政策文本关系的挖掘与表达方法,一种基于交互式图结构的政策文本关系的挖掘与表达,包括以下步骤:

S1、利用网络爬虫技术获取政府发布的文本数据,并从中提取出政策文本,政府发布的文本包括国家、省、市和地级政府发布在政府信息公开栏中的文本数据;

S2、根据政策的展现需求,明确政策专题,对所述步骤S1中提取出的政策文本进行各个政策专题的模糊搜索,对搜索出的目标政治文本标注上对应的政策专题,输出政策专题及各个政策专题下的政策文本列表;

S3、利用自然语言处理并提取各个政策专题相对应的目标政策文本中的目标主题词和/或目标主题短语,设置目标主题词和/或目标主题短语的阈值,删除过滤掉较长的目标主题词和/或目标主题短语,在目标主题词和/或目标主题短语上标注上相对应的目标政策文本,提取出与政策强关联性、频次高的目标主题词和/或目标主题短语,并将目标主题词和/或目标主题短语作为节点代表交互式图结构中的实体;

S4、如果有两个或者两个以上的实体出现在同一个目标政策文本中,则代表这两个或者两个以上的实体相关,并以实体关系代表实体之间的相关;

S5、通过交互式图结构展示目标政策文本的关联性,交互式图结构包括三个相互联动的模块:目标政策文本、实体和实体关系,交互式图结构用于联动性地展示目标政策文本、实体和实体关系。

实体关系的动态图,可以展现政策专题下所有政策文本下的所有实体及实体关系;实体间的关系,可以联动性地展示与该实体相关的政策列表,政策专题下实体及关系等图结构元素动态性地展示在交互式图结构的中间位置,交互式图结构的一侧展示在不同政策专题下的政策,以时间流的方式倒序性地展示政策标题,选择一侧政策标题,图谱上和该政策无关的实体将会被虚化,便于用户观察该政策的主要内容,交互式图结构的另一侧展示实体的相关性,用户点击关注某实体后,交互式图结构的另一侧会出现和该实体相匹配的其他实体,点击相应的实体关系,会为用户展现该关键词对出现的政策,使用户可以快速的根据想要查找的关键词对找到相应的政策,实现精确展示,该功能已嵌套到政策精准推送平台,为用户提供人性化服务。

本发明提供的基于交互式图结构的政策文本关系的挖掘与表达方法的原理如下:

1、政策文本进行专题归类:根据政策的展现需求,明确政策专题,如明确中小企业政策专题、不同行业的政策专题等,将政策文本中的政策标题、政策内容与各政策专题进行模糊搜索;如根据某一具体政策文本的政策标题、政策内容与中小企业政策专题能通过模糊搜索匹配后,将此政策归类为中小企业政策专题下的政策文本数据,对于能通过模糊搜索确定的政策文本进行专题标注,输出政策专题及各专题下的政策文本列表。

2、政策专题词、主题短语的提取和标注:利用自然语言处理的关键词、关键短语提取方法,进行政策专题词、主题短语的提取和标注,设置政策专题词、主题短语的阈值删除过滤掉较长的主题词、主题短语。

3、交互式图结构中实体、关系的提取:将自然语言处理后输出的各主题词、主题短语与政策进行数据关联,进一步提取出与政策强关联性、频次高的主题词,设定这些主题词为节点,代表图结构中的实体,设定在同一政策文本中出现的实体之间相关,以关系代表实体之间相关。

在本发明提供的具体实施例中,在中小企业政策专题下的50条政策文本记录中,对每一条政策文本采用自然语言处理,从而为每一条政策文本抽取出相应的政策专题词、主题短语。对中小企业专题下所有的主题词、主题短语进行频数统计后,设置阈值为8,筛选词频数高于阈值的主题词、主题短语。依据主题词、主题短语与中小企业专题的关联性,确定该专题图谱下的实体,如:“小微”和/或“工商户”和/或“高新技术”等主题词和/或主题短语。同时,统计各主体在同一政策文本同时出现的频率,如果主体之间在同一政策文本同时出现,则判断该这两个主体之间存在关系。

4、通过交互式图结构展示数据的关联性:图结构具有三个模块,三个模块相互联动,联动性地政策文本与实体及实体间关系;政策文本可以联动性地展示与该文本相关的实体及实体间的关系;实体关系的动态图,可以展现政策专题下所有政策文本下的所有实体及实体关系;实体间的关系,可以联动性地展示与该实体相关的政策列表。

首先,实体及关系等与图谱相关的元素展示在交互式图结构的中间位置,见图1。

在交互式图结构中,用不同类型的图标表示不同属性的主体,用线代表各实体之间的关系。实体的图标将根据实体的词属性进行设计,如:地名、人名等不同属性的实体将采用不同的图标。如果两个实体之间用线进行关联,则代表这两个实体之间在同一个政策文本中出现,也代表这两个实体之间存在关系。

然后,交互式图结构的一侧展示在不同政策专题下,以时间流的方式展示政策数据;选择一个政策专题或者目标政策文本,图谱上和该政策无关的实体将会被虚化,便于用户观察该政策的主要实体及实体间的关系,见图2。

最后,交互式图结构的另一侧展示实体的相关性,用户点击关注某实体后,交互式图结构的另一侧会出现和该实体相匹配的其他实体,点击相应的实体关系,会为用户展现该实体对出现的政策,使用户可以快速的根据想要查找的关键词对找到相应的政策,实现精确展示。

以上仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号