首页> 中国专利> 一种基于数据联勤服务的政策解读方法

一种基于数据联勤服务的政策解读方法

摘要

一种基于数据联勤服务的政策解读方法,涉及政策解读辅助科学决策技术领域。本发明的方法步骤为:1)元数据管理:把元数据经过数据标准化和规范化后保存到元数据管理系统中;2)数据融合:2.1)数据源管理,2.2)知识抽取,2.3)数据资源体系构建,2.4)应用服务资源构建;3)政策解读。同现有技术相比,本发明让用户的政策解读方式不再单一,而是借助大数据和语义识别等技术完成了数据资源社会化过程的三种形态演进,即“数据整合”“数据融合”和最后的“数据联勤”。构建出可直接服务于社会治理多目标决策的政务解读方案。本方案在传统政策解读的基础上,提供了数据分析支撑、应用分析支撑,使政策解读更科学、更全面。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-02

    授权

    授权

  • 2020-04-03

    实质审查的生效 IPC(主分类):G06F16/36 申请日:20200119

    实质审查的生效

  • 2020-03-10

    公开

    公开

说明书

技术领域

本发明涉及政策解读辅助科学决策技术领域,特别是基于数据联勤服务的政策解读方案。

背景技术

传统的政策解读通常是对当前政策的一个定性的解释与分析。我们的政策解读方案在融合了海量定性和定量数据的基础上对当前政策进行深度剖析。首先我们利用大数据技术广泛采集多元数据,然后对采集上来的半结构化和非结构化数据利用自然语言处理技术进行解构,结合命名识别技术对文档中的命名实体进行识别,建立政务知识图谱,包括政策、解读、批文、机构、地区、时间、关键字、摘要等。对于结构化的业务数据,我们则自动从数据中提取业务含义形成业务数据模型。最后结合知识图谱和业务数据模型来综合辅助政府人员对政策进行深度分析,从而辅助指导后续工作任务的部署。

目前市面上流行的政策解读应用,主要包含下面几方面的功能:

1、政策数据及关系的呈现。对解构出的政策数据以及数据间的关系,用图的方式进行呈现,使用户更易理解政策内容;并可基于知识图谱,以图中的数据为中心,进一步扩展数据关系,帮助用户进行更深层次的分析;

2、政策数据以及关系的筛选。可对政策文档解析出数据及其关系数据,按关联本体、关系和步长等筛选条件进行筛选,满足用户个性化的查询要求;

3、政策相关知识的推荐。根据解构出的政策知识,运用一些机器学习等算法,推荐政策相关的知识,帮助进一步理解政策内容。

上述这些政策解读的应用,主要是对解构出的政策解读内容进行可视化呈现,基于图谱支持用户的进一步分析,并推荐相关的政策知识等。虽然满足了用户基于知识图谱分析解读政策的基本要求,但是缺乏更深层次的分析,因为政策文件的内容,除了解构出的知识外,还包括相关的数据资源,分析应用服务资源等。

现有的基于知识图谱的政策解读,没有把政策相关的各种数据资源进行关联分析,只是把政策相关的解构内容按照图谱的形式进行呈现。虽然政策文档中知识间的关系,也可以清晰的呈现,但是对于知识的前因后果,并没有进行更详细的分析。而在政策解读的应用中,对于政策内容知识间的关系呈现虽然很重要,但是关联各种数据资源对知识的前因后果等的深度分析也同等重要,能够辅助用户更深层地对政策内容进行分析,对政策进行更透彻的理解,从而辅助其更科学的决策。因此现有的政策解读应用的分析内容明显有限。

发明内容

针对上述现有技术中存在的不足,本发明的目的是提供一种基于数据联勤服务的政策解读方法。它基于解构出的政策知识,并与相关的数据资源、应用服务资源等相结合,对政策进行多方位、更深层次的解读。

为了达到上述发明目的,本发明的技术方案以如下方式实现:

一种基于数据联勤服务的政策解读方法,它是在统一元数据管理体系的基础上,构建以元数据为基础的命名实体字典库、以元数据为基础的数据资源体系、以元数据为基础的应用服务资源,以政策知识图谱为中心,与数据资源体系、应用服务资源相结合进行政策分析的政策解读方式。具体方法为:

1)元数据管理:

进行元数据的设计,即把元数据经过数据标准化和规范化后保存到元数据管理系统中;从数据来源和数据实际业务含义两个层面将数据进行融合关联;

2)数据融合:

2.1)数据源管理:

A)数据资源注册:系统通过数据源适配器支持结构化、非结构化和半结构化等多种类型数据源的注册、监控与管理,适配器随数据源的变化进行动态扩展;

B)技术元数据识别:系统自动提取不同数据源中的字典信息,并根据字典中的文字描述自动识别数据资源的技术元数据信息;

2.2)知识抽取:

基于构建好的政务知识体系,将多来源数据分别进行结构化知识抽取和非结构化知识抽取,以“实体-关系”的形式进行融合和存储,从而将政务中业务概念和数据转换为可以形式化关联查询的形式;

A)结构化知识抽取:将数据源管理中的多来源数据抽取、转化为政务知识;

B)非结构化知识抽取:将非结构化政策文档导入系统,并利用自然语言处理技术进行解构,识别出其中的政务领域知识;

2.3)数据资源体系构建:

首先,在数据源管理模块对数据源头进行注册和技术元数据标识;然后,通过数据识别功能将数据资源中蕴含的业务信息,以标准业务元数据的形式进行识别抽取;最后形成可以进行自助式多维查询的融合数据;

2.4)应用服务资源构建:

将已经进行了各自融合的不同类型数据资源进行再次融合,即将政策原文等非结构化数据中的相关关键字进行业务元数据标识,从而将政策描述与实际的定量数据和其它数据分析仪表板挂钩。

3)政策解读:

3.1) 政策解读基础查询:

将与政策文档相关的知识作图谱呈现,并将其它有影响的相关政策以及对当前政策进行解读的相关文档进行推荐展示。

3.2)政策解读高级分析:

系统自动基于政策所涉及的业务元数据,从应用服务资源所提供的联勤数据中推荐相关指标数据、专题分析数据,进行多方位的政策解读。

在上述基于数据联勤服务的政策解读方法中,所述元数据管理包括两个方面,一类是负责监控和衡量业务目标完成与变化情况的业务元数据,包括指标、分组,用来标记数据本身的业务含义;另一类是负责关联数据来源、数据本身组织构成的技术元数据,包括字段的名称、描述信息。

在上述基于数据联勤服务的政策解读方法中,所述技术元数据识别中,对于无法识别出的内容自动提交技术元数据创建审核事件,审核通过后的技术元数据会被自动标记。

在上述基于数据联勤服务的政策解读方法中,所述知识抽取中,知识的存储形态使用了大数据库与图数据库混合型的存储架构,原始数据实例存储在Hive数据仓库中,融合后的业务数据存储在ES中,识别、提取的业务原数据信息存储在图数据库中。

在上述基于数据联勤服务的政策解读方法中,所述知识抽取步骤中的结构化知识抽取步骤是,首先在任务配置中,基于业务元数据标识自动构建数据字段与本体属性的映射关系;经人工审核确认后,系统会基于这一映射关系将结构化数据抽取为实体与实体关系。所述非结构化知识抽取中的解构,是在标准元数据的支持下,结合命名实体识别算法、机器学习算法从非结构化文档中识别命名实体、关键字、摘要、发布机构、发布时间、政策目标的政务领域知识,逐步构建和丰富政务知识图谱内容。

在上述基于数据联勤服务的政策解读方法中,所述数据资源体系构建步骤中,识别抽取出涵盖了关键业务指标、频度、地点、时间、地区的多维度数据模型,支持上层应用服务进行5W3H型的数据查询请求。

在上述基于数据联勤服务的政策解读方法中,所述应用服务资源构建步骤中,不同类型的数据资源进行了各自的融合,包括非结构化的描述性数据在知识图谱中建立了广泛的关系网,涉及政策与政策、政策与解读,政策与机构,政策与目标之间,而结构化的业务定量数据已经在业务模型中融合成了多维的形态。

在上述基于数据联勤服务的政策解读方法中,所述应用服务资源构建步骤中进行的再次融合,建立起政策、目标、指标体系、关键指标、相关指标和指标数据全链路打通的融合数据,使得政务决策转变为基于数据的决策。

在上述基于数据联勤服务的政策解读方法中,所述政策解读步骤中的图谱呈现,涉及政策本身的属性信息包括摘要、关键字、发布机构和发布时间。

在上述基于数据联勤服务的政策解读方法中,所述政策解读高级分析用到的联勤数据,包括政策所涉及的业务指标、规划的目标值、当前该指标的实际值和基于指标变化趋势预测是否有望在规划时间达到目标值。

本发明由于采用上述方法,考虑到了政策资源的多样性、关联性,并利用统一元数据体系将数据进行统一管理,建立以元数据为基础的实体库(实体分为一般实体和命名实体,一般实体仅用于构建图谱的实体关系,命名实体除此之外,还在对政策文档解构时,作为其实体识别的依据)、数据资源体系、应用服务资源;利用自然语言处理技术、命名实体识别技术等对政策内容进行解构,根据命名实体库,进行文档中命名实体识别,建立政策知识图谱,以政务知识图谱为中心,以元数据为桥梁,关联相关的统计分析数据、关联各种的应用分析数据等,为用户提供更全方位、更深层的政策解读内容。同现有技术相比,本发明结合相关资源进行关联分析,在传统单一政策解读的基础上,提供了数据分析支撑、应用分析支撑,使政策解读更更科学、更全面。

下面结合附图和具体实施方式对本发明做进一步说明。

附图说明

图1为本发明的方法流程图;

图2为本发明方法中元数据管理流程图;

图3为本发明方法中数据源管理流程图;

图4为本发明方法中数据资源体系流程图;

图5为本发明方法中应用服务资源流程图;

图6为本发明方法中知识抽取流程图;

图7为图6中结构化知识抽取流程图;

图8为图6中非结构化政策文档抽取流程图;

图9为本发明方法中政策解读流程图;

图10为图9中查询数据资源体系流程图;

图11为图9中查询应用服务资源体系流程图。

具体实施方式

参看图1至图11,本发明一种基于数据联勤服务的政策解读方法,它是在统一元数据管理体系的基础上,构建以元数据为基础的命名实体字典库、以元数据为基础的数据资源体系、以元数据为基础的应用服务资源,以政策知识图谱为中心,与数据资源体系、应用服务资源相结合进行政策分析的政策解读方式;具体方法为:

1)元数据管理:

进行元数据的设计,即把元数据经过数据标准化和规范化后入到元数据管理系统中。元数据管理是数据资源标准化和规范化的基础和核心。通过元数据管理可以建立对数据资源和服务资源进行全面描述的统一元数据体系,把系统中的各类资源纳入统一管理的轨道,实现对资源的有序管理和灵活应用,以此为基础来支持各项业务的有序开展和不断深入扩展。

2)数据融合:

2.1)数据源管理:

A)数据资源注册:通过数据库适配器支持常用的关系型或非关系型数据库注册与管理。为下一步知识抽取,抽取命名实体、一般实体、实体关系做准备。

B)技术元数据识别:系统自动提取不同数据源中的字典信息,根据字典中的文字描述自动识别数据资源的技术元数据信息。对于无法识别出的内容可自动提交技术元数据创建审核事件,审核通过后的技术元数据被自动标记。这种自动化的元数据构建过程可以使数据资源按照统一的标准和规范进行关联,最终使存储的多来源数据可以服务于上层的自助式数据读取和分析应用;

2.2)知识抽取:

知识抽取是基于我们已经构建好的政务知识体系,将多来源数据进一步以“实体-关系”的形式进行融合和存储,从而将政务中业务概念和数据转换为可以形式化关联查询的形式。在知识的存储形态上我们选用了更加便于知识查询检索的图数据库。

A)结构化知识抽取:把数据源管理中注册的结构化数据库中的数据根据字段与本体属性的映射关系抽取到知识图谱中,把结构化数据转换成图知识。抽取任务配置后,进行命名实体、一般实体、实体关系的抽取,其中命名实体可作为非结构化政策文档解构时进行命名实体识别的字典表,用于识别出文档中的命名实体,构建文档跟命名实体的关系。一般实体和实体关系用于政策解读基于图谱的扩展分析。

B)非结构化政策文档抽取:把各种渠道获取的非结构化政策文档,利用自然语言处理技术进行解构,在统一的元数据的支持下,结合命名实体识别算法、机器学习算法抽取非结构化文档中的命名实体、关键字、摘要、发布机构、发布时间、政策目标信息,并建立非结构化数据与结构化数据间的关系,构建政务知识图谱。

2.3)数据资源体系构建:

数据资源体系的构建是实现业务数据融合的重要一步,融合后业务数据可以灵活应对上层自助式的数据查询请求。首先,在数据源管理模块对数据源头进行了注册和技术元数据标识。然后,在通过数据识别功能将数据资源中蕴含的业务信息,以标准业务元数据的形式进行识别抽取,最后形成可以进行自助式多维查询的融合数据。功能本身首先支持用户选取需要识别的数据字段,然后设置识别的业务范围,最后根据配置好的识别任务进行业务知识抽取,抽取为涵盖了关键业务指标、频度、时点、时间、地区等多维度的数据模型,从而可以灵活支持上层应用服务进行5W3H型的数据查询请求;

2.4)应用服务资源构建:

应用服务资源的构建是在顶层进行数据融合的重要环节,再这之前不同类型的数据资源已经进行了各自的融合。比如非结构化的描述性数据在知识图谱中建立了广泛的关系网,包括政策与政策、政策与解读,政策与机构,政策与目标之间等等。而结构化的业务定量数据也已经在业务模型中融合成了多维的形态。

我们需要在最后将这些不同类型的融合数据进行再次融合,建立起政策、目标、指标体系、关键指标、相关指标和指标数据全链路打通的融合数据,使得政务决策逐渐转变为基于数据的决策,可量化、可验证、可回溯。通过业务指标数据随时间的变化来直观呈现政策对当前的影响范围和影响趋势。做到这一点的方式就是我们在应用服务资源的构建环节,将政策原文等非结构化数据中的相关关键字进行业务元数据标识,从而将政策描述与实际的定量数据和其它数据分析仪表板挂钩。基于命名实体字典库,调用命名实体识别算法,对非结构化文档中的命名实体进行提取,构建政策文档和命名实体的关系。因为命名实体和一般实体都是从标准业务元数据中抽取过来的,所以根据命名实体和一般实体都可以关联到相关数据资源和应用服务资源。

3)政策解读:

3.1)政策解读基础查询:

政策解读基础功能就是将政策文档相关的知识图谱作呈现,比如政策本身的属性信息包括摘要、关键字、发布机构、发布时间。还有政策与其它有影响的相关政策,和对当前政策进行解读的相关文档进行推荐展示;

3.2)政策解读高级分析:

政策解读的高级功能就需要用到上面应用服务资源所提供的联勤数据了。比如政策所涉及的业务指标有哪些,规划的目标值是什么,当前该指标的实际值是多少,基于指标变化趋势是否有望在规划时间达到目标值。如果预测无法达到,从地区角度看哪个地区拖了目标值达成的后腿,或者从其它维度进行更多分析。系统会自动基于政策所涉及的业务元数据,推荐相关指标数据、专题分析数据。最终达到多方位的对政策进行解读。

本发明基于数据联勤服务的政策解读方法的核心思路,是借助大数据和语义识别等技术完成了数据资源社会化过程的三种形态演进。首先是“数据整合”形态的数据资源,将多源数据整理、清洗,加载到统一视图,依托共享交换解决数据孤岛问题,做到对现象本质的刻画和描述。然后针对这些整合加工好的多维数据展开关联分析,选取适当融合模式和算法,形成多维模型,完成多元异构数据融合,进而形成“数据融合”形态的数据资源。最后,紧紧抓住数据与数据之间的相关性,让数据顺着体系化问题应对的脉络随时就位,这样的数据体系具有描述复杂问题的能力,我们称之为“数据联勤”形态的数据资源。最后基于“数据联勤”服务我们构建出可直接服务于社会治理多目标决策的政务解读方案。

基于数据联勤的政策解读,是知识图谱的上层应用之一,它是以统一元数据为基础、以政策知识图谱为中心,与数据资源、应用服务资源相结合进行政策分析的政策解读方式。丰富的数据资源,为用户进行政策解读提供更多的科学依据,多样化的应用服务资源,为用户政策解读提供了多方位的理解,能够帮助用户更科学、更全面的进行政策解读。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号