首页> 中国专利> 一种审计制度时序知识图谱的构建方法

一种审计制度时序知识图谱的构建方法

摘要

本发明涉及一种审计制度时序知识图谱的构建方法,包括以下步骤:步骤1、构建审计制度本体;步骤2、提取步骤1所构建的审计制度的本体中的实体知识;步骤3、对步骤2所抽取的审计制度实体知识进行知识融合;步骤4、对步骤3审计制度实体知识融合后的结果进行知识优化;步骤5、依据步骤4审计制度实体知识优化后的结果,构建审计制度知识图谱;步骤6、依据步骤1所构建的审计制度本体,从审计制度库文档中提取实体时序知识;步骤7、构建审计制度时序知识图谱。本发明能够将实体的时序信息融合到实体知识中。

著录项

说明书

技术领域

本发明属于知识图谱技术领域,涉及知识图谱的构建方法,尤其是一种审计制度时序知识图谱的构建方法。

背景技术

知识图谱作为一种新大数据技术,既有可视化的特点,又便于分析实体之前的关系,具有直观、定量、知识发现等诸多优点,其通过实体与边建立起来的知识网络,具有管理和理解海量信息的能力,在梳理知识结构的过程中,同审计工作具有很好的契合,融合知识图谱的技术能有效的加快审计信息化的进程;在当前大数据环境下,知识图谱不仅具有知识表达的优势,同时又在信息检索、智能问答、智能推荐等应用方面发挥着巨大作用,可有效解决审计任务繁重与审计力量不足的矛盾,探索知识图谱技术能够给审计领域带来的变化与发展,也将成为审计领域科学技术深入应用的必然趋势,推动审计工作提质增效。

审计工作的首要职责对国家重大政策落实情况开展审计监督,需要掌握国家政策法律法规;公司内部审计开展过程中,需要依据公司制度规范,审查被审计单位的执行情况。审计工作需面对公司营销、财务、物资、工程、人资等各专业经营管理情况,覆盖面广。在审计项目开展过程中,审计记录、审计底稿、审计报告的编制需要查找定位审计制度依据,特别是历史审计记录的核查时,还需要查找对应的历史审计制度依据,这主要依靠审计人员的工作经验,或者在多个系统、多份制度文件中查询、翻阅才能找到准确的审计制度依据,缺乏信息化手段支撑,工作效率低。

因此,以数字化审计过程中涉及的审计制度依据文档为数据对象,通过自然语言处理技术对审计制度文本进行解析,提取审计制度文本中的关键知识,实现对文档中的制度条款进行标签化分类,自动构建制度条款之间、条款内部、新旧条款之间的关系,从而构建审计制度的时序知识图谱,为便捷、高效的审计依据检索需求提供数据基础。

经检索,发现如下两篇现有技术的专利文献:

1、一种面向税务领域知识图谱的构建方法,其申请号和公开号为:202010238326.3;CN 111428053 A;

发明涉及税务技术领域,所述方法包括:本发明公开了一种面向税务领域知识图谱的构建方法。该构建方法采用自顶向下与自底向上相结合的方式。方法过程如下:首先基于税务专家系统中的税务知识构建税务知识图谱的模式;然后是数据处理,包括税务数据源的选择与获取、数据的清洗等;之后是信息抽取,对处理后的数据根据模式图按照不同的类型进行信息抽取得到;接着是税务知识融合,税务知识图谱中的知识来源不同,存在知识重复、关系冗余等问题需要进行模式匹配、实体对齐等完成知识融合之后存入知识库。最后是知识反馈,利用税务专家系统解决智能税务模型构建中的知识冲突。最终解决了知识图谱与税务场景结合不紧密的问题。

2、一种基于机器学习的领域性审计知识图谱构建方法,其申请号和公开号为:201910585450.4;CN 110334212 A;

发明涉及审计图谱构建领域,所述方法包括:公开了一种基于机器学习的领域性审计知识图谱构建方法,首先通过多种来源获取数据;然后对获取的数据进行预处理;采用实体识别与关系处理模块和专家知识工程模块实现对实体的识别;然后根据实体识别与关系处理模块和专家知识工程模块两个步骤获得的实体,进入自然语言理解模块,利用主题模型,提取特征词;根据自然语言理解模块提取出的特征词,进入特征机器学习模块,根据具体场景调整权重,将特征词进行分类;最后,生成知识图谱。构建的知识图谱可以揭示审计相关主体之间的多维关联;从而提高审计法规及案例的检索及关联比对效率。

上述两个技术方案均未考虑实体的时序知识,无法避免用失效的实体知识去判别实际的应用场景。

发明内容

本发明的目的在于克服现有技术的不足,提出一种审计制度时序知识图谱的构建方法,能够将实体的时序信息融合到实体知识中。

本发明解决其现实问题是采取以下技术方案实现的:

一种审计制度时序知识图谱的构建方法,,包括以下步骤:

步骤1、构建审计制度本体;

步骤2、提取步骤1所构建的审计制度的本体中的实体知识;

步骤3、对步骤2所抽取的审计制度实体知识进行知识融合;

步骤4、对步骤3审计制度实体知识融合后的结果进行知识优化;

步骤5、依据步骤4审计制度实体知识优化后的结果,构建审计制度知识图谱;

步骤6、依据步骤1所构建的审计制度本体,从审计制度库文档中提取实体时序知识;

步骤7、构建审计制度时序知识图谱。

而且,所述步骤1的具体方法为:

采用自顶向下的审计制度本体半自动构建方法和高斯混合模型的聚类算法对制度的实体进行聚类,从而构建审计制度本体。

而且,所述步骤2的具体步骤包括:

(1)在步骤1所构建的审计制度本体的基础上,将审计制度专有的实体知识提取,分为审计制度实体知识抽取和审计制度实体关系抽取两部分;

(2)采用基于BI-LSTM-CRF深度学习模型的审计网络序列标注与规则提取方法的复合技术路线,从大量审计制度文档中抽取审计制度实体知识;

(3)采用Bootstrapping半监督的方法对审计制度实体关系进行抽取。

而且,所述步骤3的具体方法为:

依据步骤2获得的审计制度实体知识,采用基于向量化模型的实体知识融合技术,对抽取后的审计制度身体知识进行知识融合。

而且,所述步骤4的具体方法为:

依据步骤3审计制度实体知识融合后的结果,采用基于模糊理论的知识图谱知识优化的方法,自动对审计制度实体知识进行纠正。

而且,所述步骤5的具体方法为:

依据步骤4审计制度实体知识优化后的结果,将优化后的结果数据导入Neo4j图数据库中,从而构建出审计制度知识图谱。

而且,所述步骤6的具体方法为:

依据步骤1所构建的审计制度本体,采用LSTM深度学习模型分析海量的审计制度库文件,用来捕获制度条款之间的时间交互知识,并通过基于GIN的邻居聚合器判别制度文件的聚合并发的时间交互,从而在大量的审计制度库文档中提取出实体时序知识。

而且,所述步骤7的具体方法为:

在步骤6获得的审计制度实体时序知识的基础上,采用融合卷积神经网络和重启随机游走的实体链接方法,将制度实体的时序知识链接到步骤5审计制度知识图谱中,从而自动构建审计制度时序知识图谱。

本发明的优点和有益效果:

1、本发明在审计制度静态知识图谱构建的基础上,基于LSTM的时序事件抽取模型和基于GIN的邻居聚合模型,抽取出审计制度的时序知识,融合到审计制度知识图谱中,从而构建审计制度的时序知识图谱。采用半监督的方法抽取制度库的实体知识,采用LSTM深度学习模型用来捕获制度条款之间的时间交互知识,并通过基于GIN的邻居聚合器判别制度文件的聚合并发的时间交互,从而建立整体的制度时序知识,融合到审计制度静态知识图谱中。

2、本发明提出了一种基于LSTM的时序事件抽取模型和基于GIN的邻居聚合模型,抽取出审计制度的时序知识,融合到审计制度知识图谱中,从而构建审计制度的时序知识图谱。对比现有的技术方案具有以下优势:采用LSTM深度学习模型分析海量的审计制度库文件,用来捕获制度条款之间的时间交互知识,并通过基于GIN的邻居聚合器判别制度文件的聚合并发的时间交互,建立脉络清晰的审计制度时序知识,并融合到审计制度知识图谱中,使得审计制度知识图谱蕴含制度的时序知识,从而避免用失效的实体知识去判别审计的应用场景,同时在审计历史问题时,能便捷的获取相匹配的历史审计制度依据。

附图说明

图1为本发明的处理流程图。

具体实施方式

以下结合附图对本发明实施例作进一步详述:

一种审计制度时序知识图谱的构建方法,如图1所示,包括以下步骤:

步骤1、构建审计制度本体;

所述步骤1的具体方法为:

采用自顶向下的审计制度本体半自动构建方法和高斯混合模型的聚类算法对制度的实体进行聚类,从而构建审计制度本体。

在本实施例中,审计制度的本体用来描述审计制度的概念和相关知识,实现对审计制度中的实体、实体间关系以及实体属性、实体间时序关系的统一的规范和管理。

步骤2、提取步骤1所构建的审计制度的本体中的实体知识;

所述步骤2的具体步骤包括:

(1)在步骤1所构建的审计制度本体的基础上,将审计制度专有的实体知识提取,分为审计制度实体知识抽取和审计制度实体关系抽取两部分;

(2)采用基于BI-LSTM-CRF深度学习模型的审计网络序列标注与规则提取方法的复合技术路线,从大量审计制度文档中抽取审计制度实体知识;

(3)采用Bootstrapping半监督的方法对审计制度实体关系进行抽取。

步骤3、对步骤2所抽取的审计制度实体知识进行知识融合;

所述步骤3的具体方法为:

依据步骤2获得的审计制度实体知识,采用基于向量化模型的实体知识融合技术,其中包括框架匹配技术、实体对齐技术、冲突检测与消解技术等。对抽取后的审计制度身体知识进行知识融合,提升知识的准确性与一致性,为构建高质量的审计制度知识图谱奠定基础。

步骤4、对步骤3审计制度实体知识融合后的结果进行知识优化;

所述步骤4的具体方法为:

依据步骤3审计制度实体知识融合后的结果,采用基于模糊理论的知识图谱知识优化的方法,自动对审计制度实体知识进行纠正,保障审计制度知识图谱的高质量与可用性。

步骤5、依据步骤4审计制度实体知识优化后的结果,构建审计制度知识图谱;

所述步骤5的具体方法为:

依据步骤4审计制度实体知识优化后的结果,将优化后的结果数据导入Neo4j图数据库中,从而构建出审计制度知识图谱。

在本实施例中,Neo4j中有两种主要的数据类型,节点(Node)和边(Edges),节点可以对应知识图谱中的实体,边对应知识图谱中的实体之间的关系,而且在节点和边上都可以存储属性。

步骤6、依据步骤1所构建的审计制度本体,从审计制度库文档中提取实体时序知识;

所述步骤6的具体方法为:

依据步骤1所构建的审计制度本体,采用LSTM深度学习模型分析海量的审计制度库文件,用来捕获制度条款之间的时间交互知识,并通过基于GIN的邻居聚合器判别制度文件的聚合并发的时间交互,从而在大量的审计制度库文档中提取出实体时序知识。

步骤7、构建审计制度时序知识图谱;

所述步骤7的具体方法为:

在步骤6获得的审计制度实体时序知识的基础上,采用融合卷积神经网络和重启随机游走的实体链接方法,将制度实体的时序知识链接到步骤5审计制度知识图谱中,从而自动构建审计制度时序知识图谱。

需要强调的是,本发明所述实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号