首页> 中国专利> 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置

一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置

摘要

本发明涉及一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置。该方法的步骤包括:运用自然语言处理手段,将对现有业务进行系统整理形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险的节点化和风险节点的关联化,形成风险图谱;根据资讯文本源和指标数据源两个数据来源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险事件证据挖掘和风险指标证据挖掘;将挖掘形成的风险事件证据和风险指标证据自动整理成风险证据报告,以供决策和汇报使用。本发明提出了一套面向风险图谱的关联风险证据高效挖掘与监控方案,拓宽了现有风险监控系统和方法的范围,可进一步推动风险监控的深度。

著录项

  • 公开/公告号CN112668836A

    专利类型发明专利

  • 公开/公告日2021-04-16

    原文格式PDF

  • 申请/专利权人 数据地平线(广州)科技有限公司;

    申请/专利号CN202011439026.8

  • 发明设计人 刘焕勇;刘张宇;邹志龙;

    申请日2020-12-07

  • 分类号G06Q10/06(20120101);G06F16/36(20190101);G06F40/247(20200101);G06F16/35(20190101);G06F40/186(20200101);

  • 代理机构11200 北京君尚知识产权代理有限公司;

  • 代理人邱晓锋

  • 地址 511458 广东省广州市南沙区环市大道中27号1920房

  • 入库时间 2023-06-19 10:38:35

说明书

技术领域

本发明涉及一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置,属于自然语言处理领域,属于一种风险管理和控制可解释方案。

背景技术

风险无处不在,针对已有风险点进行梳理,并尽可能地对所有能够获取到的信息来源实施监控,能够在最短的时间内,实现对风险点的判别和发现。这种风险监测技术,在金融领域、质量管理等领域中,规避技术或投资风险、及时制定风险应对决策等方面具有重要的应用前景。

为了完成以上的风险监控任务,需要:1)由业内专业人士对现有业务进行系统整理,形成的风险体系或具体的风险点集合,用于提供对待监控对象实施分析和考察的角度;2)可供风险监测和分析的数据来源及数据获取技术,以保证风险监控的成立性;3)风险证据的挖掘和分析方法,针对可用的数据源,经过挖掘,形成能够明确标示风险的事件描述片段、关联数据异动情况等在内的风险证据集。4)风险传导与预警技术。针对识别出的风险,通过风险传导推理,进一步地推断出风险后续所引起的级联反应,及时提出预警信息等重要的核心组件。

受限于当前的自然语言处理技术水平,目前在风险监控这一技术的研发和应用的探索上上还存在以下不足:

1、对多源数据风险监控还相对初步。在上述的四个核心组件的技术研究和应用开发上,目前均仍处于初步阶段,目前的方法大多集中于基于关键词的文本风险监控以及数据指标的数值监控。在风险监测数据获取、风险证据挖掘与分析、风险传导与预警技术等方面还较为初步。

2、对风险证据的挖掘和应用还相对空白。风险证据是有效验证风险类别和风险内容的信息来源,包括文本型的事件描述片段、关联数据异动的情况以及事件描述片段和关联数据异动情况两者之间的映射。这个在提高现有监控系统的可解释性和可靠性上具有很大的促进作用。

3、面向文本的监测层次较为初级和小规模。经调研发现,现有的风险监控系统,对于文本类的风险基本只到了篇章级或段落级别,针对风险点实现具体描述的句子进行定位以及针对大规模文本集合,尤其是历时的材料进行分析的系统相对较少,呈现出一种初级和小规模的特点。

发明内容

针对现有技术中存在的现状和问题,本发明的目的在于提出一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置。

本发明的一种面向风险图谱的关联风险证据高效挖掘与监控方法,由风险图谱构建、风险事件证据挖掘、风险指标证据挖掘、风险证据报告生成四个部分组成,该方法的主要步骤包括:

运用自然语言处理手段,将由业内专业人士对现有业务进行系统整理形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险的节点化和风险节点的关联化,形成风险图谱;

分别从资讯文本源和指标数据源两个数据来源两个角度出发,选择历时和实时两个时间域,针对风险节点进行风险事件证据挖掘(事件风险的挖掘)以及风险指标证据挖掘(指标数据异动实证的挖掘);

按照业务需求,设定报告生成时间,定期地将挖掘形成的事件风险和指标数据异动风险证据自动整理成风险证据报告,以供决策和汇报使用。

所述风险图谱,指的是由业内专业人士对现有业务进行系统整理,形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险点的节点化和关联化形成的图谱结构。

所述风险的节点化,指的是将风险整理为一系列动作性的谓词性节点,如“GDP下跌”、“手持订单量下降”等。

所述以层级组织的方式组织,即风险节点层次化,指的是利用层次分组的思想,将具有高度相关性关联的事件分成若干个事件组。例如,将“营业收入”和“毛利率下降”归类为财务指标类事件,“居民消费下降”、“企业投资下降”、“政府购买力下降”、“出口量下降”、“进口量上涨”等归为“GDP增速下降因素”类事件。

所述风险节点的关联化,指的是将一系列谓词性节点之间的关联关系,如上下游传导关系进行组织和标记,通过传导式的组织方式,使得各个风险事件之间形成一个关联网络。例如,针对造船企业的监控中,由“新船成交量下降”、“造船完工量下降”等构成的“行业指标类”事件,与“企业手持船舶订单量”具有方向传导性,因此两个节点之间建立关联关系。

本发明的风险证据挖掘,由风险事件证据挖掘、风险指标证据挖掘两个部分组成,思想在于:分别从资讯文本源和指标数据源两个数据来源两个角度出发,针对风险节点进行事件风险的挖掘以及指标数据异动实证的挖掘。

所述风险事件证据挖掘,其思想在于:针对风险图谱中的风险节点,从后台大规模资讯文本中,进行历时和实时两个角度的事件挖掘处理,输出该风险节点风险的事件描述片段、事件来源文本、关联的文本情绪以及标签集合。

所述风险指标证据挖掘,其思想在于:针对风险图谱中的风险节点,从后台的数据指标库中进行人机互助的指标关联,将节点一对多地与库中的数据指标相联系。如“GDP下降”这一节点,从库中关联出“年度国民生产总值”这一数据指标。设定异动阈值和指标计算公式,从历时和实时两个角度出发,分别输出对应时间的异动信息。

本发明的风险证据报告生成,其思想在于:建立风险监控大屏,从历时和实时两个角度,对风险图谱中的各个风险节点或风险组的事件风险和指标风险进行数字化的监测预警。根据人工定义的时间范围,将收集到的事件风险证据信息和指标风险证据信息,按照给定的风险报告模板进行自动生成。

基于同一发明构思,本发明还提供一种采用上述方法的面向风险图谱的关联风险证据高效挖掘与监控装置,其包括:

风险图谱构建模块,用于运用自然语言处理手段,将对现有业务进行系统整理形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险的节点化和风险节点的关联化,形成风险图谱;

风险事件证据挖掘模块,用于根据资讯文本源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险事件证据挖掘;

风险指标证据挖掘模块,用于根据指标数据源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险指标证据挖掘;

风险证据报告生成模块,用于将挖掘形成的风险事件证据和风险指标证据自动整理成风险证据报告,以供决策和汇报使用。

与现有技术相比,本发明具有以下优点:

1、本发明提出了一套面向风险图谱的关联风险证据高效挖掘与监控装置,进一步拓宽了现有风险监控系统和方法的范围,可进一步推动风险监控的深度。

2、本发明从资讯文本源和指标数据源两个数据来源两个角度出发,选择历时和实时两个时间域,针对风险节点进行了事件风险的挖掘以及指标数据异动实证的挖掘方法,可以为风险监控带来一种全息的效果。

3、本发明提出的事件风险证据挖掘方法,能够最大限度地保证风险图谱运行的性能,可以满足大规模节点和文本的并行计算处理。

4、本发明提出的风险指标证据挖掘,充分利用了指标之间的逻辑关联关系,并可与时间风险形成互动,增强了证据的可靠性和可解释性。

5、本发明提出的风险证据报告生成,利用大屏和报告模板的方式,可以快速、高效地对风险数据进行整合,产出的界面和报告,可以很容易地为报告撰写、日志回查等场景提供帮助。

附图说明

图1为系统构成图。

图2为风险云图构建流程示意图。

图3为风险事件证据挖掘模块构成图。

图4为历时风险事件证据挖掘流程图。

图5为实时风险事件证据挖掘模块流程图。

图6为历时风险指标证据挖掘模块流程图。

图7为实时风险指标证据挖掘模块流程图。

图8为实时风险报告生成模块流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。

如图1所示,本发明包括风险图谱构建模块、风险事件证据挖掘模块、风险指标证据挖掘模块、风险证据报告生成模块四个模块。各个模块的技术流程遵循以下步骤:

一.风险图谱构建

1、风险图谱相关概念的界定

所述风险图谱,指的是由业内专业人士对现有业务进行系统整理,形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险点的节点化和关联化形成的图谱结构。

2、风险图谱的构建

如图2所示,风险图谱的构建主要包括业务专家风险梳理、风险节点化、风险节点层次化、风险事件关联化等几个关键步骤。其中:

所述风险节点化,指的是将风险整理为一系列动作性的谓词性节点,如“GDP下跌”、“手持订单量下降”等。

所述风险节点层次化,指的是利用层次分组的思想,将具有高度相关性关联的事件分成若干个事件组。例如,将“营业收入”和“毛利率下降”归类为财务指标类事件,“居民消费下降”、“企业投资下降”、“政府购买力下降”、“出口量下降”、“进口量上涨”等归为“GDP增速下降因素”类事件。

所述风险节点关联化,指的是将一系列谓词性节点之间的关联关系,如上下游传导关系进行组织和标记,通过传导式的组织方式,使得各个风险事件之间形成一个关联网络。例如,针对造船企业的监控中,由“新船成交量下降”、“造船完工量下降”等构成的“行业指标类”事件,与“企业手持船舶订单量”具有方向传导性,因此两个节点之间建立关联关系。

二.风险事件证据挖掘

所述风险事件证据挖掘,其思想在于:针对风险图谱中的风险节点,从后台大规模资讯文本中,进行历时和实时两个角度的事件挖掘处理,输出该风险节点风险的事件描述片段、事件来源文本、关联的文本情绪以及标签集合。如图3所示,从构成上看,分为历时风险事件证据挖掘和实时风险事件证据挖掘两个组成部分。

1、历时风险事件证据挖掘

所述历时风险事件证据挖掘,其思想在于针对网络公开文本以及用户自有文本数据形成的文本材料库,并利用建立索引的方式形成文本索引库。给定事先构建起的风险图谱,通过遍历获取其中的节点,经过节点扩展、节点搜索、候选事件句获取、事件句过滤、事件句聚类以及事件关键性判定等方式,联合事件关联信息,形成风险事件证据库。如图4所示,其中,算法步骤包括:

1)通过采集网络公开文本或接入用户本地自有数据,经过数据清洗等方式,形成文本材料库;

2)利用主流索引数据库,针对文本材料库建立索引,形成文本索引库。其中,为了提高后期搜索扩展的查全率,在建立索引的同时,添加静态同义词表。所述静态同义词表,指的是通用且较稳定的同义词表,如(“开心”,“快乐”)为一对同一词,通过加入该词表,可以对同义不同词的语言单位进行统一索引处理;

3)针对构建好的风险图谱,获取风险图谱中的所有节点集合,遍历所有集合中所有节点,执行步骤4)-10)

4)利用静态同义词表进行事件名称扩展,得到事件扩展列表。所述静态同义词,指用户根据实际业务需求,可自定义设定和动态配置的同义词集合,用以补充静态同义词。所述拓展的思想步骤为:

a)对事件进行分词处理,并根据词性过滤停用词的方式,去除虚词,最终得到事件词列表;

b)针对事件词中的每个词,分别从静态同义词表中找到其同义词集合,针对每个集合,进行排列组合,形成扩展后的事件列表;

5)将事件扩展列表进行查询query构造,在文本索引库中进行节点的短语搜索。将命中的文档记录进行分句处理,包含任意事件列表元素的句子进行保留,形成候选事件句集合;

6)对候选事件句集合中所有候选事件进行二分类,用来判断候选事件是否允以保留,选择二分类的事件成立性规则模型,最终输出候选事件句集合。其中二分类,算法思想在于标注成立和非成立标签,通过提取特征,并设计训练模型,进行训练,最终用于分类。其中:

a)模型选用的特征包括:候选句子的实体数量、候选句子的数量词占比、候选句子的时间分级、候选句子长度、候选句子是否包含因果等。

b)模型训练的方式,采用SVM模型进行分类。

7)针对步骤6)输出的候选事件句集合,使用single-pass聚类算法进行聚类,将同义不同形的事件句进行聚合,形成若干个事件句类,以及事件句类中的句子集合,标记为簇内句子集合,同时将事件句类中的中心事件句作为标准事件句;

8)借助关键性判定规则对步骤7)中输出的标准事件句进行关键性打分,其中关键性判定规则步骤为:

a)对事件句进行分词、词性标注以及实体识别,得到事件句的实体事件句的数量词占比、事件句的时间分级、事件句的词性分布得分;

b)对事件句进行情感强度和主观性强度计算,输出相应的得分;

c)将各项的得分进行相加,得到事件句的关键性得分;

9)将得到的事件相关信息进行组装。组装的信息包括事件句的原文描述、事件句的簇内句子集合、事件句的关键性得分、事件句来源的文档、事件句所在的时间等信息;

10)将组装得到的事件相关信息进行存储,得到最终的事件风险证据。

2、实时风险事件证据挖掘

所述实时风险事件证据挖掘,其思想在于针对网络公开文本,进行实时的文本采集,给定事先构建起的风险图谱,通过遍历获取其中的节点,针对采集到的文本,经过节点扩展、节点搜索、候选事件句获取、事件句过滤、事件句聚类以及事件关键性判定等方式,联合事件关联信息,形成风险事件证据库。如图5所示,该模块算法步骤与历时风险事件证据挖掘步骤略有差异,具体步骤如下:

1)针对网络文本数据源,进行实时的文本采集,并对文本进行清洗等操作,输出资讯文本流。

2)针对构建好的风险图谱,获取风险图谱中的所有节点集合,遍历所有集合中所有节点,执行步骤3)-5)

3)利用静态同义词表进行事件名称扩展,得到事件扩展列表。所述静态同义词,指用户根据实际业务需求,可自定义设定和动态配置的同义词集合,用以补充静态同义词。所述拓展的思想步骤为:

a)对事件进行分词处理,并根据词性过滤停用词的方式,去除虚词,最终得到事件词列表;

b)针对事件词中的每个词,分别从静态同义词表中找到其同义词集合,针对每个集合,进行排列组合,形成扩展后的事件列表;

4)将事件扩展列表,构造模式匹配actree(由模式串集合构建出的状态树,构建方法和AC自动机的构建方法相同),针对实时文本进行模式actree匹配,将包含任一事件扩展列表中元素的事件句进行保留,形成候选事件句;

5)执行历时风险事件证据挖掘步骤6)-10)。

三.风险指标证据挖掘

所述风险指标证据挖掘,其思想在于:针对风险图谱中的风险节点,从后台的数据指标库中进行人机互助的指标关联,将节点一对多地与库中的数据指标相联系。如“GDP下降”这一节点,从库中关联出“年度国民生产总值”这一数据指标。设定异动阈值和指标计算公式,从历时和实时两个角度出发,分别输出对应时间的异动信息。

1、历时风险指标证据挖掘

如图6所示,历时风险指标证据挖掘,其思想在于针对风险图谱,获取其中的图谱风险节点,并借助外部的数据指标库进行数据关联。同时,由风险历时事件证据库获取事件信息,并进行节点对齐、以及时间约束,最终通过对预先设定好的指标变动公式进行解析和数据比对,找出数据变动的具体情况,形成指标数据库。具体算法步骤为:

1)针对给定的风险图谱,获取其中的所有节点信息,形成事件节点列表;

2)借助形成的数据指标库,对事件节点列表中的节点进行数据关联,关联的步骤为:

a)获取数据指标库中的数据指标名称,并建立索引;

b)将事件节点进行分词和词性标注处理,并过滤其中的虚词成分,并重新拼接;

c)将拼接后的事件节点进行数据指标进行模糊搜索,得到top20的数据指标;

d)针对得到的top20数据指标,提取指标中的地点、时间、指标细项,与原先事件节点名称进行相似度计算,进一步得到top5的数据指标集合,作为推荐关联指标结果进行推荐;

e)将推荐后的指标供予人工进行选择,可以选择一个或多个关联指标,完成数据关联;

3)从风险历时事件证据库中,利用事件节点名称,进行事件对齐,查询得到对应的风险事件证据;

4)从风险历时事件证据库中,获取对应的时间点,进行时间约束;

5)将得到的时间约束条件在步骤2)中关联到的数据指标中,查找出对应时间节点的区间数据;

6)借助指标异动计算公式,根据事件名称所标记出的变动方向,解析出指标计算的方式,并进行计算,如对于“GDP环比下降”,该事件的公式即为y(GDP当期)-y(GDP上一期);

7)将计算后的数据变动情况与风险事件证据进行比对,将比对结果进行存储。

2、实时风险指标证据挖掘

实时风险指标挖掘,其思想在于针对风险图谱,获取其中的图谱风险节点,并借助外部的数据指标库进行数据关联。同时,通过对数据指标进行实时监控,形成数据实时指标,最终通过对预先设定好的指标变动公式进行解析和数据比对,找出数据变动的具体情况,形成指标数据库。该模块与历时风险指标证据挖掘存在差异,如图7所示,具体算法步骤为:

1)针对给定的风险图谱,获取其中的所有节点信息,形成事件节点列表;

2)及借助形成的数据指标库,对事件节点列表中的节点进行数据关联,关联的步骤为:

a)获取数据指标库中的数据指标名称,并建立索引;

b)将事件节点进行分词和词性标注处理,并过滤其中的虚词成分,并重新拼接;

c)将拼接后的事件节点进行数据指标进行模糊搜索,得到top20的数据指标;

d)针对得到的top20数据指标,提取指标中的地点、时间、指标细项,与原先事件节点名称进行相似度计算,进一步得到top5的数据指标集合,作为推荐关联指标结果进行推荐。

e)将推荐后的指标供予人工进行选择,可以选择一个或多个关联指标。完成数据关联。

3)针对实时监控得到的实时数据指标,并以当前时间点进行时间约束。

4)将得到的时间约束条件在步骤2)中关联到的数据指标中,查找出当前时间点与上一时间周期之间的区间数据;

5)借助指标异动计算公式,根据事件名称所标记出的变动方向,解析出指标计算的方式,并进行计算,如对于“GDP环比下降”,该事件的公式即为y(GDP当期)-y(GDP上一期。)

6)将计算后的数据变动比对情况,进行结果存储。

四.风险证据报告生成

所述风险证据报告生成,其思想在于:建立风险监控大屏,从历时和实时两个角度,对风险图谱中的各个风险节点或风险组的事件风险和指标风险进行数字化的监测预警。根据人工定义的时间范围,将收集到的事件风险证据信息和指标风险证据信息,按照给定的风险报告模板进行自动生成。如图8所示,其实施步骤为:

1)针对图谱中的每一个节点进行风险证据计算,得到其对应的指标证据集合和事件证据集合。

2)利用原先构建好的风险节点分组信息进行汇总计算,得到每个组的风险证据情况;

3)借助专业业务人员进行风险报告模板设计,包括风险监控的风险点分布、监控的项目、内容构成等;

4)根据指定的报告生成时间,将风险报告模板中所涉及到的风险点具体值进行获取,将具体统计值的计算,内容的选择进行规定,形成风险证据报告。

基于同一发明构思,基于同一发明构思,本发明的另一实施例提供一种采用上述方法的面向风险图谱的关联风险证据高效挖掘与监控装置,其包括:

风险图谱构建模块,用于运用自然语言处理手段,将对现有业务进行系统整理形成的风险体系或具体的风险点集合,以层级组织的方式组织,进行风险的节点化和风险节点的关联化,形成风险图谱;

风险事件证据挖掘模块,用于根据资讯文本源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险事件证据挖掘;

风险指标证据挖掘模块,用于根据指标数据源,选择历时和实时两个时间域,对风险图谱中的风险节点进行风险指标证据挖掘;

风险证据报告生成模块,用于将挖掘形成的风险事件证据和风险指标证据自动整理成风险证据报告,以供决策和汇报使用。

基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。

以上公开的本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号