首页> 中国专利> 一种基于多源数据的信息可信度检测与评价系统

一种基于多源数据的信息可信度检测与评价系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供了一种基于多源数据的信息可信度检测与评价系统，其中，该系统包括：数据采集模块，用于采集与调研任务相关的多源数据；数据处理模块，用于对采集的与调研任务相关的多源数据进行预处理操作，获取其语义特征描述向量以及每个调研问题的属性标签信息；可信度检测与评价模块，用于检测每个调研问题的可信度，并评价被调研对象的整体可信度。本发明在无监督指导信息下挖掘多源数据的潜在结构特性和多样化、特色化的数据属性，从而有效的进行多源调研数据进行信息可信度检测与评估，分析检测每条调研数据的可信度，并评估被调研对象的整体可信度，为相关可信度检测的数据挖掘任务提供强有力的监督与指导。

著录项

公开/公告号CN112836505A

专利类型发明专利
公开/公告日2021-05-25

原文格式PDF
申请/专利权人中国科学院沈阳自动化研究所;
展开▼

申请/专利号CN202110080173.9
发明设计人丛杨;董家华;孙干;
展开▼

申请日2021-01-21
分类号G06F40/284(20200101);G06F40/289(20200101);G06F40/30(20200101);
代理机构21002 沈阳科苑专利商标代理有限公司;
代理人王倩
地址 110016 辽宁省沈阳市沈河区南塔街114号
入库时间 2023-06-19 11:05:16

说明书

技术领域

本发明属于信息可信度检测与评价技术领域，具体说是一种基于多源数据的信息可信度检测与评价系统。

背景技术

现有数据可信度分析系统主要在有部分监督信息的指导下对单一数据源进行异常与否的信息检测。由于真实世界中数据结构的复杂性、数据属性多样化、噪声干扰信息等的影响，导致现有数据可信度分析系统对多源数据可信度检测缺乏鲁棒性。

发明内容

为了解决上述问题，本发明专利提出一种基于多源数据的信息可信度检测与评价系统，该系统可以在无监督指导信息下挖掘多源数据的潜在结构特性和多样化、特色化的数据属性，从而有效的进行多源调研数据进行信息可信度检测与评估，分析检测每条调研数据的可信度，并评估被调研对象的整体可信度，为相关可信度检测的数据挖掘任务提供强有力的监督与指导。

本发明目的是提供一种基于多源数据的信息可信度检测与评价系统，该系统用于对多源调研数据进行信息可信度检测与评估，分析检测每条调研数据的可信度，并评估被调研对象的整体可信度。

本发明为实现上述目的所采用的技术方案是：

一种基于多源数据的信息可信度检测与评价系统，包括：

数据采集模块，用于采集与调研任务相关的多源数据；

数据处理模块，用于对采集的与调研任务相关的多源数据进行预处理，并获取多源数据中的语义特征描述向量以及每个调研任务的属性标签；

可信度检测与评价模块，用于根据语义特征描述向量以及属性标签信息检测每个调研任务的可信度，并评价被调研对象的整体可信度。

所述数据采集模块，包括：

关键词获取单元，用于获取与调研任务相关的关键词；

数据挖掘单元，用于获取调研任务中包含关键词的多源数据信息。

所述数据处理模块，包括：

数据筛选单元，用于对多源数据进行预筛选，以剔除重复、赘余的多源数据，删除与关键词语义无关的多源数据；

文本分词单元，用于对多源数据进行语句分词处理，得到语句分词之后的词汇数据；

特征提取单元，用于提取词汇数据中的特征向量，进而确定该语句的语义特征描述向量。

所述可信度检测与评估模块，包括：

多源数据可信度检测单元，用于检测每条与调研任务相关的多源数据的可信度，并给出可信度检测数值；

被调研对象可信度评估单元，用于评价被调研对象的整体可信度，并给出该调研对象的可信度评估数值。

所述多源数据可信度检测单元，包括：

字典学习单元，用于学习针对不同调研任务的稀疏字典，从多源数据的语义特征描述向量中提取与调研任务相关的多源数据的语义信息，摒弃冗余的、与调研任务无关的多源数据的语义信息；

数据重构单元，用于根据学习的稀疏字典，重构用于调研任务的多源数据的语义特征描述向量；

数据可信度检测单元，用于将重构的语义特征描述向量量化为可信度检测的数值；

所述被调研对象可信度评估单元，包括：

属性层次分析单元，用于对调研任务的多源数据的属性标签通过层次分析法确定所有属性标签的相对重要性权值；

对象可信度评估单元，用于根据每条多源数据的相对重要性权值，对所有多源数据的可信度数值加权平均获得被调研对象的可信度评估数值。

一种基于多源数据的信息可信度检测与评价方法，包括以下步骤：

1)数据采集模块采集与调研任务相关的多源数据；

2)数据处理模块对采集的与调研任务相关的多源数据进行预处理操作，并获取多源数据中的语义特征描述向量以及每个调研任务的属性标签；

3)可信度检测与评价模块根据语义特征描述向量以及属性标签信息检测每个调研任务的可信度，并评价被调研对象的整体可信度。

所述步骤1)，包括以下步骤：

1.1)关键词获取单元获取与调研任务相关的关键词；

1.2)数据挖掘单元获取调研任务中包含关键词的多源数据信息。

所述步骤2)，包括以下步骤：

2.1)数据筛选单元对多源数据进行预筛选，以剔除重复、赘余的多源数据，删除与关键词语义无关的多源数据；

2.2)文本分词单元对多源调研数据进行语句分词处理，得到语句分词之后的词汇数据；

2.3)特征提取单元提取词汇数据中的特征向量，进而确定该语句的语义特征描述向量。

所述步骤3)，包括以下步骤：

3.1)多源数据可信度检测单元检测每条与调研任务相关的多源数据的可信度，并给出可信度检测数值；

3.2)被调研对象可信度评估单元评价被调研对象的整体可信度，并给出该调研对象的可信度评估数值。

所述步骤3.1)、步骤3.2)，包括以下步骤：

3.1.1)字典学习单元学习针对不同调研任务的稀疏字典，从多源数据的语义特征描述向量中提取与调研任务相关的多源数据的语义信息，摒弃冗余的、与调研任务无关的多源数据的语义信息；

3.1.2)数据重构单元基于学习的稀疏字典，重构用于调研任务的多源数据的语义特征描述向量；

3.1.3)数据可信度检测单元将重构的语义特征描述向量量化为可信度检测的数值；

3.2.1)属性层次分析单元对调研任务的多源数据的属性标签通过层次分析法确定所有属性标签的相对重要性权值；

3.2.2)对象可信度评估单元根据每条多源数据的相对重要性权值，对所有多源数据的可信度数值加权平均获得被调研对象的可信度评估数值。

本发明的优点及有益效果是：

1.本发明填补了在无监督信息指导的情况下建立多源数据可信度检测与评估系统的空白，在虚假信息泛滥的大数据时代，它为相关基于可信度检测的多源数据挖掘任务提供强有力的监督与指导。

2.本发明可以在无监督指导信息下挖掘多源数据的潜在结构特性和多样化、特色化的数据属性，从而有效的提升了多源调研数据进行信息可信度检测与评估的性能和鲁棒性，也为其它的大数据驱动的挖掘与评估任务提供借鉴意义。

附图说明

为了更清晰的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图做简单的介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实例的一种基于多源数据的信息可信度检测与评价系统示意图；

图2为本发明实例的一种基于多源数据的信息可信度检测与评价系统中数据采集模块示意图；

图3为本发明实例的一种基于多源数据的信息可信度检测与评价系统中数据处理模块示意图；

图4为本发明实例的一种基于多源数据的信息可信度检测与评价系统中可信度检测与评价模块示意图；

图5为本发明实例的一种基于多源数据的信息可信度检测与评价系统中多源数据可信度检测单元示意图；

图6为本发明实例的一种基于多源数据的信息可信度检测与评价系统中被调研对象可信度评估单元示意图；

图7为本发明实例的一种基于多源数据的信息可信度检测与评价系统的构建方法流程图；

图8为本发明实例的一种基于多源数据的信息可信度检测与评价系统的构建方法中数据采集流程图；

图9为本发明实例的一种基于多源数据的信息可信度检测与评价系统的构建方法中数据处理流程图；

图10为本发明实例的一种基于多源数据的信息可信度检测与评价系统的构建方法中可信度检测与评价流程图；

图11为本发明实例的一种基于多源数据的信息可信度检测与评价系统的构建方法中多源数据可信度检测流程图；

图12为本发明实例的一种基于多源数据的信息可信度检测与评价系统的构建方法中被调研对象可信度评估流程图。

具体实施方式

为使本发明实施例的优势、技术方案和目的更加清楚，下面将结合对企业调研填报的多源数据进行信息可信度检测与评估的实施例中的附图，对本发明实施例中的技术方案进行清晰的陈述，所述的对企业调研填报的多源数据进行信息可信度检测与评估的实施例仅是本发明的一部分实施例，而不是全部实施例。附图中展示的本发明实施例的组件可以以各种不同的组合配置来设计完成。因此，以下在附图中提供的本发明技术方案实施例的详细描述，并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动成果的前提下所获得其它实施例，都属于本发明专利保护的范围之内。

用于相关任务评估的多源调研数据存在大量异常信息与虚假数据，严重影响评估体系的准确性，进而制约数据挖掘对产业模式调整和经济发展增速换挡的监督与指导作用。为了解决这些问题，本发明专利提出一种基于多源数据的信息可信度检测与评价系统，该系统能对用于调研评估的多源数据进行信息可信度检测与评估，分析检测每条调研数据的可信度，并评估被调研对象的整体可信度。

如图1所示，本实施例提供了一种基于多源数据的信息可信度检测与评价系统，所述系统包括：

数据采集模块11：用于采集与调研任务相关的多源文本数据，该多源文本数据指从政府官网、调研问卷、企业互联网的途径获取不同城市中不同企业的文本数据信息；

数据处理模块22：用于对采集的与调研任务相关的多源数据进行预处理操作以消除噪声干扰信息，利用分词技术得到文本语句的词汇数据，获取其语义特征描述向量以及每个调研问题的属性标签信息；

可信度检测与评价模块33：用于检测每个调研问题的可信度，并评价被调研对象的整体可信度，该可信度数值被量化为0和100的之间数值，数值越大表示可信度越高。

其中，相关包括表示被调研对象或者推荐的关键词中的至少一个。

对于上述采集的与企业调研问题相关的多源文本数据，本发明实例对该数据进行预处理操作，获取其文本特征描述向量以及每个调研问题的属性标签信息。其中，预处理操作包括剔除重复、赘余的数据，删除与关键词语义无关的文本表达信息。之后，对文本语句进行分词处理得到对应词汇数据，根据词汇数据的上下文表示，利用词嵌入技术为语句分词获取词嵌入矩阵，对分词特征进行最大池化操作获取该文本语句的特征表示，以进行调研数据的可信度检测与评估任务。所述属性标签信息是指设定的调研问题所属的主要类别，包括后勤保障、经济效益、注册资金、合作伙伴、发展规模、职工待遇、技术领域、工作时间、民意调查、政府政策、创新贡献和人才引进，每个主要类别包括5-10个次级细分的类别。

对于上述从政府官网、调研问卷、企业互联网的途径获取不同城市中不同企业获取的多源文本数据信息，本发明实例提出的数据采集模块11如图2所示，包括：

关键词获取单元111：用于获取与调研评估任务相关的语句关键词，根据获取的关键词，以便从政府官网、调研问卷、企业互联网等途径进行与企业调研评估相关的信息检索；

数据挖掘单元112：用于挖掘调研评估任务中包含关键词的多源数据信息。以关键词为参考，上述信息检索可以通过远程数据访问接口或者网络爬虫的方式获取。一方面可以以政府官网公开数据或者相关网站的开放数据为数据接口获取数据；另一方面可以采用网络爬虫技术，从网站数据中爬取与企业调研相关的数据信息。

为了对上述企业调研的多源数据提取文本特征向量，本发明实例提出通过考虑词汇上下文信息，探索词嵌入矩阵来学习文本语句的语义特征表示。如图3所示，本发明实例提出的数据处理模块22包括：

数据筛选单元221，用于对采集的与企业调研问题相关的多源数据进行预筛选处理，剔除重复、赘余的填报数据，删除与关键词语义无关的文本表达信息；

文本分词单元222，对获取的企业调研的多源数据进行语句分词处理，得到语句分词之后的词汇数据；

特征提取单元223，根据词嵌入技术为文本分词之后的词汇数据提取特征向量，进而确定该文本语句的特征描述向量，该特征描述向量是对应文本语句在特征空间鲁棒性表达。

这里，首先对获取的企业调研的多源数据进行简易筛选处理，对信息量较少(比如少于20词)，重复的文本信息(信息查重)，信息赘余的文本(比如多余5000词)等无关信息进行自动剔除，之后通过分词技术对剩余信息量丰富的文本语句数据进行分词处理，基于词嵌入技术对分词词汇学习词嵌入矩阵，通过词嵌入矩阵获取分词词汇的特征向量，对文本语句的所有分词的特征向量进行最大池化操作，获取当前文本语句的语义特征表示。

对于上述获取的文本语句的语义特征表示，本发明实例提出可信度检测与评价模块33，用于对企业的每个调研问题的可信度检测，和被调研企业整体的可信度分析。如图4所示，本发明实例提出的可信度检测与评估模块33包括：

多源数据可信度检测单元331：用于检测每个调研问题的可信度，并量化为0和100之间的可信度检测数值，该数值越大表示可信度越高；

被调研对象可信度评估单元332：用于评估被调研企业的整体可信度，并给出该调研对象的可信度评估数值，可信度检测数值为0和100之间，并且该数值越大表示可信度越高。

对于多源数据可信度检测单元331，通过构造字典优化模型，检测企业填报数据的信息可信度，为相关可信度评估任务提供强有力的监督与指导。如图5所示，多源数据可信度检测单元331包括：

字典学习单元3311：利用字典优化技术可以构造和学习针对不同调研问题可信度评估检测任务的稀疏字典，该字典可以挖掘与可信度评估检测任务高度相关的文本信息，摒弃冗余的无关紧要的文本数据，有效的探索了多源数据的复杂结构；

数据重构单元3312：基于上述学习的稀疏字典，可以重新构造之前用于检测评估的文本特征描述向量，并获得重构误差；

数据可信度检测单元3313：用于将重构误差通过激活函数量化为0和100之间的可信度检测数值，该数值越高表示。

这里，对于获取的企业调研的文本语句特征描述向量，通过构建文本字典与文本语句的稀疏特征的联合优化目标函数，学习与企业调研多源数据可信度检测评估相关的稀疏字典表达，该稀疏字典可以挖掘与信息可信度检测高度相关的文本语句信息，摒弃冗余的无关紧要的文本数据。以优化的稀疏字典为参考，重构企业调研数据的文本语句信息，将重构误差通过激活函数量化为可信度检测的数值。以此可以准确快速的对企业每个填报问题进行可信度检测与评估，并量化为0和100的可信度评估数值。

对于被调研对象可信度评估单元332，通过层次分析法确定各个数据属性的重要性权值，以数据加权的形式对于被调研企业进行整体可信度评估。如图6所示，被调研对象可信度评估单元332包括：

属性层次分析单元3321：用于对调研数据的12个主要类别属性和5-10个次级类别属性通过层次分析法确定所有属性的相对重要性权值；

对象可信度评估单元3322：根据每条调研数据的相对重要性权值，对其可信度数值加权平均获得被调研企业的整体可信度数值，该数值被量化为0和100之间，且数值越大表示可信度越高。

基于同一发明构思，本发明实例还提供了与基于多源数据的信息可信度检测与评价系统相对应的实现方法，由于本申请实例中实现方法的原理与申请实施例上述企业填报信息可信度检测与评估系统相似，因此方法的实施可以参考系统的实施，重复之处不再赘述。如图7所示，为本申请实例所提供的基于多源数据的信息可信度检测与评价方法的流程图，包括：

S11：采集企业填报的与企业调研问题相关的多源数据，该多源文本数据指从政府官网、调研问卷、企业互联网的途径获取不同城市中不同企业的文本数据信息；

S22：对采集的与调研任务相关的多源数据进行预处理操作，获取其语义特征描述向量以及每个调研问题的属性标签信息，其中包括12个主要类别和5-10个次级细分的类别；

S33：检测每个调研问题的可信度，并评估被调研对象的整体可信度。

本发明实例中，如图8所示，上述步骤S11具体包括如下步骤：

S111：获取与企业调研数据评估相关的关键词，以便进行与企业调研评估相关的信息检索；

S112：通过数据接口或者网络爬虫的方式挖掘企业调研评估中包含关键词的多源数据。

本发明实例中，如图9所示，上述步骤S22具体包括如下步骤：

S221：对采集的与企业调研问题相关的多源数据进行预筛选处理，剔除重复、赘余的企业填报的数据，删除与关键词语义无关的文本表达信息；

S222：对获取的企业调研的多源数据进行语句分词处理，得到语句分词之后的词汇数据；

S223：根据词嵌入技术为文本分词之后的词汇数据提取特征向量，进而确定该文本语句的特征描述向量。

本发明实例中，如图10所示，上述步骤S33具体包括如下步骤：

S331：检测每个调研问题的可信度，并给出可信度检测数值；

S332：评估被调研企业的整体可信度，并给出该调研对象的可信度评估数值。

本发明实例中，如图11所示，上述步骤S331具体包括如下步骤：

S3311：构造和学习针对不同调研问题可信度评估检测任务的稀疏字典，挖掘与可信度评估检测任务高度相关的文本信息，摒弃冗余的无关紧要的文本数据；

S3312：基于构造和学习的稀疏字典，可以重构获取的用于检测评估的多源数据的文本特征描述向量；

S3313：将重构误差通过激活函数量化为可信度检测的数值。

本发明实例中，如图12所示，上述步骤S332具体包括如下步骤：

S3321：对调研数据的属性通过层次分析法确定所有属性的相对重要性权值；

S3322：根据每条调研数据的相对重要性权值，对其可信度数值加权平均获得被调研企业的整体可信度数值。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于多源数据的信息可信度检测与评价系统 [P] . 中国专利： CN112836505A . 2021-05-25
2. 一种基于规则和可信度的多源数据融合系统及方法 [P] . 中国专利： CN113032127A . 2021-06-25
3. DISKLIKE RECORDING MEDIA, A METHOD FOR DETECTING FORGED DISKS, AN ANTI-FORGERY SYSTEM FOR PERFORMING A TRUE-FALSE JUDGEMENT BASED ON INFORMATION COLLECTED FROM THE RECORDING MEDIA, AND A MANUFACTURING APPARATUS FOR RECORDING INFORMATION IN THE DISKS [P] . 美国专利： US6914874B2 . 2005-07-05

机译： DISKLIKE记录介质，一种检测伪造磁盘的方法，一种基于从记录介质中收集的信息进行真伪判断的防伪系统以及一种用于对磁盘中的信息进行记录的制造装置
4. DISKLIKE RECORDING MEDIA, A METHOD FOR DETECTING FORGED DISKS, AN ANTI-FORGERY SYSTEM FOR PERFORMING A TRUE-FALSE JUDGEMENT BASED ON INFORMATION COLLECTED FROM THE RECORDING MEDIA, AND A MANUFACTURING APPARATUS FOR RECORDING INFORMATION IN THE DISKS [P] . 美国专利： US6721253B2 . 2004-04-13

机译： DISKLIKE记录介质，一种检测伪造磁盘的方法，一种基于从记录介质中收集的信息进行真伪判断的防伪系统以及一种用于对磁盘中的信息进行记录的制造装置
5. DISKLIKE RECORDING MEDIA, A METHOD FOR DETECTING FORGED DISKS, AN ANTI-FORGERY SYSTEM FOR PERFORMING A TRUE-FALSE JUDGEMENT BASED ON INFORMATION COLLECTED FROM THE RECORDING MEDIA, AND A MANUFACTURING APPARATUS FOR RECORDING INFORMATION IN THE DISKS [P] . 美国专利： US6661756B2 . 2003-12-09

机译： DISKLIKE记录介质，一种检测伪造磁盘的方法，一种基于从记录介质中收集的信息进行真伪判断的防伪系统以及一种用于对磁盘中的信息进行记录的制造装置