首页> 中国专利> 基于数据分析的水污染模型构建方法

基于数据分析的水污染模型构建方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了基于数据分析的水污染模型构建方法，属于水污染分析技术领域，要解决的技术问题为如何对水污染进行数据分析。包括如下步骤：对输入的搜索数据进行自然语言分析处理，得到关键词数据集合；基于贝叶斯算法，对关键词数据基于各类水污染相关基础数据、结合各影响因子的权重进行统计分析和概率分析，得到概率高的信息，所述水污染相关基础数据包括工商、信访以及舆情；通过归一化方法对关键词数据进行标准化处理，得到标准化数据，利用层次分析法确定各影响因子的权重，结合标准化数据和各影响因子的权重，对指标体系各项指标进行真实性、相关性权重设定，建立水污染模型，得到多个维度的高评分整合数据。

著录项

公开/公告号CN112861956A

专利类型发明专利
公开/公告日2021-05-28

原文格式PDF
申请/专利权人浪潮云信息技术股份公司;
展开▼

申请/专利号CN202110135673.8
发明设计人张立;
展开▼

申请日2021-02-01
分类号G06K9/62(20060101);G06F17/18(20060101);G06F40/205(20200101);G06F40/289(20200101);
代理机构37100 济南信达专利事务所有限公司;
代理人潘悦梅
地址 250100 山东省济南市高新区浪潮路1036号浪潮科技园S01号楼
入库时间 2023-06-19 11:08:20

说明书

技术领域

本发明涉及水污染分析技术领域，具体地说是一种基于数据分析的水污染模型构建方法。

背景技术

对于水污染判断分析，目前较多的实践方式是对水污染各类数据进行人工判断分析，这种方式费时费力并且往往不能很好的发现线索数据。随着人工智能技术的成熟及广泛应用，办案中对水污染的相关数据分析也正逐渐的采用人工智能的思想，通过对原始数据的统计分析和概率分析等碰撞分析方法构建水污染分析模型，通过运算分析，给用户提供一份评价后的数据分析详情。

基于上述如何对水污染进行数据分析，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供一种基于数据分析的水污染模型构建方法，来解决如何对水污染进行数据分析的问题。

本发明提供一种基于数据分析的水污染模型构建方法，包括如下步骤：

对输入的搜索数据进行自然语言分析处理，得到关键词数据集合，所述关键词数据集合包括地点、企业、人物以及时间；

基于贝叶斯算法，对关键词数据基于各类水污染相关基础数据、结合各影响因子的权重进行统计分析和概率分析，得到概率高的信息，所述水污染相关基础数据包括工商、信访以及舆情；

通过归一化方法对关键词数据进行标准化处理，得到标准化数据，利用层次分析法确定各影响因子的权重，结合标准化数据和各影响因子的权重，对指标体系各项指标进行真实性、相关性权重设定，建立水污染模型，得到多个维度的高评分整合数据。

作为优选，对输入的搜索数据进行自然语言分析处理，包括如下步骤：

通过感知机算法的汉语自动分词方法对输入的搜索数据进行分词，对于任意给定的一个输人句子，解码器每次读一个字，生成所有的候选词。

作为优选，生成所有的候选词共两种方式，分别为：

作为上一个候选词的末尾，与上一个候选词组合成一个新的候选词；

作为下一个候选词的开始。

作为优选，基于贝叶斯算法，对关键词数据基于各类水污染相关基础数据、结合各影响因子的权重进行统计分析和概率分析，包括如下步骤：

对搜索数据进行特征属性确认，并对并对每个特征属性进行适当划分，由人工对一部分待分类项进行分类，得到特征属性以及训练样本；

以特征属性和训练样本为输入，计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，得到分类器；

以分类器和待分类项为输入，通过分类器对待分类项进行分类，得到待分类项与类别的映射关系。

作为优选，通过归一化方法对关键词数据进行标准化处理，得到标准化数据，利用层次分析法确定各影响因子的权重，结合标准化数据和各影响因子的权重，对指标体系各项指标进行真实性、相关性权重设定，建立水污染模型，包括如下步骤：

建立层次结构模型，所述层次结构模型包括由上至下依次排布的目的层、主因素层和子因素层；

构造判断矩阵，所述判断矩阵的值用于反应对下层两两元素与上层因素相对重要性的认识；

计算各判断矩阵的最大特征根及其特征向量，并进行归一化处理，以进行层次单排序及其一致性检验；

计算同一层次对最高层次的相对重要性的排序权值，并对判断矩阵一致性检验。

作为优选，采用1至9及倒数核度方法构造判断矩阵。

作为优选，计算各判断矩阵的最大特征根及其特征向量，并进行归一化处理，包括：

为同一层次相应因素对于上一层某因素相对重要性的排序权值，同时检验判断矩阵的一致性，如果不符合条件对判断矩阵重新调查；

给目标层分配值为1或0，将上述分配值作为权重，分配给不同因素，对应因素的权重大小代表所述因素在整个选择过程中的重要性程度；

对于候选方案，每一个标准再将其权重值分配给所有的候选方案，每一方案获得权重值，来源于不同因素分得的权重值的和，最终获得的各个方案的权重值的和依然为1。

作为优选，从最高层依次到最低成计算同一层次对最高层次的相对重要性的排序权值。

本发明的基于数据分析的水污染模型构建方法具有以下优点：

1、通过贝叶斯算法基于各类基础数据、通过统计分析和概率分析等碰撞分析方法，实现在大量数据中分析得出水污染情况；

2、通过水污染模型对数据分析后得出一份评价后的数据分析详情，帮助用户实现水污染线索甄别、线索分析以及辅助分析。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1基于数据分析的水污染模型构建方法的流程框图；

图2为实施例1基于数据分析的水污染模型构建方法中层次结构模型框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供基于数据分析的水污染模型构建方法，用于解决如何对水污染进行数据分析的技术问题。

实施例：

本发明的一种基于数据分析的水污染模型构建方法，包括如下步骤：

S100、对输入的搜索数据进行自然语言分析处理，得到关键词数据集合，所述关键词数据集合包括地点、企业、人物以及时间；

S200、基于贝叶斯算法，对关键词数据基于各类水污染相关基础数据、结合各影响因子的权重进行统计分析和概率分析，得到概率高的信息，所述水污染相关基础数据包括工商、信访以及舆情；

S300、通过归一化方法对关键词数据进行标准化处理，得到标准化数据，利用层次分析法确定各影响因子的权重，结合标准化数据和各影响因子的权重，对指标体系各项指标进行真实性、相关性权重设定，建立水污染模型，得到多个维度的高评分整合数据。

其中，步骤S100中通过感知机算法的汉语自动分词方法对输入数据进行分词，对于任意给定的一个输人句子，解码器每次读一个字，生成所有的候选词。生成候选词的方式有两种：

(1)作为上一个候选词的末尾，与上一个候选词组合成一个新的候选词；

(2)作为下一个候选词的开始。

第二种方式可以保证在解码过程中穷尽所有的分词候选。在解码的过程中，解码器维持两个列表：源列表和目标列表。开始时，两个列表都为空。解码器每读人一个字，就与源列表中的每个候选组合生成两个新的候选(合并为一个新的词或者作为下一个词的开始)，并将新的候选词放人目标列表。当源列表中的候选都处理完成之后，将目标列表中的所有候选复制到源列表中，并清空目标列表。然后，读人下一个字，如此循环往复直到句子结束。最后，从源列表中可以获取最终的切分结果。

假设x∈X是输人句子，y∈Y是切分结果，其中X是训练语料集合，Y是X中句子标注结果集合。我们用GEN(x)表示输人句子的切分候选集，用φ(x，y)∈R

F(x)＝argmax

步骤S200包括三个阶段，分别为：

第一阶段——准备工作阶段，这个阶段的任务是为贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。

这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

第三阶段——应用阶段，这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。

技术实现如下：

1.设x＝{a1,a2,…,am}为一个待分类项，而每个a为x的一个特征属性；

2.有类别集合C＝{y1,y2,…,yn}；

3.计算P(y1|x),P(y2|x),…,P(yn|x)；

4.如果P(yk|x)＝max{P(y1|x),P(y2|x),…,P(yn|x)}，则x∈yk。通过如下步骤计算第3步中的各个条件概率：

(1)找到一个已知分类的待分类项集合，也就是训练集；

(2)统计得到在各类别下各个特征属性的条件概率估计，即：

P(a1|y1),P(a2|y1),…,P(am|y1)；

P(a1|y2),P(a2|y2),…,P(am|y2)

P(am|yn),P(am|yn),…,P(am|yn)；

(3)如果各个特征属性是条件独立的(或者我们假设它们之间是相互独立的)，则根据贝叶斯定理有如下推导：

因为分母对于所有类别为常数，只要将分子最大化皆可，又因为各特征属性是条件独立的，所以有：

步骤S300中，运用层次分析法建模，大体上可按下面四个步骤进行：

步骤1建立层次结构模型：充分了解要分析的系统后，把系统的各因素划分成不同层次，如图2所示层次的递阶结构以及因素从属关系。评估每一层针对上一层的因素的重要程度，通过传递性，最后确定因素层的指标，相对于目标层的重要程度，从而确定全部指标的权重系数；

步骤2构造判断矩阵：判断矩阵元素的值反映了人们对下层两两元素与上层因素相对重要性的认识。它直接影响决策的效果，一般采用1至9及倒数核度方法；

步骤3层次单排序及其一致性检验：计算出各判断矩阵的最大特征根及其特征向量，并通过归一化处理，即为同一层次相应因素对于上一层某因素相对重要性的排序权值。同时要检验判断矩阵的一致性，如果不符合条件需要对判断矩阵重新调查；归一处理，给目标层(choose a leader)分配值为1或0，然后将这一值作为权重，分配给不同因素(Age,Experience,Education,Charisma)，对应因素的权重大小代表该因素在整个选择过程中的重要性程度。之后对于候选方案，每一个标准再将其权重值分配给所有的候选方案，每一方案获得权重值，来源于不同因素分得的权重值的和。最终获得的各个方案的的权重值的和依然为1；

步骤4层次总排序及其一致性检验：计算同一层次对最高层次(总目标)的相对重要性的排序权值；此过程是从最高层依次到最低成进行的，也还要对判断矩阵一致性检验，不符合的也要从头开始。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于数据分析的水污染模型构建方法 [P] . 中国专利： CN112861956A . 2021-05-28
2. 基于用户行为数据分析的在线教育推荐模型及构建方法 [P] . 中国专利： CN110110225A . 2019-08-09
3. Epileptic seizure prediction device, analysis method of electrocardiogram index data, seizure prediction computer program, model building device, model construction method, model building computer program [P] . JPWO2020066430A1 . 2021-08-30

机译：癫痫发作预测装置，心电图索引数据分析方法，癫痫预测计算机程序，模型构建装置，模型施工方法，模型构建计算机程序
4. COMPUTER IMPLEMENTED FRAMEWORKS AND METHODOLOGIES CONFIGURED TO ENABLE GENERATION OF A SYNTHETIC PROFIT AND LOSS REPORT BASED ON BUSINESS DATA, AND LOAN MANAGEMENT BASED ON INCLUDING RISK-BASED LOAN CONSTRUCTION AND PRICING AND/OR PRICING BASED ON DATA ANALYSIS OF DEFAULT RISK AND LOSS GIVEN DEFAULT PARAMETERS [P] . 世界知识产权组织专利： WO2016123657A1 . 2016-08-11

机译：计算机实现的框架和方法，可根据业务数据生成综合利润和亏损报告，并基于基于缺省风险和损失的数据分析的基于风险的贷款构建和定价和/或定价的贷款管理
5. SIGN DATA ANALYSIS MODEL CONSTRUCTION METHOD, TERMINAL DEVICE AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020124412A1 . 2020-06-25

机译：标牌数据分析模型的构建方法，终端设备和存储介质