首页> 中国专利> 一种基于特征选择与AdaBoost模型的矿井突水水源判别方法

一种基于特征选择与AdaBoost模型的矿井突水水源判别方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于特征选择与AdaBoost模型的矿井突水水源判别方法，包括：确定参与建模的含水层，在含水层采集水样，水样的数量为至少60组；测试每组水样的水质信息；利用R语言将多组水质信息按照7：3的比例分为训练数据集和测试数据集；对训练数据集采用随机森林的方法进行特征选择，选取3‑6个参数，并得到第一数据集；建立第一AdaBoost模型；建立第二AdaBoost模型。根据本发明的基于特征选择与AdaBoost模型的矿井突水水源判别方法，使用了随机森林方法进行特征选择，使用AdaBoost模型框架进行建模，可以提升模型结果的准确性。

著录项

公开/公告号CN112257763A

专利类型发明专利
公开/公告日2021-01-22

原文格式PDF
申请/专利权人华北科技学院;
展开▼

申请/专利号CN202011092755.0
发明设计人单耀;高林生;李红涛;赵启峰;朱权洁;石建军;殷帅峰;
展开▼

申请日2020-10-13
分类号G06K9/62(20060101);G06N20/00(20190101);G06F17/18(20060101);
代理机构44535 广州文衡知识产权代理事务所(普通合伙);
代理人周冠宇
地址 065201 河北省廊坊市三河燕郊开发区学院大街467号
入库时间 2023-06-19 09:38:30

法律信息

法律状态公告日

法律状态信息

法律状态
2022-02-01

发明专利申请公布后的撤回 IPC(主分类):G06K 9/62 专利申请号:2020110927550 申请公布日:20210122

发明专利申请公布后的撤回

说明书

技术领域

本发明涉及煤矿水害防治技术领域，尤其是涉及一种基于特征选择与AdaBoost模型的矿井突水水源判别方法。

背景技术

矿井突水是煤矿五大灾害之一，给煤矿的安全高效生产，工作人员的人身安全带来了威胁。随着开采效率的提高，开采深度的加深，水害的威胁日益严重。在预防阶段，突水预兆显现阶段，水害治理阶段，准确确定突水的水源，是煤矿防治水工作的关键。

相关技术中，判别突水水源的方法有水文水位法、特征离子法、数理分析法等。水温水位法可作为突水水源初期的判断，同时在复杂的情况下，其判别的可操作性与准确性均有欠缺。特征离子法使用一些区分度强的离子为目标，建立判别准则。该方法主要应用了地球化学的技术手段。缺点在于特征离子的选择难以做到准确，其次特征离子所代表的维度较低，可以达到的区分度也较低。数理分析法有线性分析法与多元统计法等。多元分析法受到样本的限制。线性分析法常有多重共线性的问题，导致模型的不稳定。可见，上述几种方法均存在测试结果不准确的问题。

发明内容

本发明提出了一种基于特征选择与AdaBoost模型的矿井突水水源判别方法，利用所述基于特征选择与AdaBoost模型的矿井突水水源判别方法可以提升检测的准确性。

根据本发明实施例的基于特征选择与AdaBoost模型的矿井突水水源判别方法，包括：步骤S1：确定参与建模的含水层，在所述含水层采集水样，所述水样的数量为至少60组；步骤S2：测试每组所述水样的水质信息，所述水质信息包括常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值；步骤S3：利用多组所述水质信息建立Excel表，将所述Excel表导入R语言，利用所述R语言将多组所述水质信息按照7∶3的比例分为训练数据集和测试数据集；步骤S4：对所述训练数据集采用随机森林的方法进行特征选择，选取3-6个参数，并得到第一数据集；步骤S5：将AdaBoost模型框架应用于所述第一数据集，建立第一AdaBoost模型；步骤S6：将所述第一AdaBoost模型应用于所述第一数据集，删除所述第一数据集中的错误样本以形成第二数据集，将AdaBoost模型框架应用于所述第二数据集，建立第二AdaBoost模型。

根据本发明实施例的基于特征选择与AdaBoost模型的矿井突水水源判别方法，使用了随机森林的方法和AdaBoost模型框架进行建模，考虑到每个判别参量的重要性有所差别，使用随机森林的方法进行特征选择，也就说可以在样本的角度选择更加具有代表性的数据进行建模，然后在模型参数解释方面使用准确度更好的AdaBoost模型，由此可以提升模型结果的准确性。

根据本发明的一些实施例，在所述步骤S2之后，且在所述步骤S3之前，所述方法还包括：将所述常量元素含量换算成当量浓度百分数，将所述微量元素含量换算成当量浓度。

根据本发明的一些实施例，在所述步骤S6后，所述方法还包括：利用所述测试数据集的数据对所述第二AdaBoost模型的准确性进行评价。

在本发明的一些实施例中，在所述步骤S6后，所述方法还包括：将所述第二AdaBoost模型应用于实际的预测判别环境进行验证。

根据本发明的一些实施例，所述含水层包括地表水、第四系含水层、煤系砂岩含水层、老空水和灰岩含水层中的至少两个，且应同时包含煤系砂岩含水层和灰岩含水层。

根据本发明的一些实施例，所述建立第一AdaBoost模型和所述建立第二AdaBoost模型应用所述R语言的adabag包完成。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据本发明实施例的基于特征选择与AdaBoost模型的矿井突水水源判别方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。此外，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的可应用于性和/或其他材料的使用。

下面参考附图描述根据本发明实施例的基于特征选择与AdaBoost模型的矿井突水水源判别方法。

如图1所示，根据本发明实施例的基于特征选择与AdaBoost模型的矿井突水水源判别方法，包括：步骤S1、步骤S2、步骤S3、步骤S4、步骤S5和步骤S6。

具体地，如图1所示，步骤S1为确定参与建模的含水层，在含水层采集水样，水样的数量为至少60组。可以理解的是，水样的数量可以为60组、70组、80组或更多组。由此，可以提升样本的数量，从而提升模型的准确性。具体地，在本发明的一些实例中，水样的数量为至少60组，且重要含水层的水样各在30个以上。

在本发明的一些实施例中，水样包括煤系砂岩含水层水和灰岩含水层水，可包括地表水、第四系含水层水、老空水中的一个或多个。换言之，水样可以包括煤系砂岩含水层水和灰岩含水层水；或者，煤系砂岩含水层水、灰岩含水层水和地表水；或者，煤系砂岩含水层水、灰岩含水层水和第四系含水层水；或者，煤系砂岩含水层水、灰岩含水层水和老空水；或者，煤系砂岩含水层水、灰岩含水层水、地表水和第四系含水层水；或者，煤系砂岩含水层水、灰岩含水层水、第四系含水层水和老空水；或者，煤系砂岩含水层水、灰岩含水层水、地表水和老空水；或者，煤系砂岩含水层水、灰岩含水层水、地表水、第四系含水层水和老空水。例如，在发明的一个示例中，含水层包括华北型煤矿区的第四系含水层、煤系砂岩含水层、老空水和灰岩含水层，煤系砂岩含水层与灰岩含水层水样的数量各在30个以上，其余水样的数量在15个以上。

如图1所示，步骤S2为测试每组水样的水质信息，水质信息包括常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值。可以理解的是，不同位置的水样的常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值是不同的，通过对常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值的分析可以获取是不是突水。

如图1所示，步骤S3为利用多组水质信息建立Excel表，将Excel表导入R语言，利用R语言将多组水质信息按照7：3的比例分为训练数据集和测试数据集。可以理解的是，可以在R软件中导入Excel表并将多组水质信息按照7∶3的比例随机分为训练数据集和测试数据集，利用训练数据集获取模型，利用测试数据集检测模型的准确性。

如图1所示，步骤S4为对训练数据集采用随机森林的方法进行特征选择，选取3-6个参数，并得到第一数据集。为方便使用计算，尽量用常量元素作为建模使用的特征参数，如有具有明显区分特征的微量元素也可作为建模使用的特征参数。由此，可以去处无关的或者关系较小的水质信息，避免这些水质信息干扰模型结果的准确性。

例如，在本发明的一个示例中，采用随机森林的方法进行特征选择的步骤如下：

(1)、设数据集X共包含N各样本，使用自助法(Bootstrap)从数据集中随机放回式抽取N各样本装入袋中，作为训练数据集。在这个过程中，每个样本没有被选中的概率是p＝(1-1/N)

(2)、共进行k次抽取，故可获得k个训练数据集。采用无剪枝的方法用每一个训练数据集建立决策树。在每一个节点的位置，从总数M个特征中随机选择m个特征，并计算m个特征中每一个特征的Gini指数，Gin指数越小时，说明该特征的区分效果越好，选择最优的特征作为该分支节点。按照这种策略建立一个完整的决策树。

(3)、用k个数据集共可得到k个决策树，形成一个随机森林的模型。模型的质量可以用袋外数据(OOB)的预测准确率来评估。袋外数据的均方误差(MSE

其中，n是袋外数据的数量，y

(4)、使用平均不纯度减少值来选择重要的预测特征。在每一棵树的每个节点，应用公式(1-c)计算每个变量的Gini指数，计算每一棵树每一个节点上各特征的Gini指数，按照特征将所有的Gini指数取平均值，计算平均不纯度减少值。然后对每一个特征进行排序，就可以对各特征在模型中的重要性进行评分，以选择合适的特征进行建模。

其中pi是某个样本属于第i枝的概率，N是该节点处枝的总数，IGini是Gini指数。综合随机森林的分析方法与地球化学的分析确定重要的变量，以备建模使用，重要变量的选择以常量元素为主，微量元素、同位素及其它参数作为辅助，数量一般为3-6个。

如图1所示，步骤S5为：将AdaBoost模型框架应用于第一数据集，建立第一AdaBoost模型；步骤S6为：将第一AdaBoost模型应用于第一数据集，删除第一数据集中的错误样本以形成第二数据集，将AdaBoost模型框架应用于第二数据集，建立第二AdaBoost模型。

应用AdaBoost算法建立机器学习模型，步骤如下：

(1)设训练数据集有N条记录，初始化每条记录的权重为1/N

(2)对m＝1，2，...，M(M是训练的轮数)

(2.1)根据记录的W

(2.2)使用决策树算法训练D

(2.3)计算G

(2.4)如果e

(2.5)对每条被正确分类的数据更新权重，令其乘以e

(2.6)设定模型的权重

(3)获得M个模型G

可以理解的是，利用第一AdaBoost模型可以检测第一数据集中的数据是否正确，并及时将错误的数据删除，以避免这些错误的数据干扰模型结果的准确性，同时利用新的正确的第二数据集得到最终的准确度较高的第二AdaBoost模型，可以提升模型结果的准确性。

需要说明的是，建模的时候有多个参量需要设定及优化，比较重要的参数有划分时考虑的最大特征数、决策树最大深度、其它可能需要考虑的参数主要有内部节点再划分时所需的最小样本数、叶子节点最少样本数、叶子节点最少样本权重、最大叶子节点数等。例如，模型中有3-6个变量计，该参数可优化为2或3。具体参数的优化还需要根据模型的判别表现来确定。将第一AdaBoost模型、第二AdaBoost模型回代，可以分析误判的数据，需要注意的是，除非明显错误，一般不再删除训练数据集中数据，如删除了部分数据，则需要再次训练数据。

在本发明的一个示例中，建立第一AdaBoost模型和建立第二AdaBoost模型应用R语言的adabag包完成。

根据本发明的一些实施例，在步骤S2之后，且在步骤S3之前，方法还包括：将常量元素含量换算成当量浓度百分数，将微量元素含量换算成当量浓度。由此，可以降低计算的难度，提升计算的效率，节省计算的时长。

根据本发明的一些实施例，在步骤S6后，方法还包括：利用测试数据集的数据对第二AdaBoost模型的准确性进行评价。由此，可以利用测试数据集的数据对第二AdaBoost模型的准确性，并通过检测结果适应性的修改模型，从而可以进一步提升检测结果的可靠性。

在本发明的一些实施例中，在步骤S6后，方法还包括：将第二AdaBoost模型应用于实际的预测判别环境进行验证。由此，可以利用实际的预测判别环境对第二岭回归模型的准确性，并通过检测结果适应性的修改模型，从而可以进一步提升检测结果的可靠性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于特征选择与AdaBoost模型的矿井突水水源判别方法 [P] . 中国专利： CN112257763A . 2021-01-22
2. 一种基于特征选择与支持向量机模型的矿井突水水源判别方法 [P] . 中国专利： CN112257336A . 2021-01-22
3. A method for Acoustic Model Training, which includes a forced alignment of Speech Training Data, process data and obtain the estimated Scattering matrices of Scattering matrices, skew the intermediate class and Internal diagonalize matrices and in Intermediate Class Terna and Estimating eigenvectors, to obtain new functions using discriminative vectorTrain a New Acoustic Model, to Save the Model, method and System for Acoustic Model Training [P] . CL2015000445A1 . 2015-06-19

机译：一种用于声学模型训练的方法，其中包括语音训练数据，过程数据的强制对齐以及获得估计的散射矩阵的散射矩阵，使中间类别和内部对角化矩阵倾斜以及在中间类别Terna和估计特征向量中倾斜，以获得新功能使用判别向量训练新的声学模型，以保存模型，方法和系统以进行声学模型训练
4. BP_ADABOOST MODEL-BASED METHOD AND SYSTEM FOR PREDICTING CREDIT CARD USER DEFAULT [P] . 世界知识产权组织专利： WO2018090657A1 . 2018-05-24

机译：基于BP_ADABOOST模型的信用卡用户违约率预测方法及系统
5. Method and arrangement for the computer-assisted determination of at least one property of a hair color seeds on the basis of a formulation of chemically reactive and / or unreactive raw materials, a method and arrangement for the computer-assisted determination of a formulation of a hair color seeds based on chemically reactive and / or unreactive raw materials, and apparatus and method for computer-aided training a predetermined model for the computer-assisted determination of at least one property of a hair color seeds on the basis of a formulation of chemically reactive and / or unreactive raw materials [P] . 德国专利： DE102007050434A1 . 2009-04-23

机译：用于基于化学反应性和/或非反应性原料的制剂的计算机辅助测定染发种子的至少一种性质的方法和装置，用于计算机辅助的测定毛发种子的制剂的方法和装置基于化学反应性和/或非反应性原料的染发种子，以及用于计算机辅助训练预定模型的设备和方法，该预定模型用于基于化学制剂确定计算机辅助确定染发种子的至少一种特性反应性和/或不反应性原料