法律状态公告日
法律状态信息
法律状态
2018-03-06
授权
授权
2017-10-10
著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20150402
著录事项变更
2015-08-05
实质审查的生效 IPC(主分类):G06F17/30 申请日:20150402
实质审查的生效
2015-07-08
公开
公开
技术领域
本发明属于计算机技术领域,更进一步涉及基于布尔矩阵的诊疗规则的挖掘 方法。本发明用一种基于布尔矩阵的关联规则挖掘方法,探索大量的数据项之间 存在的值得关注的关联和相关关系,挖掘出频繁组合使用的规则集合,作为规则 引擎的驱动。规则引擎作为决策支持系统的重要组成部分,可以在临床诊疗活动 中辅助医生做出准确而全面的决策。
背景技术
随着大数据时代的来临,传统的规则提取方案,已无法满足对大量诊疗数据 进行复杂的分析和加工,从中获取有价值的决策信息的基本需求。并且,由于规 则的非结构化和半结构化的不规范、不统一的描述形式,带来了诊疗规则存储困 难,匹配缓慢,不同系统间可共享率低等一系列问题。因此研究诊疗规则的挖掘 技术,用以对海量诊疗数据进行分析、挖掘信息之间的关联关系、并将这些关联 关系作为规则以一定的结构化形式存储,可以充分总结专家医生的诊疗经验为将 来的病例进行指导,在医疗辅助系统的规范化和开放性,以及提高医院的医疗技 术和服务水平等方面均具有重要的意义。
在人工智能和知识工程等领域发展起来的针对规则挖掘的研究,多数都集中 于建立决策树或者人工神经网络来抽取出其中的隐含规则。这两种方案在以往的 文本规则抽取和相关行业的应用模型建立中发挥了一定的作用。但是由于医疗领 域的数据量大,信息多以非结构化和半结构化形式存在的特点,限制了两种方案 在医学领域的应用。目前,诊疗规则基本是通过人工的方式进行抽取。这会导致 在进行规则在抽取时受到人的主观性和业务熟练性方面的限制。同时人工提取的 非结构化诊疗规则在进行存储和使用时也存在一系列的问题。
陶氏益农公司申请的专利“用于在包含分子遗传标志物的植物和动物数据集 中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学 习方法的应用”(专利申请号:201080029509,公开号:102473247A)中公开了 一种或多种关联规则挖掘算法的用途。该技术用于挖掘含有由至少一种基于植物 或动物的分子遗传标志物所创建的特征的数据集,发现关联规则,以及利用由这 些关联规则创建的特征用于分类或预测。该方法重点考虑了挖掘历史数据的能 力,对于多重共线性的数据具有鲁棒性的能力,以及说明包括在这些数据集中的 特征之间的相互作用的能力。但是,该方法存在的不足之处是,该方法针对分子 遗传标志物的植物和动物数据集进行关联规则的挖掘,建立的“特征数据集”这 种数据结构,并不能合理有效的对诊疗规则进行表示,不利于诊疗规则的使用、 共享、维护和更新。
华为技术有限公司申请的专利“一种告警关联规则挖掘方法、规则挖掘引擎 及系统”(专利申请号:201010197275,公开号:101937447A)中提出了一种告 警关联规则挖掘方法、规则挖掘引擎及系统。该发明提出了一种告警关联规则的 挖掘方法来构造规则挖掘引擎,规则挖掘引擎根据告警关联规则自动处理电信告 警。但是,该方法的不足在于,该方法仍然使用传统的关联规则挖掘思路,通过 对k频繁项集的分析得到k+1频繁项集,没有解决候选项集数量巨大和数据库扫 描频繁这两个关键问题,算法的效率还有待改进。
发明内容
本发明的目的是克服上述现有技术的不足,提供一种基于布尔矩阵的诊疗规 则挖掘方法。
为实现上述目的,本发明包括以下步骤:
(1)获取诊疗基础数据:
扫描存储诊疗基础数据的事务数据库,按照映射规则,将事务数据库映射成 为布尔矩阵;
(2)挖掘诊疗规则:
(2a)采用基于布尔矩阵的关联规则挖掘方法,获取诊疗事务数据库的频繁 项集;
(2b)将每一个频繁项集中的数据项根据因果关系分为规则前件和结果后 件,并将规则前件和结果后件进行合并,将出现的重复项仅存储一次,并记录规 则前件中重复项的重复次数,形成前件集合和结果集合,并删除同时出现在前件 集合和结果集合中的数据项;
(3)设置诊疗规则参数:
(3a)将前件集合中每个前件的重复次数,设置为每个前件的权重值参数;
(3b)将诊疗事务数据库中,同时包含规则前件和结果后件的事务集的数目 与只包含结果后件的事务集数目的比值,设置为诊疗规则的置信度参数;
(3c)将0设置为诊疗规则的支持度参数的默认值,诊疗规则每使用一次, 支持度则加1;
(4)判断是否完成所有诊疗规则参数的设置,如果是,执行步骤(5),否则, 执行步骤(3);
(5)对诊疗规则进行结构化建模:
根据描述诊疗规则的需求,设计诊疗规则的结构,包括设计诊疗规则逻辑形 式和参数,定义诊疗规则描述语言;采用国际通用可扩展标记语言XML类型的数 据格式设计诊疗规则描述语言的存储格式,定义诊疗规则文件格式;
(6)存储诊疗规则数据:
将诊疗规则的前件集合、后件集合以及参数通过诊疗规则描述语言描述,存 储为诊疗规则文件。
本发明与现有的技术相比,具有以下优点:
第一,本发明通过对诊疗规则进行结构化建模,结合国际通用可扩展标记语 言的平台无关性和与具体应用相独立的特性,规范了诊疗规则的结构,克服了现 有技术中无法规范表达诊疗规则形式的不足,使得本发明对诊疗规则进行了结构 化建模,规范了诊疗规则的表达形式和存储形式。
第二,本发明通过基于布尔矩阵的关联规则挖掘方法挖掘诊疗数据,克服了 现有技术中对数据库的多次扫描和候选频繁项集数量过多的缺点,使得本发明对 诊疗规则的挖掘更高效,更加节省存储空间。
附图说明
图1为本发明的流程图;
图2为本发明基于布尔矩阵的关联规则挖掘方法的流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
步骤1,诊疗规则结构设计。
扫描存储诊疗基础数据的事务数据库,按照映射规则,将事务数据库映射成 为布尔矩阵。其中,映射规则是指,布尔矩阵的行数与事务集的数目相同,布尔 矩阵的列数与每个事务集中包含的项目数相同;如果事务集中包含某个项目,则 布尔矩阵中对应于该事务集的行所对应于该项目的列的取值为1,否则为0。
步骤2,挖掘诊疗规则。
采用基于布尔矩阵的关联规则挖掘方法,获取诊疗事务数据库的频繁项集。
将每一个频繁项集中的数据项根据因果关系分为规则前件和结果后件,并将 规则前件和结果后件进行合并,将出现的重复项仅存储一次,并记录规则前件中 重复项的重复次数,形成前件集合和结果集合,并删除同时出现在前件集合和结 果集合中的数据项。其中,频繁项集是指,支持度大于或等于最小支持度计数的 项目集。
结合附图2,基于布尔矩阵的决策支持规则挖掘方法的具体步骤如下:
第1步,将布尔矩阵与布尔矩阵的转置矩阵相乘,得到对称矩阵,从对称矩 阵的主对角线元素中找出最大值,记录该最大值。
第2步,依次扫描对称矩阵的每一行,找出主对角线元素的最大值,将该最 大值所在的行组成一个行集合。
第3步,判断行集合是否为空,如果不为空,则执行第4步,否则,执行第 5步。
第4步,取出行集合的任意一个行序列;统计所取行序列中元素值大于或等 于主对角线元素最大值的数目,将该数目作为倾数;如果倾数大于或等于最小支 持度,则将取出的行序列中取值大于或等于主对角线最大值的所有元素以向量的 形式记录,同时在行集合中删除所取的行序列;执行第3步直到行集合为空。
第5步,判断第4步所记录的向量集合是否为空,如果不为空,则执行第6 步,否则,执行第7步。
第6步,将第4步记录的向量集合做逻辑与运算,得到矩阵频繁项集。
第7步,从对称矩阵的对角线元素中找到次大值,判断该次大值是否小于最 小支持度,如果是,则执行第8步,否则,执行第2步。
第8步,根据第6步得到的矩阵频繁项集的元素与事务数据库中数据项的对 应关系,得到事务数据库的频繁项集。
步骤3,设置诊疗规则参数。
将前件集合中每个前件的重复次数,设置为每个前件的权重值参数。
将诊疗事务数据库中,同时包含规则前件和结果后件的事务集的数目与只包 含结果后件的事务集数目的比值,设置为诊疗规则的置信度参数。
将0设置为诊疗规则的支持度参数的默认值,诊疗规则每使用一次,支持度 则加1。
步骤4,判断是否完成所有诊疗规则参数的设置,如果是,执行步骤5,否 则,执行步骤3。
步骤5,对诊疗规则进行结构化建模。
根据描述诊疗规则的需求,设计诊疗规则的结构,包括设计诊疗规则逻辑形 式和参数,定义诊疗规则描述语言;采用国际通用可扩展标记语言XML类型的数 据格式设计诊疗规则描述语言的存储格式,定义诊疗规则文件格式;
步骤6,设置诊疗规则参数。
将诊疗规则的前件集合、后件集合以及参数通过诊疗规则描述语言描述,存 储为诊疗规则文件。
机译: 算盘布尔或布尔矩阵。网格矩阵,能够将卡容纳到电子逻辑中,以基于运算符和/或非或非,或非-或非-规则及其组合在操作逻辑电路中实施和测试
机译: 使用基于聚类的规则挖掘方法优化植物能源使用的系统和方法
机译: 基于聚类的规则挖掘方法优化结构能源使用的系统和方法