法律状态公告日
法律状态信息
法律状态
2020-07-17
授权
授权
2017-08-22
实质审查的生效 IPC(主分类):G06F19/00 申请日:20170331
实质审查的生效
2017-07-28
公开
公开
技术领域
本发明涉及一种病案库构建方法,尤其是一种基于分形技术的病案库构建方法。
背景技术
属性约简是指从数据集的原始属性集合中得到一个属性子集,该属性子集可以充分体现数据集的主要特征,具有和原始属性集合基本同等的区分能力。
这里,属性也常称为特征。属性约简主要存在两种基本途径:特征抽取(featureextraction)与特征选择(featureselection)。特征抽取主要分为线性特征抽取技术与非线性特征抽取技术,无论是线性还是非线性特征抽取技术,其输出的特征空间的属性都是人工构造的,和原有的特征空间的特征之间不存在明显对应关系,因而不便于人们理解。特征选择技术依据某个准则从众多原始特征中选择部分最能反映模式类别统计特性的相关特征,从而达到降低特征空间维度的效果。与特征抽取技术相比,该方法所得到的特征空间没有经过抽象的旋转及变换,便于最终结果的分析与理解,因而是在实际应用中比较常见的方法。
分形理论是现代非线性科学研究中十分活跃的一个数学分支,它的基本思想是利用整体与局部相似的特点,将一个复杂现象看成是由简单现象迭代而成,从而揭示复杂现象中所蕴含的规律和特性,特别适合于解决复杂问题。对于具有分形特征的物体而言,分形维数是一个重要的指标,它能够定量地描述分形集的复杂程度。近几年来,研究表明分形维数在数据挖掘领域有着非常特殊的作用,将分形技术应用于机器学习领域能够更好地克服传统机器学习技术的不足,更加有效地解决在结构复杂、高维数据集上的数据建模与分析问题。
其中,
现有技术一:“Fast feature selection using fractaldimension”中提出的基于分形维的特征选择方法FDR北京中星微电子有限公司黄英的专利《基于视频监控的人数统计方法和系统》,于2009年01月7日向中国国家知识产权局申请专利并获得批准,于2009年01月8日公开,公开号为:CN101477641FDR算法的主要思想是每次删除对数据集整体分形维数影响最小的属性,最终保留分形维数与数据集整体分形维数的差值满足一定阈值要求的属性子集。
现有技术一的缺点:
目前已知分形维数算法的最优时间复杂度为O(NlogN)(N为数据点数目),为了每次删除对当前属性集分形维数影响最小的属性,FDR算法需要(E—D)(E+D+1)/2次(D为需要保留的属性数目,E为数据空间属性数目)扫描数据集并计算当前属性子集对应的分形维数,相应地,FDR算法总的时间复杂度为O(E NlogN)。从本质上分析,FDR算法仍然属于基于特征子集优劣的特征选择算法,引入了大量分形维数的计算工作,因而无法应用于高维数据特征选择工作.其中,现有技术二:闫光辉和李战怀于2008在计算机研究与发展上发表论文《两阶段无监督顺序前向分形属性规约算法》,研究了一种基于分形的属性规约方法。该方法首先利用分形对属性集进行相似属性分组和冗余属性排除,然后产生最大无关属性子集。此方法相比FDR算法在效率上有所提高。
现有技术二的缺点
该方法的缺点主要有:
1.该方法需要计算的分形维平均次数也较多。
1)相似属性分组时需要计算每个属性的分形维;
2)冗余属性排除时需要在每个相似属性分组中两两属性之间的计算分形维;
3)在利用前向算法向候选最大无关属性组中添加属性时也需要不断计算分形维。
2.该算法无法排除2个以上属性之间的依赖性。
3.该算法对数据集属性间相关性或冗余较小或较大时都不好。
发明内容
本发明的目的在于克服现有技术的不足,在此提供一种基于分形技术的病案库构建方法;本发明基于分形技术扑捉病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减和重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。
本发明是这样实现的,提供一种基于分形技术的病案库构建方法,其特征在于:包括如下步骤;
步骤1:输入数据集;
输入病案数据,提取关键属性
S={A,E},其中A表示拥有m个属性的属性集{A1,A1,…,Am},E表示包括n个元组的对象集;
步骤2:尺度筛选;
步骤2.1计算D(A)的q为-5,2,5时的多重分形维度D-5、D2、D5,以及对应的分形标度区;
步骤2.2对q为-5,2,5时对应的分形标度区间求交,得到公共分形标度区;
步骤2.3取公共分形标度区的中间标度[rmin,rmax],作为筛选结果;
步骤2.4选择最大分形尺度rmax作为输出尺度;
步骤3:样本缩减
步骤3.1删减非分形样本
依次检索Pi(rmin),i=1,…,N,若Pi(rmin)<τ,去除样本点i;
依次检索Pi(rmax),i=1,…,N,若Pi(rmax)<τ,去除样本点i;
步骤3.2保留rmax尺度样本;
步骤4:属性约简器
步骤4.1:计算属性无关概率,构建无关属性组,算法:
(1)初始化:数据集D={A,E},
A={A1,A1,…,Am}E表示包括n个元组的对象集,
kmax,W={W1,W2,…,Wm}
(2)r←计算初始数据集D(A)的分形维数
(3)d←取大于等于d的最小整数
(4)
(5)k←0
(6)do k←k+1
(7)
属性
(8)ds←计算属性子集D(S)的分形维数
(9)
(10)
(11)对Wk+1(A)作归一化处理
(12)until k=kmax;
步骤4.2:根据属性无关概率,选择属性子集,
依据Wk+1(A),选择具有最大无关概率的前k个属性。
本发明的优点在于:本发明基于分形技术扑捉病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减和重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。
附图说明
图1是本发明病案库维护流程。
具体实施方式
下面将对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过改进提供一种基于分形技术的病案库构建方法,可以按照如下实施;包括如下步骤;
步骤1:输入数据集;
输入病案数据,提取关键属性
S={A,E},其中A表示拥有m个属性的属性集{A1,A1,…,Am},E表示包括n个元组的对象集;
步骤2:尺度筛选;
步骤2.1计算D(A)的q为-5,2,5时的多重分形维度D-5、D2、D5,以及对应的分形标度区;
步骤2.2对q为-5,2,5时对应的分形标度区间求交,得到公共分形标度区;
步骤2.3取公共分形标度区的中间标度[rmin,rmax],作为筛选结果;
步骤2.4选择最大分形尺度rmax作为输出尺度;
步骤3:样本缩减
步骤3.1删减非分形样本
依次检索Pi(rmin),i=1,…,N,若Pi(rmin)<τ,去除样本点i;
依次检索Pi(rmax),i=1,…,N,若Pi(rmax)<τ,去除样本点i;
步骤3.2保留rmax尺度样本;
步骤4:属性约简器
步骤4.1:计算属性无关概率,构建无关属性组,算法:
(1)初始化:数据集D={A,E},
A={A1,A1,…,Am}E表示包括n个元组的对象集,
kmax,W={W1,W2,…,Wm}
(2)r←计算初始数据集D(A)的分形维数
(3)d←取大于等于d的最小整数
(4)
(5)k←0
(6)do k←k+1
(8)
(8)ds←计算属性子集D(S)的分形维数
(9)
(10)
(11)对Wk+1(A)作归一化处理
(12)until k=kmax;
步骤4.2:根据属性无关概率,选择属性子集,
依据Wk+1(A),选择具有最大无关概率的前k个属性。
考虑到实际数据分布的多样性和复杂性,仅以某一分形维数为特征难以区分单一分形集和多重分形集,为了能更准确地描述一个数据集的分形特征,本文使用了多重分形维数。
算法:计算多重分形维度
多重分形维数Dq采用推广G-P(Grassberger-Procaccia)算法计算。给定q值,Dq的计算方法如下:
步骤1:以r0为初值,13.14.增量Δr为步长,重复计算一系列离散r对应的q阶关联积分Cq(r)。
给定r的Cq(r)的计算方法如下:
若X为数据集,记为X={x1,x2,…,xN},其中,数据项xi具有M个属性,可以看作是M维空间中的点,由这些点组成M维欧氏空间中的一个子集。
定义xi到xj点的距离为dij。以xi点为中心、以r为半径作球,计算全部点均位于球内的概率,计算公式如下:
其中,δ(x)是Heaviside阶跃函数:
因此,q阶关联积分可以通过下式计算:
步骤2:确定分形标度区
根据步骤1中计算得到的一系列Cq(r)绘制ln>q(r)-
lnr曲线。数据集具有多重分形性质,则ln>q(r)-
lnr曲线中间有一段是直线,这段直线对应于分形标度区,记为[rmin,rmax]
步骤3:计算广义维数Dq
在分形标度区中用最小二乘法拟合其斜率,得到Dq的值。
本发明基于分形技术扑捉病案库的主要特征,从病案数量与病案属性两方面对历史病案库进行约减和重构,能够避免病案库的无限扩大,提高病案库检索和分析的效率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
机译: 记录了一种基于数据库的数据关联方法和一种基于数据库的数据关联系统以及基于数据库的数据关联方法,并且计算机可读记录介质包括计算机可读记录介质。
机译: 具有专有技术结构的数据库的构建方法和具有专有技术结构的数据库架构系统
机译: 直接构建RNA库的核酸序列,基于RNA样本的直接构建测序库的方法及其用途