首页> 中国专利> 适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法

适用中药方剂网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法

摘要

本发明提供一种适用中药方剂(Traditional Chinese Medicine Herbs,以下简称TCMF)网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,包括如下步骤:1)共近邻相似三元组凝聚阶段a寻找所有三元组;b对任意两个三元组计算相似度;c给定三元组的相似度阈值,合并相似度高于相似度阈值的三元组对作为初始社区;d结束;2)簇合并阶段a计算任意两个初始社区的距离;b定初始社区距离阈值,合并距离小于距离阈值的两个初始社区;c结束。本发明的基于TCMF网络的层次重叠核心药群发现方法为TCMF网络发现提供了一种新的方法,该方法通过三个参数α,β,γ的设定能挖掘TCMF网络的高重叠及层次药群社区结构,为方剂配伍中核心药群发现提供了解决方案。

著录项

  • 公开/公告号CN102646168A

    专利类型发明专利

  • 公开/公告日2012-08-22

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN201210110861.6

  • 申请日2012-04-16

  • 分类号G06F19/00(20110101);

  • 代理机构32112 南京天翼专利代理有限责任公司;

  • 代理人汤志武

  • 地址 210093 江苏省南京市鼓楼区汉口路22号

  • 入库时间 2023-12-18 07:51:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-09

    未缴年费专利权终止 IPC(主分类):G06F19/00 授权公告日:20141217 终止日期:20180416 申请日:20120416

    专利权的终止

  • 2014-12-31

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F19/00 变更前: 变更后: 申请日:20120416

    专利权人的姓名或者名称、地址的变更

  • 2014-12-17

    授权

    授权

  • 2012-10-10

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20120416

    实质审查的生效

  • 2012-08-22

    公开

    公开

说明书

技术领域

本发明涉及一种中药方剂(Traditional Chinese Medicine Herbs, 以下简称TCMF)挖掘的方法,尤其涉及适用TCMF网络的基于共 近邻相似三角形凝聚的层次重叠社区发现方法。

背景技术

目前利用数据挖掘技术探讨方剂配伍规律的研究主要有以下三 种模式:以分类为主的数据挖掘研究模式,以聚类为主的数据挖掘研 究模式和以关联规则挖掘为主的研究模式。

用网络的观点描述客观世界起源于1736年德国数学家Eular解决 哥尼斯堡七桥问题。利用网络的拓扑结构来挖掘其功能模块和组织结 构是社团结构发现的主要目标,迄今为止有大量的研究者投入了很大 的努力,学术界已提出了许多社团发现方法,Fortunato对这些方法提 供了一个较为全面的总结,给出了三个较为常见的社区结构定义:局 部定义、全局定义和结点相似度定义,事实上还有边相似度定义。

现实世界中有很多的真实复杂网络,如社会网络、互联网页面间 互相链接网络、文献引用网络、生物学网络(如蛋白质相互作用网络)、 论文合著网络等等。不同的真实网络结构代表其研究方向的现实意义, 中药方剂(Traditional Chinese Medicine Formula,简写TCMF)网络 是区别于传统复杂网络的真实网络,如图1所示为TCMF网络,附图2 所示为两种网络重叠对比。

TCMF网络社团结构代表了一类具有潜在组方可能的药群, TCMF网络不仅有重叠结点,还具有重叠边,另外TCMF网络也有一 定的层次性,大的组方药群中包含有小的更紧密组方药群,TCMF网 络层次性一定程度上可以用来探索症候与症状的关系。传统的层次重 叠社区发现方法(如LFM方法、边凝聚方法等)并不适用于TCMF网 络

发明内容

本发明所要解决的技术问题是提供一种适用TCMF网络的基于 共近邻相似三角形凝聚的层次重叠社区发现方法,为TCMF网络挖 掘的应用提供解决方案。

技术方案:为解决上述问题,本发明的适用TCMF网络的基于 共近邻相似三角形凝聚的层次重叠社区发现方法包括如下步骤:

1)共近邻相似三元组凝聚阶段

a寻找所有三元组;

b对任意两个三元组计算相似度;

c给定三元组的相似度阈值β,合并相似度高于相似度阈值β的 三元组对作为初始社区;

d结束;

2)簇合并阶段

a计算任意两个初始社区的距离;

b定初始社区距离阈值γ,合并距离小于距离阈值γ的两个初始 社区;

c结束。

本发明中,步骤1)-a中所述的三元组为图中三结点完全图。

本发明中,步骤1)-b中所述的两个三元组的相似度公式定义如下:

S(Tr,Ts)=α·J(Tr,Ts)+(1-α)·J(N(Tr),N(Ts))·sign(J(Tr,Ts))

(1)

其中,Tr和Ts为TCMF网络中三元组,N(Tr)和N(Ts)分别为Tr和Ts的 邻居结点,sign(X)定义如下:

sign(X)=1X>00X=0---(2)

J(Tr,Ts)为Jaccard相似系数,Jaccard相似系数定义如下:

J(Tr,Ts)=|TrTs||TrTs|---(3)

参数α控制内部重叠及邻居重叠所占的权重。

进一步,本发明中,步骤2)-a中的初始社区距离公式定义如下:

D(Ci,Cj)=1-|CiCj|2×min{|Ci|,Cj|}-|(CiCj)in|2×min{|Ciin|,|Cjin|}---(4)

本发明的有益效果:本发明的基于共近邻相似三角形凝聚的层次 重叠社区发现方法为TCMF网络发现提供了一种新的方法,该方法通 过三个参数α,β,γ的设定能挖掘TCMF网络的高重叠及层次药群社区 结构,为方剂配伍中核心药群发现提供了解决方案。

附图说明

图1为TCMF网络图。

图2为TCMF网络重叠与传统网络重叠对比图。

图3为本发明实施例的基于共近邻相似三角形凝聚的层次重叠 社区发现方法的流程图。

图4为图3中共近邻相似三元组凝聚为初始社区C的流程图。

图5为图3中簇合并阶段的流程图。

具体实施方式

为了更了解本发明的技术内容,特举具体实施例并配合所附图式 说明如下。

如图1所示,中医药方剂(TCMF)网络具有明显社区结构,TCMF 网络的构建过程为:遍历方剂数据库,对每味药计算出现贡献度 (Appear Contribution,简写AC)值,去除AC<min_ac的药物,剩余 药物两两组合,再次遍历方剂数据库并计算二元组药物AC值,去除 AC<min_ac的二元组,然后对于剩余二元组药物组合成三元组并计算 三元组药物AC值,去除AC<min_ac的三元组,初始TCMF网络为空 (没有结点和边),遍历每个三元组药物组合,把其中任两个药物组 合作为一条边不断的加入到TCMF网络中,从而构建得到TCMF网 络。其中min_ac为给定AC阈值,n元组出现贡献度AC计算公式为:

pn=1F.size(n=1,2,3)

如图2所示为构建的TCMF网络重叠与传统网络重叠的对比, TCMF网络具有高重叠特点,不仅具有重叠结点,还有重叠边,这实 际上反映了方剂存在“单方->基本方->复方”的衍变及加减方等特点。

如图3为本发明实施例的基于共近邻相似三角形凝聚的层次重 叠社区发现方法的流程图。基于共近邻相似三角形凝聚的层次重叠社 区发现方法包括如下步骤:

1)共近邻相似三元组凝聚阶段

a寻找所有三元组;

b对任意两个三元组计算相似度;

c给定三元组的相似度阈值β,合并相似度高于相似度阈值β的 三元组对作为初始社区;

d结束;

2)簇合并阶段

a计算任意两个初始社区的距离;

b定初始社区距离阈值γ,合并距离小于距离阈值γ的两个初始 社区;

c结束。

如图4所示为图3中共近邻相似三元组凝聚阶段流程图。本发明 定义的三元组相似度考虑了以下几种情况:第一,重叠结点占总结点 数之比;第二,三元组邻居结点重叠占邻居结点数之比;第三,去除 了两个三元组没有公共点而只计算邻居结点的特殊情况,例如图2(b) 中TCMF网络重叠的两个三元组{b,c,d}和{e,f,g},它们有共同的邻居 结点{a},但是这两个三元组的相似度不能太大。对于该相似度的定 义可以简单理解为两个有交集的三元组的内部结点重叠度及邻居结 点重叠度的加权和,由参数α控制内部重叠及邻居重叠所占的权重。

共近邻相似三元组凝聚阶段的具体步骤如下:

步骤1-0为方法开始;

步骤1-1为输入,包括TCMF网络,阈值参数α,β(默认 α=0.7,β=0.25);

步骤1-2为在TCMF网络中寻找所有三元组,该三元组为三结点 完全图;

步骤1-3为预设外层循环变量r=0;

步骤1-4为预设内层循环变量s=r+1;

步骤1-5为按照公式(1): S(Tr,Ts)=α·J(Tr,Ts)+(1-α)·J(N(Tr),N(Ts))·sign(J(Tr,Ts))计算三元组Tr,Ts 的相似度S(Tr,Ts),若S(Tr,Ts)>β,执行步骤1-6,否则执行步骤1-7;

步骤1-6为合并三元组Tr,Ts,结果加入初始社区集合C;

步骤1-7为循环变量s自增1;

步骤1-8为判断s是否越过集合T元素边界,若未越界则执行步 骤1-5,否则执行步骤1-9;

步骤1-9为循环变量r自增1;

步骤1-10为判断r是否为集合T最后一个元素的下标,若是则 执行步骤1-11,否则执行步骤1-4;

步骤1-11为将步骤1-2中没有覆盖到的TCMF网络中的二元组 加入初始社区集合C;

步骤1-12为返回初始社区C,共近邻相似三元组凝聚步骤结束

其中T为TCMF网络中二元组和三元组集合,C为共近邻相似 三元组凝聚阶段输出的初始社区划分结果集合。

如图5所示为图3中簇合并步骤流程图,具体步骤如下:

步骤2-0为簇合并步骤开始;

步骤2-1为预设外层循环变量r=0;

步骤2-2为预设内层循环变量s=r+1;

步骤2-3为按照公式(4): D(Ci,Cj)=1-|CiCj|2×min{|Ci|,Cj|}-|(CiCj)in|2×min{|Ciin|,|Cjin|}计算初始社区Cr,Cs的 距离,若D(Cr,Cs)<γ,则执行步骤2-4,否则执行步骤2-5;

步骤2-4为合并初始社区Cr,Cs,结果加入集合R;

步骤2-5为循环变量s自增1;

步骤2-6为判断s是否越过集合C元素边界,若未越界则执行步 骤2-3,否则执行步骤2-7;

步骤2-7为循环变量r自增1;

步骤2-8为判断r是否为集合C最后一个元素的下标,若是则执 行步骤2-9,否则执行步骤2-2;

步骤2-9为返回结果集合C,本层簇合并步骤结束;

其中,R为社区划分结果,且簇合并可能执行多次,通示不断增 大参数值γ(0.0-1.0)来得到不同的划分层次。

综上所述,本发明的基于共近邻相似三角形凝聚的层次重叠社区 发现方法为TCMF网络发现提供了一种新的方法,该方法通过三个 参数α,β,γ的设定能挖掘TCMF网络的高重叠及层次药群社区结构, 为方剂配伍中核心药群发现提供了解决方案。

虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。 本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范 围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利 要求书所界定者为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号