首页> 中国专利> 一种基于数据挖掘的中医医学文献分类及存储方法

一种基于数据挖掘的中医医学文献分类及存储方法

摘要

本发明提供了一种基于数据挖掘的中医医学文献分类及存储方法,其包括步骤:获取中医医学文献基础数据库;分别按照下载的先后顺序,以特定的编码格式保存;对下载的非结构化的文本数据进行关键信息提取,建立中医医学文献的关键信息的编码表;将核心数据对应的所有关键词划分到若干核心数据群中;同时将非核心数据对应的所有关键词划分到若干非核心数据群中;获取到中医文献关键词组合,并根据中医文献关键词组合作为检索关键词获取到相应的中医文献作为中医医学文献,将所述中医医学文献进行存储,并将所述中医文献关键词组合作为所述中医医学文献存储标识。本发明实现了高效与准确的获取中医学文献数据,完成了中医医学文献的精确分类存储。

著录项

  • 公开/公告号CN106682136A

    专利类型发明专利

  • 公开/公告日2017-05-17

    原文格式PDF

  • 申请/专利权人 谭红春;

    申请/专利号CN201611174644.8

  • 发明设计人 谭红春;孟庆全;谷宗运;耿英保;

    申请日2016-12-19

  • 分类号G06F17/30(20060101);

  • 代理机构北京和信华成知识产权代理事务所(普通合伙);

  • 代理人胡剑辉

  • 地址 230000 安徽省合肥市蜀山区梅山路70号

  • 入库时间 2023-06-19 02:12:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-06

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20180316 终止日期:20181219 申请日:20161219

    专利权的终止

  • 2018-10-09

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20180913 变更前: 变更后: 申请日:20161219

    专利申请权、专利权的转移

  • 2018-03-16

    授权

    授权

  • 2018-03-02

    著录事项变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20161219

    著录事项变更

  • 2018-03-02

    专利申请权的转移 IPC(主分类):G06F17/30 登记生效日:20180208 变更前: 变更后: 申请日:20161219

    专利申请权、专利权的转移

  • 2017-06-09

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20161219

    实质审查的生效

  • 2017-05-17

    公开

    公开

查看全部

说明书

技术领域

本发明涉及到文献数据处理技术领域,特别是一种基于数据挖掘的中医医学文献分类及存储方法。

背景技术

中医学是当今中国医药卫生事业中独具特色和优势的重要组成部分,对于丰富世界医学宝库、保护人类健康,产生积极的作用。新形势下,我国中医学学领域的相关研究在注重继承经典的同时,同样注重与西方医学、药学、信息学、生物学等领域的交叉融合,形成新的学科增长点,在学术研究领域则表现为研究主题跨双学科或多学科的学术论文的发表。在医学研究领域,领域内专家、学者通常基于定性的研究方法,在大量阅读文献的基础上,依据其研究经验及积累主观性地识别某领域或学科的研究热点,形成综述类文献或报告,以供借鉴。

现有技术目前都是基于人工分析整理中医学文献,还没有一种科学的科学化基于大数据分析的文献分类方式。

发明内容

为解决上述技术问题,本发明提供了一种基于数据挖掘的中医医学文献分类及存储方法,其包括以下步骤:

在特定知识数据库中通过中医检索关键词进行检索,获取到若干与所述中医检索关键词匹配的中医文献作为中医医学文献基础数据库;

分别按照下载的先后顺序,整合到一个平面文件里面,以特定的编码格式保存;

然后对下载的非结构化的文本数据进行关键信息提取,保存成特定的数据格式,建立中医医学文献的关键信息的编码表,所述关键信息分别对应一个二进制编码;

所述关键信息包括核心数据和非核心数据两种类型,提取出来的数据,首先存入相应数据库,作为下一步数据处理的基础数据,然后导人SQL中进行下一步的挖掘分析;所述核心数据为下载的文本数据中超过设定阈值频率的关键词,所述非核心数据为下载的文本数据中出现过至少一次并低于设定阈值的关键词;核心数据对应的关键词i的数据模式可以表示为一个关系表Hi(B1,B2,...,Bmi),其中B为该关键词的属性值,各关键词的属性值根据关键词所在中医的具体领域进行预先设定;关键词对应的数据库{D1,D2,...,Dni}的数据模式都可以对应到Hi上;其中非核心数据对应的关键词j的数据模式可以表示为一个关系表Hj(B1,B2,...,Bmj),其中B为该关键词的属性,关键词对应的数据库{D1,D2,...,Dnj}的数据模式都可以对应到Hj上;

具体各关键词的关联度量化值为K(Bmi,Dni)=ρdist(Bmi,Dni)-1,K(Bmj,Dnj)=ρdist(Bmj,Dnj)-1,dist(Bmi,Dni)为Bmi、Dni之间的欧式距离,dist(Bmj,Dnj)为Bmj、Dnj之间的欧式距离,ρ>1为伸缩因子;其中K(Bmi,Dni)、K(Bmj,Dnj)表示核心数据对应的关键词i、非核心数据对应的关键词j的关联度量化值,将关联度量化值在给定阈值范围内的所有关键词作为一个关键词数据群,将核心数据对应的所有关键词划分到若干核心数据群中;同时将非核心数据对应的所有关键词划分到若干非核心数据群中;

对所述核心数据群中对应的关键词与所述非核心数据群中对应的关键词进行随机两两组合,获取到中医文献关键词组合,并根据所述中医文献关键词组合作为检索关键词获取到相应的中医文献作为中医医学文献,将所述中医医学文献进行存储,并将所述中医文献关键词组合作为所述中医医学文献存储标识。

本发明具有以下有益效果:

本发明提供的基于数据挖掘的中医医学文献分类及存储方法基于中医学数据库关键词检索,并通过对检索到的文献进行数据提取,对获取到的关键信息进行数据挖掘分析,得到关键词数据群,并根据关键词数据群中的关键词进行组合进行检索得到相关中医医学文献,并将所述中医文献关键词组合作为所述中医医学文献存储标识。本发明实现了高效与准确的获取中医学文献数据,完成了中医医学文献的精确分类存储。

当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

具体实施方式

下面将结合本发明实施例对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明实施例提供了一种基于数据挖掘的中医医学文献分类及存储方法,其包括以下步骤:

在特定知识数据库中通过中医检索关键词进行检索,获取到若干与所述中医检索关键词匹配的中医文献作为中医医学文献基础数据库;

分别按照下载的先后顺序,整合到一个平面文件里面,以特定的编码格式保存;

然后对下载的非结构化的文本数据进行关键信息提取,保存成特定的数据格式,建立中医医学文献的关键信息的编码表,所述关键信息分别对应一个二进制编码;

所述关键信息包括核心数据和非核心数据两种类型,提取出来的数据,首先存入相应数据库,作为下一步数据处理的基础数据,然后导人SQL中进行下一步的挖掘分析;所述核心数据为下载的文本数据中超过设定阈值频率的关键词,所述非核心数据为下载的文本数据中出现过至少一次并低于设定阈值的关键词;核心数据对应的关键词i的数据模式可以表示为一个关系表Hi(B1,B2,...,Bmi),其中B为该关键词的属性值,各关键词的属性值根据关键词所在中医的具体领域进行预先设定;关键词对应的数据库{D1,D2,...,Dni}的数据模式都可以对应到Hi上;其中非核心数据对应的关键词j的数据模式可以表示为一个关系表Hj(B1,B2,...,Bmj),其中B为该关键词的属性,关键词对应的数据库{D1,D2,...,Dnj}的数据模式都可以对应到Hj上;

具体各关键词的关联度量化值为K(Bmi,Dni)=ρdist(Bmi,Dni)-1,K(Bmj,Dnj)=ρdist(Bmj,Dnj)-1,dist(Bmi,Dni)为Bmi、Dni之间的欧式距离,dist(Bmj,Dnj)为Bmj、Dnj之间的欧式距离,ρ>1为伸缩因子;其中K(Bmi,Dni)、K(Bmj,Dnj)表示核心数据对应的关键词i、非核心数据对应的关键词j的关联度量化值,将关联度量化值在给定阈值范围内的所有关键词作为一个关键词数据群,将核心数据对应的所有关键词划分到若干核心数据群中;同时将非核心数据对应的所有关键词划分到若干非核心数据群中;

对所述核心数据群中对应的关键词与所述非核心数据群中对应的关键词进行随机两两组合,获取到中医文献关键词组合,并根据所述中医文献关键词组合作为检索关键词获取到相应的中医文献作为中医医学文献,将所述中医医学文献进行存储,并将所述中医文献关键词组合作为所述中医医学文献存储标识。

本发明提供的中医医学文献获取方法基于中医学数据库关键词检索,并通过对检索到的文献进行数据提取,对获取到的关键信息进行数据挖掘分析,得到关键词数据群,并根据关键词数据群中的关键词进行组合进行检索得到相关中医医学文献,并将所述中医文献关键词组合作为所述中医医学文献存储标识。本发明实现了高效与准确的获取中医学文献数据,完成了中医医学文献的精确分类存储。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号