首页> 中国专利> 一种基于分布式计算的中医古籍大数据挖掘分析系统

一种基于分布式计算的中医古籍大数据挖掘分析系统

摘要

本发明公开了一种基于分布式计算的中医古籍大数据挖掘分析系统,包括:数据输入模块、数据加工模块、数据清洗模块、数据挖掘分析模块、数据处理模块。数据输入模块,用于输入中医古籍数据;数据加工模块,用于对中医古籍数据进行分段,获得中医古籍的段落数据;数据清洗模块,用于对段落数据进行标准化处理,获得标准化数据;数据挖掘分析模块,用于对标准化数据的术语词进行特征提取,统计术语词的出现频次;数据处理模块,用于对挖掘分析模块提供可行性支持。该系统在传统古籍数据挖掘的基础上集成了Storm分布式平台,同时融入了各算法可视化模块,通过专业化词表解决了古籍挖掘盲目性以及数据量大时算法运行时间长的问题。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    公开

    发明专利申请公布

说明书

技术领域

本发明属于数据挖掘领域,特别是涉及一种基于分布式计算的中医古籍大数据分析系统。

背景技术

中医古籍是我国传统文化的宝贵财富,也是中国医学理论研究与应用的主要参考文献,中医古籍文献中的大量病例,对现代临床医学的发展有重要意义。随着大数据时代的到来,如何利用计算机技术分析、归纳、挖掘中医古籍中记载的诊疗与用药规律已成为现代中医药研究的重要方向之一。数据挖掘技术是从庞大的、缺失的、有噪声的、模糊的、随机的数据中提取隐藏的、潜在有价值的数据的过程。数据挖掘技术的自有特性为中医古籍信息的知识提取带来了新的机遇。在大数据时代,知识变的更加全面,这也使海量中医古籍数据的集成挖掘成为可能。

数据挖掘在中医古籍中的应用仍存在许多亟待解决的痛点问题,尽管大数据技术不强调结构化以及规范化数据,但古籍文献存在大量的一词多义、多词同义的现象,这对提取有价值的数据信息造成了很大困难。同时由于中医古籍中记载着病、证、方、药的海量知识及其相关关系,利用复杂网络、聚类分析等对其进行数据挖掘分析需要较多的时间和计算资源,如何针对中医古籍的知识挖掘特点,设计高效的数据挖掘计算模型与技术是中医古籍大数据知识发现的关键。

发明内容

本发明的目的是提供一种基于分布式计算的中医古籍大数据分析系统,以解决上述现有技术存在的问题。该系统在传统古籍数据挖掘的基础上集成了Storm分布式平台,同时融入了各算法可视化模块,通过专业化词表解决了古籍挖掘盲目性以及数据量大时算法运行时间长的问题。

为实现上述目的,本发明提供了一种基于分布式计算的中医古籍大数据分析系统,包括:

数据输入模块,用于输入古籍数据,提供数据支撑;

数据加工模块,与所述数据输入模块连接,用于对所述中医古籍数据进行分段,获得中医古籍的段落数据;

数据清洗模块,与所述数据加工模块连接,用于对所述段落数据进行标准化处理,获得标准化数据;

数据挖掘分析模块,与所述数据清洗模块连接,用于对所述标准化数据的术语词进行特征提取,统计所述术语词的出现频次;

数据处理模块,与所述数据挖掘分析模块连接,用于对所述数据挖掘分析模块提供可行性支持。

优选地,所述清洗模块包含第一清洗单元、第二清洗单元;所述第一清洗单元,用于对所述古籍数据中的标准化词进行加壳操作;所述第二清洗单元,用于通过隐马尔可夫模型的分词算法、专业词表识别数据中的异名词,利用中医专业化词表对所述古籍数据进行标准化,剔除非标准化术语词,获得所述标准化数据。

优选地,挖掘分析模块包括:

关联规则单元,用于通过专业词表及所述古籍数据获得术语词之间的支持度,置信度,提升度指标;

点互信息单元,用于通过专业词表及所述古籍数据获得术语词之间的共现频次及点互信息指标;

卡方校验单元,用于通过专业词表及所述古籍数据获得术语词之间的卡方值;基于所述支持度、置信度、提升度指标、共现频次及点互信息指标,利用所述卡方值进一步验证术语词之间关系;

聚类分析单元,用于通过专业词表及所述古籍数据,依据不同的距离类型、不同的聚类方法进行层次聚类,提供聚类可视化展示;

社团分析单元,用于通过专业词表及所述古籍数据,利用贪心优化模块度社团分析算法,对术语词进行社团划分,并提供可视化展示;

复杂网络单元,用于通过专业词表及所述古籍数据,利用术语词共现频次构建复杂网络,通过节点间权重进行可视化展示。

优选地,所述聚类分析单元包括尺度维度单元,所述尺度维度单元包括距离类型,聚类方法;

所述距离类型包括:欧式距离,切比雪夫距离,绝对值距离;

所述聚类方法包括:最大距离,最小距离,平均距离。

优选地,所述聚类分析单元还包括层次聚类展示单元,所述层次聚类展示单元包括横向层次聚类图、纵向层次聚类图。

优选地,所述处理模块包括Storm流式数据处理单元、存储单元、获取单元、分布式计算单元;

所述Storm流式数据处理单元,用于接收分布式信息流平台发送的实时请求,通过查询相关的段落数据并抽取出现术语词的特征,获得目标词表的特征;

所述存储单元,用于根据所述目标词表的特征,利用时间换空间的方法,将中间计算结果中冗余的数据存储到数据结构服务器中;

所述获取单元,用于选取合适的并行度、合适的进程数;

所述分布式计算单元,用于通过分布式计算,将所述古籍数据发送给Bolt消费者进行并行计算,获得分析成功的数据。

优选地,所述Storm流式数据处理单元采用定时存储方式对临时结果进行存取。

本发明的技术效果为:

本发明引入了清洗模块,对数据进行规范化处理,同时基于专业词表分析古籍数据,剔除了一部分无效古籍数据,能够更精准地找到具有价值的古籍数据,这也是数据挖掘技术知识发现的关键。

本发明还在传统古籍数据挖掘的基础上集成了Storm分布式平台,为实时性的数据挖掘模块提供可行性支持,实现与本地挖掘系统的毫秒级延迟;利用分布式计算多进程多线程的特点占用较少的空间资源缓解挖掘计算过程中的计算压力,加快系统响应速度。同时融入了各算法可视化模块,通过专业化词表解决了古籍挖掘盲目性以及数据量大时算法运行时间长的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本发明实施例中的系统流程图;

图2为本发明实施例中的Storm平台的架构图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例一

如图1-2所示,本实施例中提供一种基于分布式计算的中医古籍大数据分析系统,包括:数据输入模块、数据加工模块、数据清洗模块、数据挖掘分析模块、数据处理模块。

数据输入模块,用于输入中医古籍数据,古籍数据输入是执行数据挖掘的数据基础,该模块支持txt、excel数据。

导入系统后的数据可通过数据加工模块对古籍数据进行分段,将古籍数据转换为结构化数据,初步减少数据噪声对分析结果的影响,系统中认为同一段落出现的术语词具有高度相关的特点,如共现中药数据极可能是属于配伍规律中的一种。同时数据加工模块支持用户手动对非标准数据进行纠正。

古籍数据加工完成后,系统进入数据清洗模块,该模块利用中医专业化词表对古籍数据进行进一步标准化,标准化过程中应用了基于隐马尔可夫模型的分词算法,基于专业词表识别数据中的异名词,并将异名词替换为标准术语词,同时系统在执行标准化前为数据中的标准化词即正名词进行了加壳操作,避免因中文汉字的包含关系造成标准化词被再度污染,

对于一本古籍数据,当古籍完成数据清洗后,系统可执行数据挖掘分析模块,数据挖掘分析模块包括:关联规则单元、点互信息单元、卡方校验单元、聚类分析单元、社团分析单元、复杂网络单元。数据挖掘分析模块中的术语词出现频次以古籍段落为单位进行统计,系统认为同一段落出现的术语词高度相关,术语词的特征提取基于是否出现在本段落中这一因素。

关联规则单元基于专业词表及中医古籍数据计算两两术语词之间的支持度,置信度,提升度指标。其中支持度衡量术语词A与术语词B在系统段落中共同出现的概率,在此处以频率代替概率。置信度衡量在术语词A出现的先决条件下,术语词B出现的概率。提升度用于判断术语词A与术语词B之间的独立性。

点互信息单元基于专业词表及中医古籍数据计算两两术语词之间的共现频次及点互信息指标,点互信息指标用于判断术语词A与术语词B之间的相关性。

卡方校验单元基于专业词表及中医古籍数据计算两两术语词之间的卡方值,利用该指标可基于以上指标值进一步验证术语词之间关系。

聚类分析单元基于专业词表及中医古籍数据以及术语词的段落特征依据不同的距离计算方式以及不同的聚类方法进行层次聚类,同时提供横向层次聚类图、纵向层次聚类图两种展示方式,其中距离计算方式包括:欧式距离,切比雪夫距离,绝对值距离。聚类方法包括最大距离,最小距离,平均距离。其中若相关的术语词在采用不同的距离计算以及聚类方法会出现不同的聚类效果,因此系统提供了多样的聚类方法以便客观地分析术语词联系。

社团分析单元基于专业词表及中医古籍数据利用贪心优化模块度社团分析算法基于术语词的段落特征对术语词进行社团划分,在可视化展示中同一社团的术语词使用同一颜色进行展示。同一社团中的术语词连接紧密,而不同社团之间的术语词连接稀疏。

复杂网络单元基于专业词表及中医古籍数据利用两两术语词共现频次构建复杂网络,基于节点间权重进行可视化展示,复杂网络模块可通过关键词搜索,挖掘术语词A,术语词B,关键词三者共现的关系,可支持通过热点关心词进行数据挖掘。

为实现实时性地响应数据挖掘请求,系统集成了Storm流式数据处理平台,利用Storm平台低延时、高吞吐的特点,实现了数据挖掘模块的实时请求。系统使用的Storm平台基于三台机器,集群平台运行两个云计算平台nimbus,三个进程管理工具Supervisor。系统与Storm平台交互的流程如下:

(1)系统建立分布式信息流生成者,通过分布式信息流平台向Storm平台发送实时请求。

(2)Storm平台接受分布式信息流平台请求后,查询相关的段落数据并抽取出现术语词的特征,基于所选目标词表的特征,为避免在Storm多进程多线程的场景下出现数据库连接过多导致数据查询缓慢的原因,系统设计以空间换时间的方法,将中间计算结果中冗余的缓存数据存储到数据结构服务器中,以便重复使用。Storm平台抽取相关特征后基于所选算法将数据发送给相应的运算节点进行并行计算。

(3)Storm平台计算完成后创建分布式信息流平台生成一条分析成功的数据发送给系统平台,以便系统及时响应。

并行计算受限于Storm平台资源压力以及应用程序运算节点之间的协作关系,系统需在平台选取合适的并行度以及合适的进程数。Storm平台在临时结果存取中,为减少系统响应时间,采用定时存储方式改进传统InsertBolt单条存储带来的时间压力。

以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号