首页> 中国专利> 基于中医药知识规模化普及的多源异构大数据融合系统

基于中医药知识规模化普及的多源异构大数据融合系统

摘要

本发明公开了一种基于中医药知识规模化普及的多源异构大数据融合系统,包括数据导入模块、数据处理模块和数据融合分析模块;数据导入模块用于把基于中医药知识的多源异构数据导入数据仓库;所述数据处理模块用于把所述数据仓库中的数据转化为结构化关联数据和统计分析结果数据;所述数据融合分析模块用于借助数据模型对所述结构化关联数据和所述统计分析结果数据进行处理以得到数据报表、即时查询、数据分析及数据挖掘的结果;其中,所述多源异构数据包括来源于中医中药、网络空间、社交媒体、教育培训、药材营销中至少一个领域的实时数据和非实时数据。本发明能够满足中小实体机构对大数据的应用需求,有利于中医药行业知识的规模化普及。

著录项

  • 公开/公告号CN113111244A

    专利类型发明专利

  • 公开/公告日2021-07-13

    原文格式PDF

  • 申请/专利权人 绍兴亿都信息技术股份有限公司;

    申请/专利号CN202011624413.9

  • 发明设计人 汤浩钧;陈雪芳;

    申请日2020-12-31

  • 分类号G06F16/904(20190101);G06F16/906(20190101);G06F16/25(20190101);G06F16/36(20190101);G06F16/182(20190101);G06F9/54(20060101);

  • 代理机构31283 上海弼兴律师事务所;

  • 代理人薛琦;张冉

  • 地址 312030 浙江省绍兴市柯桥区柯桥经济开发区西环路以西科创大厦第5层505-508号

  • 入库时间 2023-06-19 11:49:09

说明书

【技术领域】

本发明涉及多源异构数据融合系统,特别涉及一种基于中医药知识规模化普及的多源异构大数据融合系统。

【背景技术】

当前,包括中医学校、中医医院、本草药店、药材供应商、合作伙伴和第三方开发者在内的各类实体机构,其每年产生的数据量正呈现指数级增长,信息资源翻倍式激增。企事业决策者们已经意识到了数据是实体机构的核心资产,期望对数据进行存储和挖掘以达到资产保值甚至增值的目的。然而,传统的信息资源管理、整合、应用技术已无法应对大数据时代的挑战。大多数实体机构在面对海量、多源、异构、实时的大数据时,往往缺乏相应的技术能力和经验来进行复杂的大数据处理,以支撑其多元化的应用。为了缓解当下存在的数据的无限性、知识的零散性与用户需求无法满足之间的矛盾,需要让各种数据转换成具有上下文意义的灵活的数据结构,实现数据智能化,以最大限度地提升大数据的价值,进而实现社会智能,因此必须要有新的大数据融合方式。

从大数据应用现状的角度看,线下中医学校、中医医院、本草药店、药材供应商、合作伙伴等诸如此类实体中医机构在面对海量、多源、异构的大数据时,缺乏线上支持技术,缺乏相应的技术能力和经验来进行复杂的大数据处理,存在着技术壁垒。线下实体中医机构独立研发线上支持技术的成本也很高,存在着资金壁垒,无法实现其多元化的应用设想。这些线下实体中医机构需要一站式的解决方案包括多源异构大数据支撑平台、网校系统、服务器、视频托管、网页寄存和技术维护等,从而免去大量的时间和资金的投入。此外尚存的困难还有,如何处理中医药先验知识的连续化表示的问题,如何把中医药大量的先验知识转换成普及性的行业知识,让人群极其分散但总量有上亿之多的广大个体用户受益,进而提升全民的健康素养。

【发明内容】

本发明要解决的技术问题是:为了克服现有技术中在面对海量、多源、跨界、异构、实时的中医药知识领域的大数据时,缺乏相应的技术能力和经验来进行繁复的处理,因此无法支撑各类中医实体机构对大数据的应用设想、同时亦难以实现中医药行业知识规模化普及的问题,提供一种能够满足中医药领域的多元化应用的需求以及有利于中医药行业知识规模化普及的、基于中医药知识规模化普及的多源异构大数据融合系统。

本发明是通过下述技术方案解决上述技术问题的:

本发明提供了一种基于中医药知识规模化普及的多源异构大数据融合系统,包括数据导入模块、数据处理模块和数据融合分析模块;

所述数据导入模块用于把基于中医药知识的多源跨界异构数据导入数据仓库;

所述数据处理模块用于把所述数据仓库中的数据转化为结构化关联数据和统计分析结果数据;

所述数据融合分析模块用于借助数据模型对所述结构化关联数据和所述统计分析结果数据进行处理以得到数据报表、即时查询、数据分析及数据挖掘的结果;

其中,所述多源跨界异构数据包括来源于中医中药、网络空间、社交媒体、教育培训、药材营销中至少一个领域的实时数据和非实时数据。

较佳地,所述多源异构大数据融合系统还包括可视化展示模块;

所述可视化展示模块用于基于行业应用需求对所述结构化关联数据和所述统计分析结果数据进行配置及展现。

较佳地,所述非实时数据包括业务数据、过程数据、互联网数据和其他结构化或键值对数据;所述实时数据包括用户行为数据;

所述数据导入模块还用于以分布式消息队列的形式由Kafka(一个开源流处理平台)把所述实时数据分发至所述数据仓库;

所述数据导入模块还用于使用Sqoop(一款开源的工具)或ETL(一种数据仓库技术)把所述业务数据导入HDFS(分布式文件系统);

所述数据导入模块还用于使用爬虫程序爬取所述互联网数据并导入所述数据仓库;

所述过程数据包括日志数据和应用数据,所述过程数据为文本数据;所述数据导入模块还用于使用Flume(一种日志收集系统)工具把所述过程数据导入所述数据仓库;

所述数据导入模块还用于把所述其他结构化或键值对数据导入Hive(一个数据仓库工具)或HBase(一个分布式的、面向列的开源数据库)。

较佳地,所述业务数据包括离线数据,所述离线数据包括中医药先验知识、市区县离线文档和GIS(地理信息系统)时空数据;

所述数据导入模块还用于使用硬件复制或文件传输协议的传输方式把所述离线数据导入所述数据仓库。

所述数据导入模块还用于使用硬件复制或文件传输协议的传输方式把所述离线数据导入所述数据仓库。

较佳地,所述业务数据包括流媒体数据;所述流媒体数据包括视频数据和音频数据;

所述数据导入模块还用于使用码流软件开发工具包或者采用多媒体流处理引擎抓取及在线处理所述流媒体数据并导入所述数据仓库。

较佳地,所述数据处理模块基于Mahout(开源项目)算法库把所述数据仓库中的数据转化为结构化关联数据和统计分析结果数据。

较佳地,

所述数据处理模块还用于使用MapReduce(一种编程模型)计算引擎对所述非实时数据进行处理;

所述数据处理模块还用于使用Spark(专为大规模数据处理而设计的快速通用的计算引擎)并行计算或Storm(一个分布式的、容错的实时计算系统)实时计算框架对所述实时数据进行处理。

较佳地,

所述数据处理模块还用于使用流媒体计算引擎对所述流媒体数据进行处理。

较佳地,所述数据模型包括聚合数据模型、细节数据模型、多维数据模型及业务数据模型;

所述数据融合分析模块还用于对所述结构化关联数据和所述统计分析结果数据经由所述聚合数据模型处理后得到所述数据报表的结果;

所述数据融合分析模块还用于对所述结构化关联数据和所述统计分析结果数据经由所述细节数据模型处理后得到所述即时查询的结果;

所述数据融合分析模块还用于对所述结构化关联数据和所述统计分析结果数据经由所述多维数据模型处理后得到所述数据分析的结果;

所述数据融合分析模块还用于对所述结构化关联数据和所述统计分析结果数据经由所述业务数据模型处理后得到所述数据挖掘的结果。

较佳地,所述可视化展示模块采用SSH(一个集成框架)框架进行配置及展现。

较佳地,支持中医药先验知识的导入和管理。

本发明的积极进步效果在于:本发明提供的基于中医药知识规模化普及的多源异构大数据融合系统,面向多数据源、多业务领域提出了一种开放生态下的跨界大数据融合解决方案,是一种从数据的采集、管理、分析、挖掘到可视化的端到端的服务系统,也是一种解决行业问题的能力。本发明提供的多源异构大数据融合系统,能够满足开放性、模块化、灵活性和可扩展性的要求,具备大规模数据采集、数据的结构化、标准化和知识化的能力,能够提高数据的融合性和共享性,提升行业数据和典型业务的融合水平,实现数据资源的分析、分享与保护。本发明提供的多源异构大数据融合系统,其上游服务于中医学校、中医医院、本草药店、药材供应商、合作伙伴和第三方开发者等组织级实体用户,其下游服务于人群极其分散但总量有上亿之多的对中医药有兴趣的广大个体用户。

【附图说明】

图1为本发明一较佳实施例的基于中医药知识规模化普及的多源异构大数据融合系统的模块示意图。

图2为本发明一较佳实施例的基于中医药知识规模化普及的多源异构大数据融合系统的框架示意图。

图3为基于本发明一较佳实施例的基于中医药知识规模化普及的多源异构大数据融合系统的云健康服务平台示意图。

【具体实施方式】

下面通过实施例的方式进一步说明本发明,但并不因此把本发明限制在所述的实施例范围之中。

如图1所示,本实施例提供了一种基于中医药知识规模化普及的多源异构大数据融合系统,包括数据导入模块1、数据处理模块2、数据融合分析模块3和可视化展示模块4。

本实施例中,数据导入模块1用于把基于中医药知识的多源跨界异构数据导入到数据仓库。

其中,多源跨界异构数据包括来源于中医中药、网络空间、社交媒体、教育培训、药材营销中至少一个领域的实时数据和非实时数据。非实时数据包括业务数据、过程数据、互联网数据和其他结构化或键值对数据,实时数据包括用户行为数据。具体地,过程数据为文本数据,包括日志数据和应用数据;业务数据包括离线数据和流媒体数据,离线数据包括中医药大量先验知识、市区县离线文档和GIS时空数据,流媒体数据包括视频数据和音频数据。

具体地,数据导入模块1还用于实现以下功能:以分布式消息队列的形式由Kafka把实时数据分发至数据仓库;使用Sqoop或ETL把业务数据导入HDFS;使用爬虫程序爬取互联网数据并导入数据仓库;使用Flume工具把过程数据导入数据仓库;把其他结构化或键值对数据导入Hive或HBase;使用硬件复制或文件传输协议的传输方式把离线数据导入数据仓库;使用码流软件开发工具包或者采用多媒体流处理引擎抓取及在线处理流媒体数据并导入到数据仓库。

本实施例中,数据处理模块2用于基于Mahout算法库把数据仓库中的数据转化为结构化关联数据和统计分析结果数据。

具体地,数据处理模块2用于使用MapReduce计算引擎对非实时数据进行处理;采用Spark并行计算或Storm实时计算框架对实时数据进行处理;采用流媒体计算引擎对流媒体数据进行处理。

本实施例中,数据融合分析模块3用于借助数据模型对结构化关联数据和统计分析结果数据进行处理以得到数据报表、即时查询、数据分析及数据挖掘等结果。其中,数据模型包括聚合数据模型、细节数据模型、多维数据模型及业务数据模型。需要说明的是,这些模型均为现有的成熟的数据模型,基于所选的这些数据模型进行数据融合分析则效果更好。

具体地,数据融合分析模块3用于实现以下功能:对结构化关联数据和统计分析结果数据,经由聚合数据模型处理后得到数据报表的结果,经由细节数据模型处理后得到即时查询的结果,经由多维数据模型处理后得到数据分析的结果,经由业务数据模型处理后得到数据挖掘的结果。

本实施例中,可视化展示模块4用于基于行业应用需求采用SSH框架对结构化关联数据和统计分析结果数据进行配置及展现。

本实施例提供的基于中医药知识规模化普及的多源异构大数据融合系统是一种从数据的采集、管理、分析、挖掘到可视化的端到端的服务系统,也是一种解决行业问题的能力。由前述描述可知,基于中医药知识规模化普及的多源异构大数据融合系统具体包括以下几个部分:多源跨界异构数据的导入也即数据导入模块1、异构数据的处理与存储也即数据处理模块2、数据的融合分析也即数据融合分析模块3、大数据融合系统的可视化展示也即可视化展示模块4(包括各类业务应用系统、Web平台和智能手机APP,具体实施时涉及到大数据融合系统的行业应用场景)。

本实施例中,跨界多源异构数据主要来源于中医中药、网络空间、社交媒体、教育培训和药材营销这几个领域的实时数据和非实时数据。数据类型包括非结构化数据、半结构化数据和结构化数据,表现为视频、音频、图片、波形、文本、表单和日志数据等。鉴于数据存储介质、数据存储类型和数据传输方式的差异,在实施时,数据导入模块1可借助不同的导入工具用于实现不同源数据和不同结构数据的导入。

源数据包括实时数据、业务数据、过程数据、互联网数据和其他数据,导入工具包括Kafka、Sqoop或ETL、FTP(文件传输协议)、Flume、爬虫工具等。其中,对实时性要求较高的数据例如用户行为数据,以分布式消息队列的形式由Kafka分发;关系型数据库使用Sqoop或ETL工具,可直接把业务数据导入HDFS;对于安全等级较高的数据和其他一些离线数据例如中医药大量先验知识、市区县离线文档和GIS时空数据,使用硬件复制或FTP的传输方式导入;对于过程数据如日志和应用数据等文本数据使用Flume工具导入;对于互联网数据使用爬虫程序爬取并导入;对于视频、音频等多媒体数据,使用各厂商提供的定制码流SDK(软件开发工具包)编写导入程序,或者采用多媒体流处理引擎直接抓取并在线处理。具体实施过程中,因数据来源差异较大,数据仓库中存放的主要是经过业务系统加工后的数据。也就是,针对不同的数据源和不同的数据结构,经由数据收集系统完成数据的导入,然后依据数据业务类型和内容的差异进行粗分类并存入数据仓库,而描述过程的数据一般都未被记录。

本实施例中,对于异构数据的处理与存储,根据数据类型的差异,选取不同的计算和存储引擎。对于非实时性数据的计算,选择MapReduce计算引擎;对于实时性要求较高的数据计算,选择Spark并行计算或Storm实时计算框架;对时序不可分的流媒体数据处理,选择定制流媒体计算引擎;对于结构化或键值对数据,采用Hive或HBase存储,兼容Oracle(甲骨文公司)和MySQL(关系型数据库管理系统)等关系型数据库;对于日志、多媒体等半结构化和非结构化数据,采用HDFS存储。数据仓库可统一建立在HDFS上,统一的存储有助于最大化地发挥分布式系统的数据处理能力。

对于结构化数据的处理主要包括内容清洗、统计分析、关联分析等;对于半结构化数据的处理涉及模板分类、字段检索、关键字段提取等;对于非结构化数据的处理涉及音视频内容的结构转化、文本内容的挖掘与分析、语义理解与情感分析等。随着数据结构多样性和内容不确定性的增加,数据处理的复杂度和难度则呈现指数型非线性增长,诸多数据处理问题在此交由Mahout算法库加以处理。至此,全部数据转化为结构化关联数据及统计分析结果数据,以方便各类业务系统的直接使用。

基于本实施例的设计,具体应用时,对于大数据融合系统的可视化展示的实现方式可参考图2所示的大数据融合系统框架予以实现,其主要含括三个层面的内容:基础平台层、数据处理层、应用展示层。其中,基础平台层对应图2左下部分的大数据平台,数据处理层对应图2中上部分的一系列数据处理流程模块包括:导入HDFS模块、数据整理模块、数据建模模块、导入HBase模块、内存缓存集群模块、业务模块和管理模块;应用展示层则对应图2其余部分的可视化平台模块、各类业务应用系统模块、Web平台和智能手机APP(应用程序)。基础平台层由Hadoop生态系统组件及其他数据处理工具构成,其中,Hadoop生态系统组件在图2中已列出了主要的Sqoop组件、Hive组件、Spark组件、HBase组件和Redis(一种存储系统)组件,其他数据处理工具在图2中已列出了主要的Mahout算法库。基础平台层除了提供基本的存储、计算和网络资源外,还提供分布式流计算、离线批处理、图计算等计算引擎。

数据存储主要依托HDFS、HBase,同时支持Oracle、MySQL等结构化存储组件,计算框架涵盖MapReduce、Storm、Spark、定制分布式视频流处理引擎及Mahout算法库等。此外,大数据融合系统的运维管理对应于图2中已列出的监控管理模块、任务调度模块、安全审计模块和容灾备份模块。

考虑到多源异构数据(包括音视频课程及资讯信息)有来自于各个线下实体中医机构、各个城市分站汇集的音视频、图片、文件等非结构化数据和半结构化数据,每个数据集从应用角度看都是独立的数据集,但从整体数据层面看,其数据集同时又是平台系统的数据全集中的根据地域和业务系统属性划分的数据切片,各数据切片自治性较强且独立更新。由于无论是HBase/Hadoop技术还是DBMS(数据库管理系统)技术都无法直接满足实际平台系统的应用需求,因此在综合吸收Hadoop和DBMS系统技术精髓的基础上,为Hadoop系统设计添加SQL查询前端工具,以实现元数据管理和查询功能,提供在HDFS之上的高速SQL分析。

数据处理层由多个数据处理模块组成,除了提供基础的数据抽取与统计分析算法外,还提供半结构化和非结构化数据转结构化数据的处理算法、数据内容深度理解算法(数据内容深度理解算法就是基于神经网络的深度学习算法,其作用是提取数据内容的特征并进一步识别数据内容,用于基础画像、视频图像内容理解、个性化推荐等),涉及NLP(自然语言处理)、视频图像内容理解、文本挖掘与分析等,是与AI(人工智能)联系最紧密的层。如图2中的数据处理流程模块所示,导入HDFS模块包括结构化数据、半结构化数据、非结构化数据,数据整理模块包括数据抽取、数据过滤、数据校正,数据建模模块包括聚类分析、知识图谱、数据标签,导入HBase模块包括结构化数据、半结构化数据和数据索引(包括混合式索引),内存缓存集群模块包括历史数据记录、分布式内存和查询接口,业务模块包括基础画像、行为分析和关联分析,管理模块包括用户管理、调度管理和安全审计。在此,混合式索引是指针对不同的数据结构设计空间索引和时间索引算法,也就是,在多源数据间的跨域管理添加混合式索引,把时空索引算法集成到Storm、Hadoop、Spark内部,向上则提供API(应用程序编程接口)于深度学习算法,使得深度学习算法能够快速访问大规模数据。因此,既有分布式系统、又有混合式索引,是分布式和索引的结合。

应用展示层由SSH(Struts+Spring+Hibernate)框架及多类前端可视化工具(HTML5、Flash、jQuery)组成,对应用层的约束是比较宽松的,主要是对数据处理层的输出做进一步归纳和总结,以满足具体业务的应用需要。如图2中所示,可视化平台模块基于SSH框架设计,可根据实际需求来灵活配置。

如图3所示的云健康服务平台为基于本实施例所设计的基于中医药知识规模化普及的大数据融合系统的行业应用场景。云健康服务平台的总体功能框架由教学平台系统和“大健康”教育云组成,其中,教学平台系统包括中医网络学院、中医信息平台、AI+大数据分析和移动端应用等,“大健康”教育云则包括云主机、云视频、云直播教室和云运用中心等。云健康服务平台以Web平台和智能手机APP(应用程序)的可视化形式展示,是一款采用个性化推荐系统、以“大健康”视频云服务为主的、面向中医药普及教育的大数据应用与信息平台软件。云健康服务平台的上游服务对象包括中医学校、中医医院、本草药店、药材供应商、合作伙伴和第三方开发者等组织级实体用户,其下游服务对象为人群极其分散但总量有上亿之多的对中医药有兴趣的广大个体用户。云健康服务平台致力于普及中医药知识和传承中华文化,为二、三、四线城市和农村人口提供优质的精准化内容服务;通过重构内容生产和分发渠道,拓展教与学的空间,优化教与学的过程和方法,解决现有教学存在的弊病,实现大规模在线用户的个性化定制中医药课程及优质资讯信息的推荐服务。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本领域的技术人员应当理解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求的保护范围由所附的权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号