首页> 中国专利> 基于RapidMiner的文本数据挖掘方法及系统

基于RapidMiner的文本数据挖掘方法及系统

摘要

本发明公开了基于RapidMiner的文本数据挖掘方法及系统,包括以下步骤:S1.根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;S2.通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;S3.当将整个文本库遍历完成后,得到第二矩阵;S4.将每个记录中不同字段的值转化为二值属性,得到第三矩阵;S5.根据第三矩阵,进行多种不同维度的挖掘分析。本发明提出的方法是Rapidminer工具在文本数据挖掘方面的创新使用,该方法只需要整理需要挖掘的文本数据,明确挖掘目标,就可以进行医疗、生活、办公等领域的文本挖掘,简单、高效、实用。

著录项

  • 公开/公告号CN113239139A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 刘欢庆;

    申请/专利号CN202110643096.3

  • 发明设计人 刘欢庆;董春生;李婷婷;

    申请日2021-06-09

  • 分类号G06F16/30(20190101);G06F16/31(20190101);G06F16/335(20190101);G06F16/36(20190101);G16H50/70(20180101);

  • 代理机构51263 成都熠邦鼎立专利代理有限公司;

  • 代理人曾克

  • 地址 710000 陕西省西安市碑林区长安路北段5号付2号

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本发明涉及数据挖掘领域,尤其涉及基于RapidMiner的文本数据挖掘方法及系统。

背景技术

在现实世界中,大部分可获得的信息都以文本的形式存储在文本数据库中,文本数据库是由来自各种数据源的大量文档组成的,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和网页等。由于文本信息的电子化形式迅速增长,文本挖掘已成为信息领域的研究热点。文本挖掘是指从大量文本数据中提取未知的、可理解的、最终可用的知识,并利用这些知识更好地组织信息以备将来参考的过程。文本挖掘的主要目的是从原始未处理的文本中提取未知的知识,但文本挖掘也是一项非常困难的工作,因为它必须处理那些已经模糊的、非结构化的文本数据,所以它是一个多学科交叉的领域,涵盖了信息技术、文本分析、模式识别、统计学等学科,数据可视化数据库技术、机器学习和数据挖掘技术。文本挖掘是应用驱动的。医学领域中有大量的文字资料,如病历、处方、医学论文等。

现有技术的缺陷和不足:文本挖掘的主要目的是从原始未处理的文本中提取未知的知识,但文本挖掘也是一项非常困难的工作,因为它必须处理那些已经模糊的、非结构化的文本数据,所以它是一个多学科交叉的领域,涵盖了信息技术、文本分析、模式识别、统计学等学科,数据可视化数据库技术、机器学习和数据挖掘技术。对于医学从业者来说,他们需要挖掘数据,至少要精通Java,或者Python等常用编程语言来开发挖掘模型,掌握数据挖掘算法以及必要的高级数据和统计知识,所以难度很大,这也使得医学数据挖掘应用的匮乏。

发明内容

针对文本挖掘涉及信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习等多项专业技术,且需精通Java、或Python等常用编程语言的要求,而实际医疗工作者主要精力和专业在医学领域,所以医疗数据挖掘显得更加困难,针对上述问题,提出基于RapidMiner的文本数据挖掘方法及系统。

本发明通过以下技术方案实现:

基于RapidMiner的文本数据挖掘方法,包括以下步骤:

S1. 根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;

S2. 通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;

S3. 当将整个文本库遍历完成后,得到第二矩阵;

S4. 将每个记录中不同字段的值转化为二值属性,得到第三矩阵;

S5. 根据第三矩阵,进行多种不同维度的挖掘分析。

进一步的,所述第三矩阵为只有0和1的文本分析矩阵。

进一步的,所述步骤S5具体为,根据第三矩阵,通过RapidMiner附带的相应挖掘分析算法,进行多种不同维度的挖掘分析。

进一步的,所述第二矩阵具体为:第二矩阵中的序列号为每个文本的ID,第二矩阵中的各个属性为每个文本数据的独有属性,所述文本数据不存在的属性表示为空。

进一步根据基于RapidMiner的文本数据挖掘方法,提出基于RapidMiner的文本数据挖掘系统,包括:

文本数据提取模块,用于对文本数据进行提取;

矩阵建立模块,用于进行矩阵建立;

数据分析模块,用于对数据进行分析、遍历、提取、挖掘处理。

进一步的,所述矩阵建立模块还包括:

第一矩阵单元,用于根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;

第二矩阵单元,用于通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;当将整个文本库遍历完成后,得到第二矩阵;

第三矩阵单元,用于将每个记录中不同字段的值转化为二值属性,得到第三矩阵。

进一步的,所述第三矩阵为只有0和1的文本分析矩阵。

进一步的,所述第二矩阵具体为:第二矩阵中的序列号为每个文本的ID,第二矩阵中的各个属性为每个文本数据的独有属性,所述文本数据不存在的属性表示为空。

本发明的有益效果:

(1)本发明提出的方法是Rapidminer工具在医疗文本数据挖掘方面的创新使用,该方法不需要医疗研究者专门学习计算机领域相关的编程开发语言,也不需要精通艰深的机器学习、文本分析技术,和必要的高等数学方面相关的知识,只需要整理需要挖掘的文本数据,明确挖掘目标,就可以进行医疗、军事等领域的文本挖掘,简单、高效、实用。

(2)本发明将多种数据挖掘算法包装成模块,不需要使用者专门理解其中详细的算法细节,直接可以拿来使用。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例1提出的方法流程示意图;

图2为本发明实施例1提出的某医院的文本数据示意图;

图3为本发明实施例1提出的文本中是否出现某个词的分析文本示意图;

图4为本发明实施例1提出的每个文本包含的中药的分析文本示意图;

图5为本发明实施例1提出的中药出现的频次示意图;

图6为本发明实施例2提出的系统结构示意图;

图7为本发明实施例3提出的终端设备结构示意图;

图8为本发明实施例4提出的计算机可读存储介质结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例1

如图1,本实施例提出基于RapidMiner的文本数据挖掘方法,包括以下步骤:

S1. 根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;

S2. 通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;

S3. 当将整个文本库遍历完成后,得到第二矩阵;

S4. 将每个记录中不同字段的值转化为二值属性,得到第三矩阵;

S5. 根据第三矩阵,进行多种不同维度的挖掘分析。

进一步的,所述第三矩阵为只有0和1的文本分析矩阵。

进一步的,所述步骤S5具体为,根据第三矩阵,通过RapidMiner附带的相应挖掘分析算法,进行多种不同维度的挖掘分析。

进一步的,所述第二矩阵具体为:第二矩阵中的序列号为每个文本的ID,第二矩阵中的各个属性为每个文本数据的独有属性,所述文本数据不存在的属性表示为空。

具体的,本实施例针对某医院的医疗数据文本进行挖掘分析,对其文本数据中出现的中药、中药出现的频次进行分析,具体实施方式如下:

1.安装文本挖掘插件;

2.采集数据集,其中,本实施例对某医院的结核病、中医药等文本数据进行采集,图2示出了某医院的部分中药文本数据,该文本数据可自定义进行增删改操作,将文本数据集加载到RapidMiner中;

3.检查文本数据;

4.处理文本数据,处理过程如下,首先根据挖掘目标建立一个RapidMiner挖掘流程,来将医疗文本数据和分析目标之间建立起成一个矩阵,然后让模型遍历每一个文本数据,统计或者分析每个文本中的分析目标,当将整个文本库遍历完成后,会生成一个新的矩阵模型,其中,最后将每个记录中不同字段的值都转化为二值属性,这样就形成了一个便于分析的只有0和1的文本分析矩阵;

5.利用相关算法块构造文本分类模型,具体的,使用RapidMiner附带的各种挖掘分析算法包便可以进行多种不同维度的挖掘分析;

6.验证模型;

7.将模型应用于新数据,

其中,图3示出了文本中是否出现某个词的分析文本,图4示出了每个文本包含的中药的分析文本,图5示出了中药出现的频次。

本实施例的有益效果:

目前文本挖掘主要应用的场景有垃圾短信、邮件检测,语言种类检测(如:Google翻译),或者客户反馈分析、微博评论情感分析等方面,但是在医学文本分析方面大多借助于专项的应用开,耗时费力,且效果一般,本方法是对挖掘效果优秀的Rapidminer软件应用方面的一个创新。

需要注意的是,本实施例提出的基于RapidMiner的文本数据挖掘方法,不仅仅适用与医疗邻域,在交通、生活、办公等领域依旧适用。

实施例2

在实施例1的基础上,本实施例提出一种基于RapidMiner的文本数据挖掘系统,如图6,包括:

文本数据提取模块,用于对文本数据进行提取;

矩阵建立模块,用于进行矩阵建立;

数据分析模块,用于对数据进行分析、遍历、提取、挖掘处理。

进一步的,所述矩阵建立模块还包括:

第一矩阵单元,用于根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;

第二矩阵单元,用于通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;当将整个文本库遍历完成后,得到第二矩阵;

第三矩阵单元,用于将每个记录中不同字段的值转化为二值属性,得到第三矩阵。

进一步的,所述第三矩阵为只有0和1的文本分析矩阵。

进一步的,所述第二矩阵具体为:第二矩阵中的序列号为每个文本的ID,第二矩阵中的各个属性为每个文本数据的独有属性,所述文本数据不存在的属性表示为空。

实施例3

如图7,在实施例1的基础上,本实施例提出基于RapidMiner的文本数据挖掘的终端设备,终端设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)211和/或高速缓存存储器212,还可以进一步包括只读存储器(ROM)213。

其中,存储器210还存储有计算机程序,计算机程序可以被处理器220执行,使得处理器220执行本申请实施例中上述任一项基于RapidMiner的文本数据挖掘方法,其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。存储器210还可以包括具有一组(至少一个)程序模块215的程序/实用工具214,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的,处理器220可以执行上述计算机程序,以及可以执行程序/实用工具214。

总线230可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

终端设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信,还可与一个或者多个能够与该终端设备200交互的设备通信,和/或与使得该终端设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,终端设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与终端设备200的其它模块通信。应当明白,尽管图中未示出,可以结合终端设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

实施例4

在实施例1的基础上,本实施例提出基于RapidMiner的文本数据挖掘的计算机可读存储介质,所述计算机可读存储介质上存储有指令,该指令被处理器执行时实现上述任一的基于RapidMiner的文本数据挖掘方法。其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致,部分内容不再赘述。

图8示出了本实施例提供的用于实现上述方法的程序产品300,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品300不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言诸如Java、C++等,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号