首页> 中国专利> 面向微博数据的流感疫情监测分析方法及系统

面向微博数据的流感疫情监测分析方法及系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种面向微博数据的流感疫情监测分析方法，包括：获取部分微博作为训练微博集；标记训练微博集中每条微博；得到训练微博集的微博文本词项集合；得到训练微博集的微博文本原始特征词项集合；得到特征词项字典；特征向量化；训练该特征向量得到SVM分类器；获取剩余微博作为测试微博集；得到测试微博集的微博文本词项集合；得到测试微博集的微博文本原始特征词项集合；特征向量化；SVM分类器对测试微博集中每条微博进行自动分类；将分类结果可视化以进行流感疫情进行监测和分析。本发明还涉及一种面向微博数据的流感疫情监测分析系统。本发明能帮助人们发现流感的传播趋势，及时有效地阻止流感的大范围传播，防止流感大流行的发生。

著录项

公开/公告号CN103593462A

专利类型发明专利
公开/公告日2014-02-19

原文格式PDF
申请/专利权人中国科学院深圳先进技术研究院;
展开▼

申请/专利号CN201310608266.X
发明设计人罗军;章昉;李超;
展开▼

申请日2013-11-25
分类号G06F17/30(20060101);
代理机构深圳市科进知识产权代理事务所(普通合伙);
代理人沈祖锋;郝明琴
地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号
入库时间 2024-02-19 22:10:12

法律信息

法律状态公告日

法律状态信息

法律状态
2017-02-15

授权

授权
2014-03-19

实质审查的生效 IPC(主分类):G06F17/30 申请日:20131125

实质审查的生效
2014-02-19

公开

公开

说明书

技术领域

本发明涉及一种面向微博数据的流感疫情监测分析方法及系统。

背景技术

国内流感监测起源于上世纪50年代，在1952年中国内地就已经开始了流感病毒研究，1957年成立了国家流感中心。自2000年起，卫生部与WHO合作，在全国范围内建立了以流感样病例报告和流感病毒分离为主的流感监测网络；截至2005年，已经在全国31个省（直辖市、自治区）建立了63个网络实验室和197家国家级流感哨点监测医院，旨在通过对监测网络报告的数据进行分析，掌握流感的活动状况及动态变化规律，为流感暴发流行的早期预警提供科学依据。目前国内已经建立的流感监测系统有：疾病监测信息报告管理系统、中国流感监测信息系统、甲型HlNr流感信息管理系统等，这为及时发现流感疫情和早期预警提供了可靠的保障。2008年，中国疾病预防控制中心与中科软件股份有限公司合作，在全国范围内建立了疾病预防控制信息系统，流感疫情报告的及时性、完整性和准确性得到了显著提高。

然而，上述的流感监测系统存在一些缺点：一是病原学检测虽然具有较高的特异性，但及时性较差，同时由于实验条件和人力物力的限制，并不能完全满足流感大流行早期预警的需要。二是传染病疫情监测成功开展的前提是得到行政部门的支持和各医疗机构的大力配合，但目前我国医疗卫生体制中各块分割，使得医疗卫生信息资源无法及时整合，同时由于公共卫生投入不足，现有的监测预警系统并不能适应全球化、城市化和国内社会转型的新形势，使流感的监测预警工作在一定程度上仍处于被动应付的局面。

发明内容

有鉴于此，有必要提供一种面向微博数据的流感疫情监测分析方法及系统。

本发明提供一种面向微博数据的流感疫情监测分析方法，该方法包括如下步骤：从微博集中随机获取一小部分微博作为训练微博集；将训练微博集中的每条微博标记为感冒类微博或者非感冒类微博；对训练微博集中经过标记后的微博进行初始化操作，得到训练微博集的微博文本词项集合；对训练微博集中经过初始化后的每条微博进行特征提取，得到训练微博集的微博文本原始特征词项集合；对所述训练微博集的微博文本原始特征词项集合进行特征选择，计算每个词项的互信息值，得到特征词项字典；根据所述特征词项字典对训练微博集中的微博进行特征向量化；使用libsvm分类器对该特征向量进行训练，得到SVM分类器；获取微博集中剩余微博作为测试微博集；对测试微博集中的微博进行初始化操作，得到测试微博集的微博文本词项集合；对测试微博集中经过初始化后的每条微博进行特征提取，得到测试微博集的微博文本原始特征词项集合；根据所述特征词项字典对测试微博集中经过特征提取的微博进行特征向量化；使用上述得到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动分类；将分类结果可视化以进行流感疫情进行监测和分析。

其中，所述的初始化操作指：对微博的文本信息去除标点符号、去除非中文字符和分词操作。

所述的特征提取指将上述微博文本词项集合中的停用词删除。

所述的特征选择指：对训练微博集中所有微博的微博文本原始特征词项集合中的每个词项做互信息值计算，得到按照互信息值从高到低排列的N个词项作为特征词项字典。

所述的向量化指：将每条微博的微博文本原始特征词项集合向特征词项字典进行映射：如果微博文本原始特征词项集合的词项在特征词项字典，则计算这个词项的tf-idf值作为该词项在该微博中的特征值；如果微博文本原始特征词项集合的词项不在特征词项字典，则忽略该词项；如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中，则该词项的特征值为0；最终每条微博的微博文本转变得到一个维度为N的特征向量。所述N优选设定在1000以上。

本发明还提供一种面向微博数据的流感疫情监测分析系统，包括相互电性连接的获取模块、标记模块、初始化模块、特征提取模块、特征选择模块、特征向量化模块、训练模块、分类模块及可视化模块，其中：所述获取模块用于从微博集中随机获取一小部分微博作为训练微博集；所述标记模块用于将训练微博集中的每条微博标记为感冒类微博或者非感冒类微博；所述初始化模块用于对训练微博集中经过标记后的微博进行初始化操作，得到训练微博集的微博文本词项集合；所述特征提取模块用于对训练微博集中经过初始化后的每条微博进行特征提取，得到训练微博集的微博文本原始特征词项集合；所述特征选择模块用于对所述训练微博集的微博文本原始特征词项集合进行特征选择，计算每个词项的互信息值，得到特征词项字典；所述特征向量化模块用于根据所述特征词项字典对训练微博集中的微博进行特征向量化；所述训练模块用于使用libsvm分类器对该特征向量进行训练，得到SVM分类器；所述获取模块还用于获取微博集中剩余微博作为测试微博集；所述初始化模块还用于对测试微博集中的微博进行初始化操作，得到测试微博集的微博文本词项集合；所述特征提取模块还用于对测试微博集中经过初始化后的每条微博进行特征提取，得到测试微博集的微博文本原始特征词项集合；所述特征向量化模块还用于根据所述特征词项字典对测试微博集中经过特征提取的微博进行特征向量化；所述分类模块用于使用上述得到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动分类；所述可视化模块用于将分类结果可视化以进行流感疫情进行监测和分析。

其中，所述的初始化操作指：所述初始化模块对微博的文本信息去除标点符号、去除非中文字符和分词操作。

所述的特征提取指所述特征提取模块将上述微博文本词项集合中的停用词删除。

所述的特征选择指：所述特征选择模块对训练微博集中所有微博的微博文本原始特征词项集合中的每个词项做互信息值计算，得到按照互信息值从高到低排列的N个词项作为特征词项字典。所述N优选设定为 1000以上。

所述的向量化指：所述特征向量化模块将每条微博的微博文本原始特征词项集合向特征词项字典进行映射：如果微博文本原始特征词项集合的词项在特征词项字典，则计算这个词项的tf-idf值作为该词项在该微博中的特征值；如果微博文本原始特征词项集合的词项不在特征词项字典，则忽略该词项；如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中，则该词项的特征值为0；最终每条微博的微博文本转变得到一个维度为N的特征向量。所述N优选设定为1000以上。

本发明面向微博数据的流感疫情监测分析方法及系统，针对以前流感监测系统的不足，提出了基于支持向量机下挖掘微博数据来监测并分析流感疫情的方法，帮助人们发现流感的传播趋势，及时有效地阻止流感的大范围传播，防止流感大流行的发生，同时可为其他传染性疾病的流行趋势研究提供理论和实践基础。

附图说明

图1为本发明面向微博数据的流感疫情监测分析方法的流程图；

图2为本发明面向微博数据的流感疫情监测分析系统的硬件架构图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

参阅图1所示，是本发明面向微博数据的流感疫情监测分析方法较佳实施例的作业流程图。

步骤S401，从微博集中随机获取一小部分微博作为训练微博集。本实施例中，所述微博集有上百万条微博，获取几千条微博作为训练微博集。

步骤S402，对训练微博集中的每条微博进行标记。具体而言，本实施例采用三位标记人员分别对所述训练微博集中的每条微博进行标记，标记为感冒类微博或者非感冒类微博。如此，每条微博得到三个标记，采用少数服从多数的原则确定每条微博的最终标记，标记为感冒类微博或者非感冒类微博。

步骤S403，对训练微博集中经过标记后的微博进行初始化操作。具体而言，对每条微博的文本信息进行初始化处理，微博的文本信息经过去除标点符号等特殊符号、去除非中文字符和分词操作后，得到微博文本词项集合。

步骤S404，对训练微博集中经过初始化后的每条微博进行特征提取，得到微博文本原始特征词项集合。具体而言，将上述微博文本词项集合中的停用词进行删除，得到微博文本原始特征词项集合。

步骤S405，对所述微博文本原始特征词项集合进行特征选择，计算每个词项的互信息值，得到特征词项字典。具体而言，对训练微博集中所有微博的微博文本原始特征词项集合中的每个词项做互信息值计算，所得出的最高值的N个词项作为特征词项字典，该特征词项字典按照互信息值的从高到低排列。在本实施例中N设定为1000。。

步骤S406，根据所述特征词项字典对训练微博集中的微博进行特征向量化。具体而言，将每条微博的微博文本原始特征词项集合向特征词项字典进行映射：如果微博文本原始特征词项集合的词项在特征词项字典，则计算这个词项的tf-idf值作为该词项在该微博中的特征值；如果微博文本原始特征词项集合的词项不在特征词项字典，则忽略该词项；如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中，则该词项的特征值为0；最终每条微博的微博文本转变得到一个维度为1000的特征向量。

步骤S407，输入上述得到的训练微博集中的所有微博的特征向量，使用libsvm分类器对该特征向量进行训练，得到SVM分类器。

步骤S408，获取微博集中剩余微博作为测试微博集。

步骤S409，对测试微博集中的微博进行初始化操作。具体而言，对每条微博的文本信息进行初始化处理，微博的文本信息经过去除标点符号等特殊符号、去除非中文字符和分词操作后，得到微博文本词项集合。

步骤S410，对测试微博集中经过初始化后的每条微博进行特征提取，得到微博文本原始特征词项集合。具体而言，将上述微博文本词项集合中的停用词进行删除，得到微博文本原始特征词项集合。

步骤S411，根据所述特征词项字典对测试微博集中经过特征提取的微博进行特征向量化。具体而言，将每条微博的微博文本原始特征词项集合向特征词项字典进行映射：如果微博文本原始特征词项集合的词项在特征词项字典，则计算这个词项的tf-idf值作为该词项在该微博中的特征值；如果微博文本原始特征词项集合的词项不在特征词项字典，则忽略该词项；如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中，则该词项的特征值为0；最终每条微博的微博文本转变得到一个维度为1000的特征向量。

步骤S412，使用上述得到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动分类，分为感冒类微博和非感冒类微博。

步骤S413，将分类结果可视化，从时间和空间的维度上对全国的流感疫情进行监测和分析。

参阅图2所示，是本发明面向微博数据的流感疫情监测分析系统的硬件架构图。该系统包括相互电性连接的获取模块、标记模块、初始化模块、特征提取模块、特征选择模块、特征向量化模块、训练模块、分类模块及可视化模块。

所述获取模块用于从微博集中随机获取一小部分微博作为训练微博集。本实施例中，所述微博集有上百万条微博，所述获取模块获取几千条微博作为训练微博集。

所述标记模块用于对训练微博集中的每条微博进行标记。具体而言，本实施例采用三位标记人员分别对所述训练微博集中的每条微博进行标记，标记为感冒类微博或者非感冒类微博。如此，每条微博得到三个标记，采用少数服从多数的原则确定每条微博的最终标记，标记为感冒类微博或者非感冒类微博。

所述初始化模块用于对训练微博集中经过标记后的微博进行初始化操作。具体而言，所述初始化模块对每条微博的文本信息进行初始化处理，微博的文本信息经过去除标点符号等特殊符号、去除非中文字符和分词操作后，得到微博文本词项集合。

所述特征提取模块用于对训练微博集中经过初始化后的每条微博进行特征提取，得到微博文本原始特征词项集合。具体而言，所述特征提取模块将上述微博文本词项集合中的停用词进行删除，得到微博文本原始特征词项集合。

所述特征选择模块用于对于对所述微博文本原始特征词项集合进行特征选择，计算每个词项的互信息值，得到特征词项字典。具体而言，所述特征选择模块对训练微博集中所有微博的微博文本原始特征词项集合中的每个词项做互信息值计算，所得出的最高值的N个词项作为特征词项字典，该特征词项字典按照互信息值的从高到低排列。在本实施例中N设定为1000。

所述特征向量化模块用于根据所述特征词项字典对训练微博集中的微博进行特征向量化。具体而言，所述特征向量化模块将每条微博的微博文本原始特征词项集合向特征词项字典进行映射：如果微博文本原始特征词项集合的词项在特征词项字典，则计算这个词项的tf-idf值作为该词项在该微博中的特征值；如果微博文本原始特征词项集合的词项不在特征词项字典，则忽略该词项；如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中，则该词项的特征值为0；最终每条微博的微博文本转变得到一个维度为1000的特征向量。

所述训练模块用于输入上述得到的训练微博集中的所有微博的特征向量，使用libsvm分类器对该特征向量进行训练，得到SVM分类器。

所述获取模块还用于获取微博集中剩余微博作为测试微博集。

所述初始化模块还用于对测试微博集中的微博进行初始化操作。具体而言，所述初始化模块对每条微博的文本信息进行初始化处理，微博的文本信息经过去除标点符号等特殊符号、去除非中文字符和分词操作后，得到微博文本词项集合。

所述特征提取模块还用于对测试微博集中经过初始化后的每条微博进行特征提取，得到微博文本原始特征词项集合。具体而言，所述特征提取模块将上述微博文本词项集合中的停用词进行删除，得到微博文本原始特征词项集合。

所述特征向量化模块还用于根据所述特征词项字典对测试微博集中经过特征提取的微博进行特征向量化。具体而言，所述特征向量化模块将每条微博的微博文本原始特征词项集合向特征词项字典进行映射：如果微博文本原始特征词项集合的词项在特征词项字典，则计算这个词项的tf-idf值作为该词项在该微博中的特征值；如果微博文本原始特征词项集合的词项不在特征词项字典，则忽略该词项；如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中，则该词项的特征值为0；最终每条微博的微博文本转变得到一个维度为1000的特征向量

所述分类模块用于使用上述得到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动分类，分为感冒类微博和非感冒类微博。

所述可视化模块用于将分类结果可视化，从时间和空间的维度上对全国的流感疫情进行监测和分析。

虽然本发明参照当前的较佳实施方式进行了描述，但本领域的技术人员应能理解，上述较佳实施方式仅用来说明本发明，并非用来限定本发明的保护范围，任何在本发明的精神和原则范围之内，所做的任何修饰、等效替换、改进等，均应包含在本发明的权利保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 面向微博数据的流感疫情监测分析方法及系统 [P] . 中国专利： CN103593462B . 2017.02.15
2. 面向微博数据的流感疫情监测分析方法及系统 [P] . 中国专利： CN103593462A . 2014-02-19
3. Customer-oriented telecommunications data aggregation and analysis method and object oriented system [P] . 美国专利： US7136467B2 . 2006-11-14

机译：面向客户的电信数据聚合分析方法及面向对象的系统
4. Customer-oriented telecommunications data aggregation and analysis method and object oriented system [P] . 美国专利： US2002123919A1 . 2002-09-05

机译：面向客户的电信数据聚合分析方法及面向对象的系统
5. BIG DATA ORIENTED METABOLOME FEATURE DATA ANALYSIS METHOD AND SYSTEM THEREOF [P] . 世界知识产权组织专利： WO2015188395A1 . 2015-12-17

机译：面向大数据的代谢组特征数据分析方法及其系统