首页> 中国专利> 面向微博数据的流感疫情监测分析方法及系统

面向微博数据的流感疫情监测分析方法及系统

摘要

本发明涉及一种面向微博数据的流感疫情监测分析方法,包括:获取部分微博作为训练微博集;标记训练微博集中每条微博;得到训练微博集的微博文本词项集合;得到训练微博集的微博文本原始特征词项集合;得到特征词项字典;特征向量化;训练该特征向量得到SVM分类器;获取剩余微博作为测试微博集;得到测试微博集的微博文本词项集合;得到测试微博集的微博文本原始特征词项集合;特征向量化;SVM分类器对测试微博集中每条微博进行自动分类;将分类结果可视化以进行流感疫情进行监测和分析。本发明还涉及一种面向微博数据的流感疫情监测分析系统。本发明能帮助人们发现流感的传播趋势,及时有效地阻止流感的大范围传播,防止流感大流行的发生。

著录项

  • 公开/公告号CN103593462A

    专利类型发明专利

  • 公开/公告日2014-02-19

    原文格式PDF

  • 申请/专利权人 中国科学院深圳先进技术研究院;

    申请/专利号CN201310608266.X

  • 发明设计人 罗军;章昉;李超;

    申请日2013-11-25

  • 分类号G06F17/30(20060101);

  • 代理机构深圳市科进知识产权代理事务所(普通合伙);

  • 代理人沈祖锋;郝明琴

  • 地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号

  • 入库时间 2024-02-19 22:10:12

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-02-15

    授权

    授权

  • 2014-03-19

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131125

    实质审查的生效

  • 2014-02-19

    公开

    公开

说明书

技术领域

本发明涉及一种面向微博数据的流感疫情监测分析方法及系统。

背景技术

国内流感监测起源于上世纪50年代,在1952年中国内地就已经开 始了流感病毒研究,1957年成立了国家流感中心。自2000年起,卫生 部与WHO合作,在全国范围内建立了以流感样病例报告和流感病毒分 离为主的流感监测网络;截至2005年,已经在全国31个省(直辖市、 自治区)建立了63个网络实验室和197家国家级流感哨点监测医院, 旨在通过对监测网络报告的数据进行分析,掌握流感的活动状况及动态 变化规律,为流感暴发流行的早期预警提供科学依据。目前国内已经建 立的流感监测系统有:疾病监测信息报告管理系统、中国流感监测信息 系统、甲型HlNr流感信息管理系统等,这为及时发现流感疫情和早期 预警提供了可靠的保障。2008年,中国疾病预防控制中心与中科软件股 份有限公司合作,在全国范围内建立了疾病预防控制信息系统,流感疫 情报告的及时性、完整性和准确性得到了显著提高。

然而,上述的流感监测系统存在一些缺点:一是病原学检测虽然具 有较高的特异性,但及时性较差,同时由于实验条件和人力物力的限制, 并不能完全满足流感大流行早期预警的需要。二是传染病疫情监测成功 开展的前提是得到行政部门的支持和各医疗机构的大力配合,但目前我 国医疗卫生体制中各块分割,使得医疗卫生信息资源无法及时整合,同 时由于公共卫生投入不足,现有的监测预警系统并不能适应全球化、城 市化和国内社会转型的新形势,使流感的监测预警工作在一定程度上仍 处于被动应付的局面。

发明内容

有鉴于此,有必要提供一种面向微博数据的流感疫情监测分析方法 及系统。

本发明提供一种面向微博数据的流感疫情监测分析方法,该方法包 括如下步骤:从微博集中随机获取一小部分微博作为训练微博集;将训 练微博集中的每条微博标记为感冒类微博或者非感冒类微博;对训练微 博集中经过标记后的微博进行初始化操作,得到训练微博集的微博文本 词项集合;对训练微博集中经过初始化后的每条微博进行特征提取,得 到训练微博集的微博文本原始特征词项集合;对所述训练微博集的微博 文本原始特征词项集合进行特征选择,计算每个词项的互信息值,得到 特征词项字典;根据所述特征词项字典对训练微博集中的微博进行特征 向量化;使用libsvm分类器对该特征向量进行训练,得到SVM分类器; 获取微博集中剩余微博作为测试微博集;对测试微博集中的微博进行初 始化操作,得到测试微博集的微博文本词项集合;对测试微博集中经过 初始化后的每条微博进行特征提取,得到测试微博集的微博文本原始特 征词项集合;根据所述特征词项字典对测试微博集中经过特征提取的微 博进行特征向量化;使用上述得到的SVM分类器对经过特征向量化的 测试微博集中每条微博进行自动分类;将分类结果可视化以进行流感疫 情进行监测和分析。

其中,所述的初始化操作指:对微博的文本信息去除标点符号、去 除非中文字符和分词操作。

所述的特征提取指将上述微博文本词项集合中的停用词删除。

所述的特征选择指:对训练微博集中所有微博的微博文本原始特征 词项集合中的每个词项做互信息值计算,得到按照互信息值从高到低排 列的N个词项作为特征词项字典。

所述的向量化指:将每条微博的微博文本原始特征词项集合向特征 词项字典进行映射:如果微博文本原始特征词项集合的词项在特征词项 字典,则计算这个词项的tf-idf值作为该词项在该微博中的特征值;如 果微博文本原始特征词项集合的词项不在特征词项字典,则忽略该词 项;如果特征词项字典中的词项没有出现在微博文本原始特征词项集合 中,则该词项的特征值为0;最终每条微博的微博文本转变得到一个维 度为N的特征向量。所述N优选设定在1000以上。

本发明还提供一种面向微博数据的流感疫情监测分析系统,包括相 互电性连接的获取模块、标记模块、初始化模块、特征提取模块、特征 选择模块、特征向量化模块、训练模块、分类模块及可视化模块,其中: 所述获取模块用于从微博集中随机获取一小部分微博作为训练微博集; 所述标记模块用于将训练微博集中的每条微博标记为感冒类微博或者 非感冒类微博;所述初始化模块用于对训练微博集中经过标记后的微博 进行初始化操作,得到训练微博集的微博文本词项集合;所述特征提取 模块用于对训练微博集中经过初始化后的每条微博进行特征提取,得到 训练微博集的微博文本原始特征词项集合;所述特征选择模块用于对所 述训练微博集的微博文本原始特征词项集合进行特征选择,计算每个词 项的互信息值,得到特征词项字典;所述特征向量化模块用于根据所述 特征词项字典对训练微博集中的微博进行特征向量化;所述训练模块用 于使用libsvm分类器对该特征向量进行训练,得到SVM分类器;所述 获取模块还用于获取微博集中剩余微博作为测试微博集;所述初始化模 块还用于对测试微博集中的微博进行初始化操作,得到测试微博集的微 博文本词项集合;所述特征提取模块还用于对测试微博集中经过初始化 后的每条微博进行特征提取,得到测试微博集的微博文本原始特征词项 集合;所述特征向量化模块还用于根据所述特征词项字典对测试微博集 中经过特征提取的微博进行特征向量化;所述分类模块用于使用上述得 到的SVM分类器对经过特征向量化的测试微博集中每条微博进行自动 分类;所述可视化模块用于将分类结果可视化以进行流感疫情进行监测 和分析。

其中,所述的初始化操作指:所述初始化模块对微博的文本信息去 除标点符号、去除非中文字符和分词操作。

所述的特征提取指所述特征提取模块将上述微博文本词项集合中 的停用词删除。

所述的特征选择指:所述特征选择模块对训练微博集中所有微博的 微博文本原始特征词项集合中的每个词项做互信息值计算,得到按照互 信息值从高到低排列的N个词项作为特征词项字典。所述N优选设定为 1000以上。

所述的向量化指:所述特征向量化模块将每条微博的微博文本原始 特征词项集合向特征词项字典进行映射:如果微博文本原始特征词项集 合的词项在特征词项字典,则计算这个词项的tf-idf值作为该词项在该 微博中的特征值;如果微博文本原始特征词项集合的词项不在特征词项 字典,则忽略该词项;如果特征词项字典中的词项没有出现在微博文本 原始特征词项集合中,则该词项的特征值为0;最终每条微博的微博文 本转变得到一个维度为N的特征向量。所述N优选设定为1000以上。

本发明面向微博数据的流感疫情监测分析方法及系统,针对以前流 感监测系统的不足,提出了基于支持向量机下挖掘微博数据来监测并分 析流感疫情的方法,帮助人们发现流感的传播趋势,及时有效地阻止流 感的大范围传播,防止流感大流行的发生,同时可为其他传染性疾病的 流行趋势研究提供理论和实践基础。

附图说明

图1为本发明面向微博数据的流感疫情监测分析方法的流程图;

图2为本发明面向微博数据的流感疫情监测分析系统的硬件架构 图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

参阅图1所示,是本发明面向微博数据的流感疫情监测分析方法较 佳实施例的作业流程图。

步骤S401,从微博集中随机获取一小部分微博作为训练微博集。本 实施例中,所述微博集有上百万条微博,获取几千条微博作为训练微博 集。

步骤S402,对训练微博集中的每条微博进行标记。具体而言,本实 施例采用三位标记人员分别对所述训练微博集中的每条微博进行标记, 标记为感冒类微博或者非感冒类微博。如此,每条微博得到三个标记, 采用少数服从多数的原则确定每条微博的最终标记,标记为感冒类微博 或者非感冒类微博。

步骤S403,对训练微博集中经过标记后的微博进行初始化操作。具 体而言,对每条微博的文本信息进行初始化处理,微博的文本信息经过 去除标点符号等特殊符号、去除非中文字符和分词操作后,得到微博文 本词项集合。

步骤S404,对训练微博集中经过初始化后的每条微博进行特征提 取,得到微博文本原始特征词项集合。具体而言,将上述微博文本词项 集合中的停用词进行删除,得到微博文本原始特征词项集合。

步骤S405,对所述微博文本原始特征词项集合进行特征选择,计算 每个词项的互信息值,得到特征词项字典。具体而言,对训练微博集中 所有微博的微博文本原始特征词项集合中的每个词项做互信息值计 算,所得出的最高值的N个词项作为特征词项字典,该特征词项字典按 照互信息值的从高到低排列。在本实施例中N设定为1000。。

步骤S406,根据所述特征词项字典对训练微博集中的微博进行特征 向量化。具体而言,将每条微博的微博文本原始特征词项集合向特征词 项字典进行映射:如果微博文本原始特征词项集合的词项在特征词项字 典,则计算这个词项的tf-idf值作为该词项在该微博中的特征值;如果 微博文本原始特征词项集合的词项不在特征词项字典,则忽略该词项; 如果特征词项字典中的词项没有出现在微博文本原始特征词项集合 中,则该词项的特征值为0;最终每条微博的微博文本转变得到一个维 度为1000的特征向量。

步骤S407,输入上述得到的训练微博集中的所有微博的特征向量, 使用libsvm分类器对该特征向量进行训练,得到SVM分类器。

步骤S408,获取微博集中剩余微博作为测试微博集。

步骤S409,对测试微博集中的微博进行初始化操作。具体而言,对 每条微博的文本信息进行初始化处理,微博的文本信息经过去除标点符 号等特殊符号、去除非中文字符和分词操作后,得到微博文本词项集合。

步骤S410,对测试微博集中经过初始化后的每条微博进行特征提 取,得到微博文本原始特征词项集合。具体而言,将上述微博文本词项 集合中的停用词进行删除,得到微博文本原始特征词项集合。

步骤S411,根据所述特征词项字典对测试微博集中经过特征提取的 微博进行特征向量化。具体而言,将每条微博的微博文本原始特征词项 集合向特征词项字典进行映射:如果微博文本原始特征词项集合的词项 在特征词项字典,则计算这个词项的tf-idf值作为该词项在该微博中的 特征值;如果微博文本原始特征词项集合的词项不在特征词项字典,则 忽略该词项;如果特征词项字典中的词项没有出现在微博文本原始特征 词项集合中,则该词项的特征值为0;最终每条微博的微博文本转变得 到一个维度为1000的特征向量。

步骤S412,使用上述得到的SVM分类器对经过特征向量化的测试 微博集中每条微博进行自动分类,分为感冒类微博和非感冒类微博。

步骤S413,将分类结果可视化,从时间和空间的维度上对全国的流 感疫情进行监测和分析。

参阅图2所示,是本发明面向微博数据的流感疫情监测分析系统的 硬件架构图。该系统包括相互电性连接的获取模块、标记模块、初始化 模块、特征提取模块、特征选择模块、特征向量化模块、训练模块、分 类模块及可视化模块。

所述获取模块用于从微博集中随机获取一小部分微博作为训练微 博集。本实施例中,所述微博集有上百万条微博,所述获取模块获取几 千条微博作为训练微博集。

所述标记模块用于对训练微博集中的每条微博进行标记。具体而 言,本实施例采用三位标记人员分别对所述训练微博集中的每条微博进 行标记,标记为感冒类微博或者非感冒类微博。如此,每条微博得到三 个标记,采用少数服从多数的原则确定每条微博的最终标记,标记为感 冒类微博或者非感冒类微博。

所述初始化模块用于对训练微博集中经过标记后的微博进行初始 化操作。具体而言,所述初始化模块对每条微博的文本信息进行初始化 处理,微博的文本信息经过去除标点符号等特殊符号、去除非中文字符 和分词操作后,得到微博文本词项集合。

所述特征提取模块用于对训练微博集中经过初始化后的每条微博 进行特征提取,得到微博文本原始特征词项集合。具体而言,所述特征 提取模块将上述微博文本词项集合中的停用词进行删除,得到微博文本 原始特征词项集合。

所述特征选择模块用于对于对所述微博文本原始特征词项集合进 行特征选择,计算每个词项的互信息值,得到特征词项字典。具体而言, 所述特征选择模块对训练微博集中所有微博的微博文本原始特征词项 集合中的每个词项做互信息值计算,所得出的最高值的N个词项作为特 征词项字典,该特征词项字典按照互信息值的从高到低排列。在本实施 例中N设定为1000。

所述特征向量化模块用于根据所述特征词项字典对训练微博集中 的微博进行特征向量化。具体而言,所述特征向量化模块将每条微博的 微博文本原始特征词项集合向特征词项字典进行映射:如果微博文本原 始特征词项集合的词项在特征词项字典,则计算这个词项的tf-idf值作 为该词项在该微博中的特征值;如果微博文本原始特征词项集合的词项 不在特征词项字典,则忽略该词项;如果特征词项字典中的词项没有出 现在微博文本原始特征词项集合中,则该词项的特征值为0;最终每条 微博的微博文本转变得到一个维度为1000的特征向量。

所述训练模块用于输入上述得到的训练微博集中的所有微博的特 征向量,使用libsvm分类器对该特征向量进行训练,得到SVM分类器。

所述获取模块还用于获取微博集中剩余微博作为测试微博集。

所述初始化模块还用于对测试微博集中的微博进行初始化操作。具 体而言,所述初始化模块对每条微博的文本信息进行初始化处理,微博 的文本信息经过去除标点符号等特殊符号、去除非中文字符和分词操作 后,得到微博文本词项集合。

所述特征提取模块还用于对测试微博集中经过初始化后的每条微 博进行特征提取,得到微博文本原始特征词项集合。具体而言,所述特 征提取模块将上述微博文本词项集合中的停用词进行删除,得到微博文 本原始特征词项集合。

所述特征向量化模块还用于根据所述特征词项字典对测试微博集 中经过特征提取的微博进行特征向量化。具体而言,所述特征向量化模 块将每条微博的微博文本原始特征词项集合向特征词项字典进行映射: 如果微博文本原始特征词项集合的词项在特征词项字典,则计算这个词 项的tf-idf值作为该词项在该微博中的特征值;如果微博文本原始特征 词项集合的词项不在特征词项字典,则忽略该词项;如果特征词项字典 中的词项没有出现在微博文本原始特征词项集合中,则该词项的特征值 为0;最终每条微博的微博文本转变得到一个维度为1000的特征向量

所述分类模块用于使用上述得到的SVM分类器对经过特征向量化 的测试微博集中每条微博进行自动分类,分为感冒类微博和非感冒类微 博。

所述可视化模块用于将分类结果可视化,从时间和空间的维度上对 全国的流感疫情进行监测和分析。

虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术 人员应能理解,上述较佳实施方式仅用来说明本发明,并非用来限定本 发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修 饰、等效替换、改进等,均应包含在本发明的权利保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号