基于NUTCH的中文新闻事件自动分类系统研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

伴随着互联网的蓬勃发展，从异构的、有噪声的海量数据中获取所需要的分类内容，评判互联网热点事件，关注最新的热点事件的动态，不断成为搜索引擎、各类门户及SNS社区吸引用户、制定营销方案等所需要首先解决的问题。谁掌握了确切的信息，谁就先一步掌握了事件发展的方向，在制定营销方案时就会把握时代、用户趋势，在竞争中处于领先的地位。本文正是针对上述需求所撰写的，力图解决分类内容获取、热点事件判定及热点事件获取等几个方面的问题。由于本文所论述的内容是基于准实时互联网信息的，所以本文在论述时还会解决互联网信息噪声的问题。
　　本文基于NUTCH的中文新闻事件自动分类系统研究，主要分为三个部分：⑴背景现状分析。重点介绍当前有关中文文本自动分类的分类方法、热点事件的理论分析现状及系统支撑技术。⑵理论阐述及相关特征分析。首先简单而创新的使用了基于源代码标签规则的网页噪音去除算法清洗和过滤了互联网上的网页得到网页的文本内容，并进一步论述了相关的中文分词、KNN分类理论、极度相关新闻事件文档的判定等铺垫性内容。通过构建新闻事件历史语料库，对历史语料库进行分析获得事件的相应特征：主要有时间发展特征及词特征，并综合使用分词技术、分类理论等建立了评价热点事件的核心指标，根据核心指标建立了一套分析、判定、获取热点事件的流程框架。从而构建出了分类及热点事件获取的两大核心体系。⑶系统设计、实施及实验评价。这一部分集中在第四、五章，重点论述了本文原型系统的架构及系统核心模块类的设计，主要论述了系统中使用的各种开源框架及技术，分析了各层的功能，设计了各层的核心类。第五章主要是对于系统的实施以及通过实验检验系统的有效性。最后本文指明了该系统的改进和发展方向。本文的成果和意义在于建立了EF及EI指标，综合了多种理论方法，如命名实体及KNN自动分类等，并将其运用于热点事件的判定上，通过对自动分类与热点事件发现整合，实现了一个完整的自动分类系统。

著录项

作者
熊佳树;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科管理科学与工程
授予学位硕士
导师姓名王虎;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字处理软件;
关键词
网络服务; 数据挖掘; 文本分类; 软件设计;

相似文献

中文文献
外文文献
专利

1. 中文网页自动分类系统研究 [J] . 廖文军 ,叶喜民 . 新乡学院学报（社会科学版） . 2007,第002期
2. 基于Nutch的中文搜索引擎的研究与实现 [J] . 王仕仲 ,宁龙兵 . 电脑开发与应用 . 2009,第007期
3. 基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究 [J] . 聂琰 . 计算机时代 . 2014,第011期
4. 基于卷积神经网络和K-means的中文新闻事件检测与主题提取 [J] . 张秀华 ,云红艳 ,贺英 . 科学技术与工程 . 2020,第003期
5. 基于灰色关联分析的中文新闻事件关联性识别 [J] . 刘盼盼 ,洪旭东 ,郭剑毅 . 计算机应用 . 2016,第002期
6. 基于量子神经网络的中文图书自动分类技术研究 [C] . 张瑶 . 华北地区高校图协第二十八届学术年会 . 2014
7. 基于Nutch的网页自动分类与推荐的研究 [A] . 张晨光 . 2013

基于NUTCH的中文新闻事件自动分类系统研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅