首页> 中文学位 >基于NUTCH的中文新闻事件自动分类系统研究
【6h】

基于NUTCH的中文新闻事件自动分类系统研究

代理获取

目录

文摘

英文文摘

第1章 引言

1.1 研究目的与意义

1.2 国内外相关研究综述

1.3 研究目标、研究内容和拟解决的关键问题

第2章 新闻自动分类之理论方法

2.1 网页信息噪音概述及其去除方法

2.1.1 网页信息噪音概述

2.1.2 基于源代码标签规则的网页噪音去除算法

2.2 中文分词技术

2.2.1 中文分词方法

2.2.2 中文分词项目

2.3 中文新闻文本分类的理论核心

2.3.1 KNN分类算法概念

2.3.2 KNN分类算法的特征选择

2.3.3 KNN分类算法的计算公式与使用步骤

2.4 极度相关新闻事件文档的判定

2.4.1 命名实体特征抽取及使用

2.4.2 基于时间距离的过滤方法

第3章 新闻事件特征研究与分析

3.1 构建热点事件主体特征分析的原始语料库

3.1.1 热点事件语料的遴选

3.1.2 热点事件语料库的实际构建

3.2 热点事件时间发展特征分析及相关理论论述

3.2.1 热点事件时间发展分析的基本理论基础

3.2.2 事件时间发展特征比较分析

3.2.3 热点事件时间发展特征分析的EF指标运用

3.2.4 热点事件时间发展特征分析的EI衍生指标

3.3 网络新闻热点事件的词特征

第4章 系统的架构及核心类设计

4.1 系统的架构

4.2 HADOOP分布式计算平台

4.2.1 HDFS(分布式文件系统)

4.2.2 MapReduce(核心MR编程模型)

4.3 系统各层任务、逻辑及核心类API

4.3.1 各系统层任务及逻辑

4.3.2 各层接口类及方法设计

第5章 系统的实现

5.1 开发环境及平台配置

5.1.1 系统平台配置

5.2 目标系统核心类实现

5.2.1 抓取层核心类实现

5.2.2 解析层核心类实现

5.2.3 UI层核心类实现

5.3 实验的数据及评测方法

5.3.1 实验使用的数据集

5.3.2 实验的评测方法

5.4 实验结果及评测

第6章 结论与展望

参考文献

在读硕士期间发表的文章

致谢

展开▼

摘要

伴随着互联网的蓬勃发展,从异构的、有噪声的海量数据中获取所需要的分类内容,评判互联网热点事件,关注最新的热点事件的动态,不断成为搜索引擎、各类门户及SNS社区吸引用户、制定营销方案等所需要首先解决的问题。谁掌握了确切的信息,谁就先一步掌握了事件发展的方向,在制定营销方案时就会把握时代、用户趋势,在竞争中处于领先的地位。本文正是针对上述需求所撰写的,力图解决分类内容获取、热点事件判定及热点事件获取等几个方面的问题。由于本文所论述的内容是基于准实时互联网信息的,所以本文在论述时还会解决互联网信息噪声的问题。
   本文基于NUTCH的中文新闻事件自动分类系统研究,主要分为三个部分:⑴背景现状分析。重点介绍当前有关中文文本自动分类的分类方法、热点事件的理论分析现状及系统支撑技术。⑵理论阐述及相关特征分析。首先简单而创新的使用了基于源代码标签规则的网页噪音去除算法清洗和过滤了互联网上的网页得到网页的文本内容,并进一步论述了相关的中文分词、KNN分类理论、极度相关新闻事件文档的判定等铺垫性内容。通过构建新闻事件历史语料库,对历史语料库进行分析获得事件的相应特征:主要有时间发展特征及词特征,并综合使用分词技术、分类理论等建立了评价热点事件的核心指标,根据核心指标建立了一套分析、判定、获取热点事件的流程框架。从而构建出了分类及热点事件获取的两大核心体系。⑶系统设计、实施及实验评价。这一部分集中在第四、五章,重点论述了本文原型系统的架构及系统核心模块类的设计,主要论述了系统中使用的各种开源框架及技术,分析了各层的功能,设计了各层的核心类。第五章主要是对于系统的实施以及通过实验检验系统的有效性。最后本文指明了该系统的改进和发展方向。本文的成果和意义在于建立了EF及EI指标,综合了多种理论方法,如命名实体及KNN自动分类等,并将其运用于热点事件的判定上,通过对自动分类与热点事件发现整合,实现了一个完整的自动分类系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号