文摘
英文文摘
第1章 引言
1.1 研究目的与意义
1.2 国内外相关研究综述
1.3 研究目标、研究内容和拟解决的关键问题
第2章 新闻自动分类之理论方法
2.1 网页信息噪音概述及其去除方法
2.1.1 网页信息噪音概述
2.1.2 基于源代码标签规则的网页噪音去除算法
2.2 中文分词技术
2.2.1 中文分词方法
2.2.2 中文分词项目
2.3 中文新闻文本分类的理论核心
2.3.1 KNN分类算法概念
2.3.2 KNN分类算法的特征选择
2.3.3 KNN分类算法的计算公式与使用步骤
2.4 极度相关新闻事件文档的判定
2.4.1 命名实体特征抽取及使用
2.4.2 基于时间距离的过滤方法
第3章 新闻事件特征研究与分析
3.1 构建热点事件主体特征分析的原始语料库
3.1.1 热点事件语料的遴选
3.1.2 热点事件语料库的实际构建
3.2 热点事件时间发展特征分析及相关理论论述
3.2.1 热点事件时间发展分析的基本理论基础
3.2.2 事件时间发展特征比较分析
3.2.3 热点事件时间发展特征分析的EF指标运用
3.2.4 热点事件时间发展特征分析的EI衍生指标
3.3 网络新闻热点事件的词特征
第4章 系统的架构及核心类设计
4.1 系统的架构
4.2 HADOOP分布式计算平台
4.2.1 HDFS(分布式文件系统)
4.2.2 MapReduce(核心MR编程模型)
4.3 系统各层任务、逻辑及核心类API
4.3.1 各系统层任务及逻辑
4.3.2 各层接口类及方法设计
第5章 系统的实现
5.1 开发环境及平台配置
5.1.1 系统平台配置
5.2 目标系统核心类实现
5.2.1 抓取层核心类实现
5.2.2 解析层核心类实现
5.2.3 UI层核心类实现
5.3 实验的数据及评测方法
5.3.1 实验使用的数据集
5.3.2 实验的评测方法
5.4 实验结果及评测
第6章 结论与展望
参考文献
在读硕士期间发表的文章
致谢