声明
摘要
第一章 绪论
1.1 研究的目的和意义
1.2 多文档自动文摘研究现状
1.2.1 国外的研究情况
1.2.2 国内的研究情况
1.2.3 多文档自动文摘句子评分算法
1.3 话题检测与跟踪技术研究现状
1.4 本文的研究工作
1.5 本文的组织结构
第二章 文本处理的关键技术
2.1 文本预处理
2.1.1 中文分词
2.1.2 过滤停用词
2.2 文本表示
2.2.1 向量空间模型
2.2.2 潜在语义索引(LSI)模型
2.2.3 概率潜在语义索引(PLSI)模型
2.3 文本特征选择
2.4 常见的几种文本聚类分类算法
2.4.1 分类算法
2.4.2 聚类算法
2.5 文本分类聚类的评价指标
2.5.1 文本分类的性能评价
2.5.2 文本聚类的性能评价
2.6 文本摘要的评价指标
2.7 本章总结
第三章 单事件新闻聚类系统
3.1 系统的总体设计思路
3.2 基于LDA模型的文本相似度计算
3.3.1 LDA模型介绍
3.3.2 基于LDA的文本相似度计算
3.3 基于LDA主题模型的文本分类和聚类
3.3.1 基于LDA主题模型的KNN新闻分类
3.3.2 基于LDA主题模型的Single-Pass文本聚类
3.4 本章小结
第四章 基于LexRank的单事件多文档文摘
4.1 多文档文摘系统的总体设计思路
4.2 基于知网的向量空间模型
4.3 基于LexRank算法的句子权重计算
4.3.1 起源-PageRank算法
4.3.2 LexRank算法介绍
4.3.3 基于句子多特征与LexRank算法相融合的句子权重计算
4.4 文摘抽取
4.5 本章小结
第五章 实验结果分析
5.1 实验语料选择
5.2 实验环境
5.3 文本分类聚类实验
5.3.1 基于LDA模型的KNN算法实验结果分析
5.3.2 基于LDA模型的Single-Pass聚类实验结果分析
5.4 多文档文摘实验结果分析
5.4.1 多文档文摘系统演示
5.4.2 摘要生成结果及分析
第六章 总结与展望
6.1 论文工作总结
6.2 展望
参考文献
硕士在读期间科研成果介绍
致谢