首页> 中文学位 >基于文章主题分析的自动文摘研究
【6h】

基于文章主题分析的自动文摘研究

代理获取

目录

文摘

英文文摘

声明

第一章前言

1.1课题的背景与意义

1.2国内外研究现状

1.3课题研究目标及研究内容

1.4论文组织结构

第二章多文档自动文摘及相关技术介绍

2.1主题划分技术

2.2、文本聚类技术

2.2.1文章单元聚类技术

2.2.2聚类文档的聚类技术

2.2.3常用的文本聚类算法

2.3、多文档主题分析

2.3.1多文档主题形成分析

2.3.2主题分析对于自动文摘结果改善的讨论

2.4本章小结

第三章自动确定阈值的文章主题段落划分

3.1基于阈值自动发现的主题划分

3.2段落的主题相似度以及阈值自动发现

3.2.1段落的主题相似度

3.2.2相似度阈值的自动发现

3.3语义段落边界的发现

3.4试验设计与结果

3.5本章小结

第四章K-means文档聚类中心点选择方法改进

4.1文本聚类研究分析

4.2基于子图划分的中心点选择

4.3聚类实现过程

4.3.1聚类前期处理工作

4.3.2算法处理

4.3.3算法时间复杂度分析

4.4实验结果

4.4.1数据集的选择和评价标准

4.4.2结果评价和分析

4.5本章小结

第五章多文档自动文摘的主题分析

5.1多文档的主题分析

5.1.1基于词频重要性的语义段落排序

5.1.2基于语义段落相关度的段落排序

5.1.3基于语义段落聚类的语义段落排序

5.2 Manifold跟聚类结合的主题形成方法

5.2.1算法思想介绍

5.2.2算法过程描述

5.2.3主题描述向量的建立

5.2.4语义段落抽取方法

5.2.5算法的实现

5.3评测方法及实验结果

5.3.1两种主题划分方法的划分结果

5.3.2压缩比一定时的文摘的评测结果

5.3.3压缩比不同时的试验结果

5.3.4主题划分方法对多文档文摘的影响

5.4本章小结

第六章文摘生成与评价

6.1文摘句子的抽取

6.1.1多文档自动文摘句子抽取

6.1.2多文档文摘句子的排序方式

6.2文摘句子的优化

6.3本文的实验结果

6.3.1基于句子聚类的多文档文摘

6.3.2基于主题分析的多自动文摘

6.4本章小结

结论

参考文献

攻读硕士学位期间取得的学术成果

致谢

展开▼

摘要

自动文摘技术是自然语言处理领域的一个课题,它利用计算机自动地对文章进行处理,生成基本反映文章主题的摘要。特别是随着互联网的发展和普及,为人们提供了丰富的信息资源,利用自动文摘技术,人们可以减少查找可用信息的时间。 基于统计的文章主题划分的阈值可以通过大量的实验观察确定,但这种方法确定的阈值缺乏一定的适应性,提出一种基于阈值自动确定的主题分析方法,并与经验确定阈值的方法进行对比,表明此方法是可行的,可以满足自动文摘的要求并弥补了经验确定阈值方法的不足。 因自动文摘过程是从一组主题相关的文档中发现潜在的知识,文本聚类技术得到了广泛的重视。线性时间复杂度的K-means文本聚类算法的中心点难以确定,提出一种文本聚类中心点选择方法,试验结果表明此方法可以发现一组聚类文档的中心点,并提高了聚类效果。 对于多文档自动文摘,可以对同一个主题的多个文档划分局部主题之后,从局部主题中提取信息形成文摘,提高文摘的覆盖度。提出一种基于单文档主题划分为基础的多文档文摘主题分析方法,并对四种方法进行了对比。分析形成的局部主题后,对各个局部主题依据一定的技术进行提取,形成多文档文摘,最后对基于单文档主题划分和基于句子聚类的多文档自动文摘进行了对比分析,并给出了对比结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号