首页> 中文学位 >汉语句群自动划分方法及其在自动文摘中的应用
【6h】

汉语句群自动划分方法及其在自动文摘中的应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 选题背景和研究意义

1.2 句群自动划分概述

1.3 自动文摘概述

1.4 论文内容与方法

1.5 论文组织

第二章 句群划分相关研究

2.1 汉语句群理论

2.2 句群划分依据

2.3 句群划分方法

2.4 本章小结

第三章 文本的向量表示和聚类方法

3.1 文本特征向量表示

3.2 文本聚类算法

3.3 本章小结

第四章 基于MDA的汉语句群自动划分方法

4.1 句子特征向量表示

4.2 句群自动划分模型

4.3 句群自动划分方法

4.4评价函数J设计方法与依据

4.5实验设计与结果分析

4.6本章小结

第五章 基于汉语句群自动划分的自动文摘实现

5.1 问题的提出

5.2 句群自动划分的应用

5.3 基于句群自动划分的自动文摘流程

5.4 实验测试

5.5 结果分析

5.6 本章小结

第六章 总结与展望

6.1 本文研究工作

6.2 主要结论

6.3 未来研究方向

致谢

参考文献

附录

展开▼

摘要

计算机在处理文本时,在句子和篇章之间存在着明显的语义鸿沟。句群是介于句子和篇章的语法单位,可以有效地降低语义鸿沟带来的不利影响。因而如何从篇章中划分出句群成为研究者面对的重要问题。同时,随着网络时代 Internet的广泛普及,电子文本信息的迅速增加,如何从海量信息中自动获取人们感兴趣的信息焦点成为人们的迫切需求,因而自动文摘也成为了自然语言处理中的热点问题。
  基于以上考虑,本文主要做了以下研究工作。
  首先,本文对句群划分和自动文摘的发展现状进行详细的阐述。论文总结了句群划分的依据,回顾了基于HNC的句群划分方法以及基于层次聚类的句群划分方法并对其优缺点进行了分析。同时介绍了本文所涉及的关键技术,包括文本的向量表示方法以及文本的聚类方法。
  其次,针对目前句群划分缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,本文提出了一种基于多元判别分析的汉语句群自动划分方法。论文以汉语句群理论为指导,构建汉语句群划分标注评测语料,并且基于多元判别分析(Multiple Discriminant Analysis,MDA)方法设计了一组评价函数J,从而实现句群的自动划分。本文还考虑了篇章衔接词因素以提高句群划分质量。结果表明,本文方法比原始MDA方法在句群划分上有更大优势,其句群划分性能更优,是一种可行的方法。
  最后,自动文摘以句子为基本处理粒度时,容易造成信息冗余和流畅性差的情况,针对这点本文提出一种基于汉语句群自动划分技术的自动文摘方法。其根本出发点在于文章是由多个主题组成的,而每个主题的描述应当以有相对独立语义、完整语法定义以及紧凑逻辑关系的句群组成,而非离散的句子组成。实验表明,以句群为处理粒度比句子或段落更加合理,可以得到更有质量的自动文摘。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号