首页> 中文学位 >基于词语热度的启发式中文句子压缩
【6h】

基于词语热度的启发式中文句子压缩

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 本文研究内容

1.4 本文的组织结构

第二章 句子压缩相关理论与技术

2.1 中文句子压缩的一般流程

2.2 中文句子压缩的预处理技术

2.2.1 中文分词

2.2.2 词性标注

2.2.3 句法分析

2.3 典型的句子压缩方法

2.3.1 Noisy-Channel模型

2.3.2 Hedge Trimmer

2.3.3 WeiXu:基于语法规则的中文句子压缩方法

2.4 热词

2.5 模拟退火算法简介

2.6 压缩性能评分机制

2.7 本章小结

第三章 基于词语热度的中文句子压缩算法

3.1 本文算法整体框架

3.2 预处理

3.2.1 ICTICLAS分词

3.2.2 Stanford Parser句法分析

3.3 基于语言学的启发式规则

3.4 基于热度的压缩方法

3.5 基于模拟退火的补偿算法

3.6 句子整理及语法修复

3.6.1 句子整理

3.6.2 语法修复

3.7 评分机制

3.8 本章小结

第四章 实验结果及分析

4.1 系统概述

4.1.1 系统开发环境

4.1.2 系统功能模块设计

4.2 实验设置

4.3 实验结果及评价

4.4 典型示例

4.5 错误分析

4.6 本章小结

第五章 结论

5.1 总结

5.2 后续工作

参考文献

攻读硕士学位期间发表的论文

致谢

展开▼

摘要

目前文本压缩是一门很有前景的技术,句子压缩又是文本压缩的核心部分,因此研究句子压缩是很有意义的。句子压缩技术在保留句中主题信息的基础上缩短句子的长度,便于读者获取其中最重要信息。现有句子压缩方法分为两类:基于规则的方法和基于统计的方法。然而已有的基于规则的方法大多只适用于英文句子的压缩,不能移植到中文句子压缩中;基于统计的方法又依赖于“原句-压缩句”的对齐语料库,中文的对齐语料库难以获得,也增大了研究的难度。
  本文通过研究人工压缩结果并结合语言学知识,提出了一个基于语言学的启发式规则算法,在该算法中将规则分为两组,词语层面的压缩规则和分句层面的压缩规则,每组规则再按照删除相关成分在句子中的影响从小到大排序。通过两组压缩规则修剪句法分析树中的次要成分,最终获得保留了句子重要信息的压缩句。为了满足用户获取最新最热信息的需求,提出了基于热度的压缩方法,用以提高句子的热度。基于热度的压缩方法在使用启发式规则的基础上,将词语热值加入到词语重要性的计算中,从而提高热词在句子中的重要程度。本文通过对规则赋予不同的权重来寻求最佳的压缩结果,并提出了使用模拟退火算法求得最佳权重的方法。
  实验结果表明,基于语言学的启发式规则算法与现有的基于规则算法相比,具有更好的压缩效果。基于热度的启发式中文句子压缩算法不仅提高压缩句的热度,也提高了整体算法的准确性。通过使用模拟退火算法求得每个规则对应的权重,在这组权重下对句子进行压缩,压缩效果更好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号