基于词语热度的启发式中文句子压缩

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前文本压缩是一门很有前景的技术，句子压缩又是文本压缩的核心部分，因此研究句子压缩是很有意义的。句子压缩技术在保留句中主题信息的基础上缩短句子的长度，便于读者获取其中最重要信息。现有句子压缩方法分为两类:基于规则的方法和基于统计的方法。然而已有的基于规则的方法大多只适用于英文句子的压缩，不能移植到中文句子压缩中;基于统计的方法又依赖于“原句-压缩句”的对齐语料库，中文的对齐语料库难以获得，也增大了研究的难度。
　　本文通过研究人工压缩结果并结合语言学知识，提出了一个基于语言学的启发式规则算法，在该算法中将规则分为两组，词语层面的压缩规则和分句层面的压缩规则，每组规则再按照删除相关成分在句子中的影响从小到大排序。通过两组压缩规则修剪句法分析树中的次要成分，最终获得保留了句子重要信息的压缩句。为了满足用户获取最新最热信息的需求，提出了基于热度的压缩方法，用以提高句子的热度。基于热度的压缩方法在使用启发式规则的基础上，将词语热值加入到词语重要性的计算中，从而提高热词在句子中的重要程度。本文通过对规则赋予不同的权重来寻求最佳的压缩结果，并提出了使用模拟退火算法求得最佳权重的方法。
　　实验结果表明，基于语言学的启发式规则算法与现有的基于规则算法相比，具有更好的压缩效果。基于热度的启发式中文句子压缩算法不仅提高压缩句的热度，也提高了整体算法的准确性。通过使用模拟退火算法求得每个规则对应的权重，在这组权重下对句子进行压缩，压缩效果更好。

著录项

作者
韩静;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机应用技术
授予学位硕士
导师姓名张东站;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;算法理论;
关键词
词语热度; 中文句子压缩; 启发式规则算法; 模拟退火算法;

相似文献

中文文献
外文文献
专利

1. 基于词语热度的启发式中文句子压缩算法 [J] . 韩静 ,张东站 . 计算机工程与应用 . 2014,第004期
2. 一种基于词语多原型向量表示的句子相似度计算方法 [J] . 郭鸿奇 ,李国佳 . 智能计算机与应用 . 2018,第002期
3. 基于词向量的词语间离和句子相似度分析 [J] . 苟瀚文 ,苟先太 . 黑龙江科技信息 . 2018,第033期
4. 一种基于词语多原型向量表示的句子相似度计算方法 [J] . 郭鸿奇1 ,李国佳2 . 智能计算机与应用 . 2018,第002期
5. 基于词向量的词语间离和句子相似度分析 [J] . 苟瀚文1 ,苟先太2 . 科学技术创新 . 2018,第033期
6. 中文篇章中的关联词语及其引导的句子关系的自动标注——面向话语分析的中文篇章语料库的开发 [C] . 邹嘉彦 ,连兴隆 . 1998中文信息处理国际会议 . 1998
7. 英语三价动词语法意义在英汉词典中文释义中的体现方式研究——基于题元角色和论元结构的英语动词语义研究 [A] . 赵亚星 . 2016

基于词语热度的启发式中文句子压缩

目录

摘要

著录项

相似文献

相关主题

期刊订阅