首页> 中文学位 >大规模短文本摘要数据集的构建与自动过滤方法
【6h】

大规模短文本摘要数据集的构建与自动过滤方法

代理获取

目录

第1章 绪 论

1.1 课题来源

1.2 课题研究的目的及意义

1.3 国内外研究现状分析

1.4 本文的主要研究内容

1.5 章节内容组织结构

第2章 语义匹配相关技术和深度学习介绍

2.1 引言

2.2 语义相似性匹配模型介绍

2.3深度学习模型介绍

2.4 本章小结

第3章 大规模短文本摘要数据集的构建

3.1 引言

3.2数据的来源

3.3数据的爬取与处理

3.4数据的标注

3.5 数据集的分析

3.6 本章小结

第4章 短文本摘要数据集过滤算法

4.1 引言

4.2 基于传统模型的数据集过滤算法

4.3 基于深度学习的数据集过滤算法

4.4 本章小结

第5章 对比实验及结果分析

5.1 评价指标的选取

5.2 实验结果对比与分析

5.3 本章小结

结论

参考文献

读硕士学位期间发表的论文及其它成果

声明

致谢

展开▼

摘要

短文本摘要任务涉及文本间语义相似性计算以及自然语言生成等方向的研究,是一类非常具有研究价值的问题。当前深度学习模型已经应用于自然语言处理领域的研究,但是对于短文本摘要问题,由于一直缺乏大规模的数据集,深度学习模型不适合用于该问题的研究。本人参与构建了一个大规模的短文本摘要数据集,在一定程度上弥补了数据集匮乏的现状。但是由于构建大规模数据集采用的是自动收集数据的方法,导致数据集中存在的噪声数据比例较高,会对学习模型应用到此数据集上的研究结果受到干扰。由于该数据集中存在大量抽象的短摘要,噪声过滤任务势必将涉及到短文本语义相似性匹配问题,因此研究如何对需要挖掘较为深层次的语义的噪声过滤任务具有很重要的意义。
  本课题在研究了短文本语义匹配问题的难点是对短文本进行建模,模型需要充分或尽量的保留原短文本的信息。本课题提出了一种基于LSTM模型的短文本语义相似性匹配模型。LSTM模型适合对序列数据进行建模,它可以自适应的保存序列中的信息,因此基于LSTM模型预测短摘要和短文本间的语义相似性是可行的。接下来本课题根据对短摘要和短文本数据特点是文本较短,前后信息相关度较强,但标准LSTM单元存在会遗忘序列之前信息的特点,提出了一种对标准LSTM单元移除遗忘门的改进方法,并进行实验室验证,实验效果较采用标准LSTM单元的模型有较大提升。
  实验中,本课题对哈尔滨工业大学深圳研究生院智能计算研究中心短文本摘要数据集进行随机采样,人工标注的方法构建了用于噪声数据过滤的子数据集用来进行实验。针对短文本语义相似性匹配问题,实验中对比了LSTM模型和传统的向量空间模型、潜语义分析模型以及卷积神经网络模型。虽然LSTM模型在实验效果上低于潜语义分析模型的效果,但是改进的LSTM模型在效果上相比标准LSTM模型取得了较大提升,接近潜在语义分析模型的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号