大规模短文本摘要数据集的构建与自动过滤方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

短文本摘要任务涉及文本间语义相似性计算以及自然语言生成等方向的研究，是一类非常具有研究价值的问题。当前深度学习模型已经应用于自然语言处理领域的研究，但是对于短文本摘要问题，由于一直缺乏大规模的数据集，深度学习模型不适合用于该问题的研究。本人参与构建了一个大规模的短文本摘要数据集，在一定程度上弥补了数据集匮乏的现状。但是由于构建大规模数据集采用的是自动收集数据的方法，导致数据集中存在的噪声数据比例较高，会对学习模型应用到此数据集上的研究结果受到干扰。由于该数据集中存在大量抽象的短摘要，噪声过滤任务势必将涉及到短文本语义相似性匹配问题，因此研究如何对需要挖掘较为深层次的语义的噪声过滤任务具有很重要的意义。
　　本课题在研究了短文本语义匹配问题的难点是对短文本进行建模，模型需要充分或尽量的保留原短文本的信息。本课题提出了一种基于LSTM模型的短文本语义相似性匹配模型。LSTM模型适合对序列数据进行建模，它可以自适应的保存序列中的信息，因此基于LSTM模型预测短摘要和短文本间的语义相似性是可行的。接下来本课题根据对短摘要和短文本数据特点是文本较短，前后信息相关度较强，但标准LSTM单元存在会遗忘序列之前信息的特点，提出了一种对标准LSTM单元移除遗忘门的改进方法，并进行实验室验证，实验效果较采用标准LSTM单元的模型有较大提升。
　　实验中，本课题对哈尔滨工业大学深圳研究生院智能计算研究中心短文本摘要数据集进行随机采样，人工标注的方法构建了用于噪声数据过滤的子数据集用来进行实验。针对短文本语义相似性匹配问题，实验中对比了LSTM模型和传统的向量空间模型、潜语义分析模型以及卷积神经网络模型。虽然LSTM模型在实验效果上低于潜语义分析模型的效果，但是改进的LSTM模型在效果上相比标准LSTM模型取得了较大提升，接近潜在语义分析模型的效果。

著录项

作者
祝方泽;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名陈清财;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
短文本摘要; 数据集; 语义匹配; LSTM模型; 噪声过滤;

相似文献

中文文献
外文文献
专利

1. 基于词性软模板注意力机制的短文本自动摘要方法 [J] . 张亚飞 ,左一溪 ,余正涛 . 模式识别与人工智能 . 2020,第006期
2. 基于双编码器的短文本自动摘要方法 [J] . 丁建立 ,李洋 ,王家亮 . 计算机应用 . 2019,第012期
3. 大规模亚洲人脸数据集的构建 [J] . 王鸿严 ,胡伟 ,袁国栋 . 信息技术 . 2018,第001期
4. 大规模栅格数据集的瓦片金字塔快速构建方法 [J] . 郭宁 ,吴秋云 ,熊伟 . 地理信息世界 . 2015,第006期
5. 基于概率主题模型的短文本自动分类系统构建 [J] . 刘爱琴 ,马小宁 . 国家图书馆学刊 . 2020,第006期
6. 一种面向论文标题和摘要的短文本分类研究 [C] . Xue Feng ,薛峰 ,Hu Yue . 全国第27届计算机技术与应用（CACIS）学术会议 . 2017
7. 大规模短文本的分类过滤方法研究 [A] . 吴薇 . 2007

大规模短文本摘要数据集的构建与自动过滤方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅