首页> 中文学位 >基于知识图谱及深度学习的标题自动摘要研究
【6h】

基于知识图谱及深度学习的标题自动摘要研究

代理获取

目录

1 绪 论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 抽取式摘要方法

1.2.2 生成式摘要方法

1.2.3 预训练模型

1.3 研究内容和创新

1.4 论文的组织结构

1.5 本章小结

2 关键技术基础

2.1 自然语言相关理论基础

2.1.1 中文分词

2.1.2 词向量处理

2.2 深度学习相关网络模型

2.2.1 循环神经网络RNN 及相关变形

2.2.2 Transformer 及预训练模型BERT

2.3 相关优化技术

2.3.1 Attention模型

2.3.2 Beam Search

2.3.3指针生成网络

2.4 本章小结

3 基于深度学习的自动标题算法研究

3.1 基于深度学习的标题自动摘要生成

3.1.1 Textrank 预处理及词向量表示

3.1.2 基于LSTM 的标题自动摘要模型t-textsum

3.2 基于 t-textsum融合知识图谱模型 k-t-textsum

3.2.1知识图谱融合及词表处理

3.2.2 先验知识分布

3.3 实验及结果分析

3.3.1 实验数据集介绍

3.3.2 数据集处理

3.3.3 实验评估方法

3.3.4 实验结果对比及分析

3.4 本章小结

4 基于预训练模型的自动标题技术研究

4.1 基于 BERT预训练模型的标题自动摘要设计

4.1.1 BERT_wwm预训练模型

4.1.2 基于BERT-wwm-ex的序列到序列模型

4.2 基于 BERT的知识赋能自动标题摘要模型设计

4.3 实验结果及系统实现

4.3.1 实验数据集介绍

4.3.2 数据集处理

4.3.3 实验结果对比及分析

4.4 本章小结

5 总结与展望

5.1 总结

5.2 展望

参考文献

附录

A. 作者在攻读学位期间成果目录

B. 学位论文数据集

致谢

展开▼

摘要

新闻行业及短评文章需要大量标题型摘要,不仅对新闻编辑人才提出需求,还在很大程度上影响受众的用户体验,限制新闻媒体行业智能化发展。因此,标题摘要技术对于新闻媒体传播发展至关重要。  标题自动摘要技术可以视为传统长文本摘要的一个分支,核心是根据正文信息抽取或生成能够概括全文的高质量标题。抽取式摘要通过评估原文中句子的重要度,由原文中提取重要度高的句子组成,而生成式摘要则使用了一系列自然语言处理技术,由计算机生成更加简明干练的句子构成。深度学习网络相比于传统抽取式摘要方法能够保留更多的语义信息,与抽取式自动摘要相比,生成式自动摘要更符合人类撰写的习惯,有着简洁、灵活、多样性等特点。论文主要研究基于深度学习及知识图谱的摘要生成方法,并设计完成了两种基于深度学习的摘要生成系统,主要工作如下:  ①基于深度学习Seq2Seq框架下的摘要生成。首先对清华新闻数据集及爬取的新闻数据集进行清洗分类后,分别以字向量与词向量路线展开研究,技术上分别采用卷积神经网络、LSTM网络和BERT预训练模型对文本进行深度特征提取,并结合注意力机制、指针生成网络、Beam Search等技术优化模型。通过实验对比,本文提出架构能生成更为优质的标题。  ②提出基于传统生成式摘要与抽取式摘要结合方法,将Textrank与TFIDF算法用于文本预处理阶段展开研究,通过实验证明该方法使得数据利用率得到有效提高,能够使得下游任务能够获得更多更优质的数据集。  ③有效结合知识图谱语义知识,使得标题摘要生成效果显著提升。为了提高文摘的专业化程度及可读性,融合知识图谱三元组知识特征,在LSTM网络及BERT预训练模型上分别提升和优化,通过实验证明,融合知识图谱三元组知识特征后,能够生成更为优质的专业化标题。

著录项

代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号