基于知识图谱及深度学习的标题自动摘要研究

代理获取

页面导航

目录
摘要
著录项
相关主题

摘要

新闻行业及短评文章需要大量标题型摘要，不仅对新闻编辑人才提出需求，还在很大程度上影响受众的用户体验，限制新闻媒体行业智能化发展。因此，标题摘要技术对于新闻媒体传播发展至关重要。　　标题自动摘要技术可以视为传统长文本摘要的一个分支，核心是根据正文信息抽取或生成能够概括全文的高质量标题。抽取式摘要通过评估原文中句子的重要度，由原文中提取重要度高的句子组成，而生成式摘要则使用了一系列自然语言处理技术，由计算机生成更加简明干练的句子构成。深度学习网络相比于传统抽取式摘要方法能够保留更多的语义信息，与抽取式自动摘要相比,生成式自动摘要更符合人类撰写的习惯,有着简洁、灵活、多样性等特点。论文主要研究基于深度学习及知识图谱的摘要生成方法，并设计完成了两种基于深度学习的摘要生成系统，主要工作如下：　　①基于深度学习Seq2Seq框架下的摘要生成。首先对清华新闻数据集及爬取的新闻数据集进行清洗分类后，分别以字向量与词向量路线展开研究，技术上分别采用卷积神经网络、LSTM网络和BERT预训练模型对文本进行深度特征提取，并结合注意力机制、指针生成网络、Beam Search等技术优化模型。通过实验对比，本文提出架构能生成更为优质的标题。　　②提出基于传统生成式摘要与抽取式摘要结合方法，将Textrank与TFIDF算法用于文本预处理阶段展开研究，通过实验证明该方法使得数据利用率得到有效提高，能够使得下游任务能够获得更多更优质的数据集。　　③有效结合知识图谱语义知识，使得标题摘要生成效果显著提升。为了提高文摘的专业化程度及可读性，融合知识图谱三元组知识特征，在LSTM网络及BERT预训练模型上分别提升和优化，通过实验证明，融合知识图谱三元组知识特征后，能够生成更为优质的专业化标题。

著录项

作者
赵帅;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科工程(计算机技术)
授予学位硕士
导师姓名李学明;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
新闻标题,生成式摘要,深度学习,知识图谱;

基于知识图谱及深度学习的标题自动摘要研究

目录

摘要

著录项

相关主题

期刊订阅