首页> 中文学位 >基于改进句向量生成算法的文本相似度研究
【6h】

基于改进句向量生成算法的文本相似度研究

代理获取

目录

声明

绪论

一、研究背景及意义

二、国内外文献综述

(一)国内研究现状

(二)国外研究现状

三、研究内容

四、本文的创新点

第一章 句向量与文本相似度的相关理论概述

第一节 中文文本预处理方法

一、分词

二、去停词

第二节 句向量生成算法概述

一、词向量表示

二、基于词向量的加权平均算法

三、Quick-Thought Vectors算法

第三节 文本相似度的计算方法

一、编辑距离

二、Jaccard相似度

三、余弦相似度

第二章 句向量生成算法的改进

第一节 基于字向量和词向量的加权平均算法

一、问题描述

二、算法改进

第二节 融合Transformer的Quick-Thought Vectors算法

一、问题描述

二、算法改进

第三章 改进的句向量生成算法在文本相似度上的对比分析

第一节 数据来源及描述

一、中文维基百科数据

二、小爱用户数据

三、手机常用操作数据

第二节 数据预处理

一、数据清洗

二、分词及去停词

第三节 改进后的模型对比分析

一、训练细节

二、句向量生成算法的性能评估

总结和展望

一、总结

二、不足与展望

参考文献

致谢

展开▼

摘要

随着互联网的发展和人工智能技术的革新,大量的文本信息出现,如何生成优质的句向量,对文本相似度进行衡量成了当前研究的热点和难点之一。文本相似度在文本分类、信息检索和文本去重等领域具有重要的应用,比如各大手机厂商争先推出的智能语音助手。传统的文本相似度研究主要基于编辑距离和Jaccard相似度,只能揭示文本在字面上的相似性。在利用余弦相似度衡量文本相似度的研究中,如何生成优质的句向量是关键。当前关于句向量的研究较少,尤其是中文句向量。大多数研究都集中在利用传统的向量空间模型生成句向量,或者是引入外部词典信息生成句向量,比如人为地给词性添加一定的权重。这些只是对词向量的简单平均,并没有从更深的层次上挖掘句子中存在的语义信息。  为了更好地利用余弦相似度衡量文本之间的相似度,本文主要研究了如何利用无监督学习算法,生成优质的中文句向量。首先,分析了分词对生成句向量的算法性能的影响,得到了在深度学习框架下,字级别的模型优于词级别的模型的结论。然后,在基于词向量的加权平均算法中引入了字向量,从字和词两个角度生成句向量。同时在基于上下文生成句向量的Quick-ThoughtVectors算法中,引入Transformer模型,有效地弥补了原算法中缺少的长文本中蕴含的语义信息。  最后,在获取的小爱的真实数据集上进行实证分析,利用F1值和算法运行效率作为评价指标,对改进前后的句向量生成算法进行对比分析,可以得到:基于字向量和词向量的加权平均算法的F1值达到了86.5%,远超其它仅基于字或者词的加权平均算法;在未分词的情况下,融合Transformer的Quick-ThoughtVectors算法的F1值达到了86.6%,与改进前的算法相比得到了一定的提升。二者性能相差不大,但是融合Transformer的Quick-ThoughtVectors算法采用了深度学习网络结构,算法运行时间较长。进一步探究后,本文还发现了基于字向量和词向量的加权平均算法侧重于短句和重合度较高的句子,融合Transformer的Quick-ThoughtVectors算法侧重于长句和重合度较低的句子。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号