基于改进句向量生成算法的文本相似度研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的发展和人工智能技术的革新，大量的文本信息出现，如何生成优质的句向量，对文本相似度进行衡量成了当前研究的热点和难点之一。文本相似度在文本分类、信息检索和文本去重等领域具有重要的应用，比如各大手机厂商争先推出的智能语音助手。传统的文本相似度研究主要基于编辑距离和Jaccard相似度，只能揭示文本在字面上的相似性。在利用余弦相似度衡量文本相似度的研究中，如何生成优质的句向量是关键。当前关于句向量的研究较少，尤其是中文句向量。大多数研究都集中在利用传统的向量空间模型生成句向量，或者是引入外部词典信息生成句向量，比如人为地给词性添加一定的权重。这些只是对词向量的简单平均，并没有从更深的层次上挖掘句子中存在的语义信息。　　为了更好地利用余弦相似度衡量文本之间的相似度，本文主要研究了如何利用无监督学习算法，生成优质的中文句向量。首先，分析了分词对生成句向量的算法性能的影响，得到了在深度学习框架下，字级别的模型优于词级别的模型的结论。然后，在基于词向量的加权平均算法中引入了字向量，从字和词两个角度生成句向量。同时在基于上下文生成句向量的Quick-ThoughtVectors算法中，引入Transformer模型，有效地弥补了原算法中缺少的长文本中蕴含的语义信息。　　最后，在获取的小爱的真实数据集上进行实证分析，利用F1值和算法运行效率作为评价指标，对改进前后的句向量生成算法进行对比分析，可以得到：基于字向量和词向量的加权平均算法的F1值达到了86.5%，远超其它仅基于字或者词的加权平均算法；在未分词的情况下，融合Transformer的Quick-ThoughtVectors算法的F1值达到了86.6%，与改进前的算法相比得到了一定的提升。二者性能相差不大，但是融合Transformer的Quick-ThoughtVectors算法采用了深度学习网络结构，算法运行时间较长。进一步探究后，本文还发现了基于字向量和词向量的加权平均算法侧重于短句和重合度较高的句子，融合Transformer的Quick-ThoughtVectors算法侧重于长句和重合度较低的句子。

著录项

作者
刘晨;
展开▼
作者单位

中南财经政法大学;

展开▼
授予单位中南财经政法大学;
学科数理统计学;理学
授予学位硕士
导师姓名余吉昌;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
文本识别,相似度分析,句向量生成算法,Transformer模型,信息检索;

相似文献

中文文献
外文文献
专利

1. 一种改进的基于向量空间文本相似度算法的研究与实现 [J] . 李连 ,朱爱红 ,苏涛 . 计算机应用与软件 . 2012,第002期
2. 基于句向量的文本相似度计算方法 [J] . 刘继明 ,于敏敏 ,袁野 . 科学技术与工程 . 2020,第017期
3. 基于TF-IDF向量空间模型文本相似度算法的分析 [J] . 甘秋云 . 池州学院学报 . 2018,第003期
4. 基于向量空间模型结合语义的文本相似度算法 [J] . 冯高磊 ,高嵩峰 . 现代电子技术 . 2018,第011期
5. 基于改进的TF-IDF方法的文本相似度算法研究 [J] . 周丽杰 ,于伟海 ,郭成 . 泰山学院学报 . 2015,第003期
6. 基于改进蚁群算法的支持向量机参数优化研究 [C] . 李宝晨 ,连光耀 ,仝蕊 . 第二十三届测试与故障诊断技术研讨会 . 2014
7. 基于改进句向量生成算法的文本相似度研究 [A] . 刘晨 . 2020

基于改进句向量生成算法的文本相似度研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅