基于词向量和主题向量的文本分类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的飞速发展，我们每天面对着越来越多需要处理的文本信息。如何从海量的文本信息中提取出所需要的目标信息，从而给人们更好的服务与体验是我们面临的一项主要挑战。文本分类算法则是完成这项挑战中的一项重要技术。文本分类作为一项基础技术，已经涉及到图书馆智能化管理、新闻个性化推荐、文本情感分析、文本信息过滤等方面，这些应用使人们的生活更加便捷。本文在分析原有的文本分类技术的基础上，发现原有算法的不足，从而提出了一种新的文本特征提取框架，主要工作内容如下：
　　(1)分析了词向量算法可以计算词语间相似度，将其引入到文本分类特征提取中有利于构建更优秀的特征，选择了性能和速度都更优秀的Word2Vec词向量计算算法。但是词向量无法解决一词多义问题，而且词向量只表示了上下文词语关系，缺少文本全局信息。本文提出了一种将主题与词向量计算结合的方法，得到了与词向量类似的主题向量。因为相同的词语可能具有不同的主题向量，并且主题向量是一种全局级别的信息。将主题向量和词向量结合的方法，在改善了一词多义问题的同时引入了全文信息。
　　(2)一些文本特征提取方法直接使用词向量累加或者类似的低维度特征方法。这种低维的特征对表达字典维度巨大的文本特征不利，抛弃了高维向量空间模型对文本分类问题的优势。文本提出了一种保留向量空间模型的Adaptive-means聚类算法，这种自适应聚类算法将词向量与主题向量结合，使得在文本中含义相近的词语聚为一类，从而在最终文本特征表达时相似的词语对特征贡献相同。本文还利用n-gram增加上下文信息，以及对短文本特征进行扩展，得到最终的文本特征。
　　(3)本文利用两种新闻数据集对算法进行验证，并将本文算法的结果与其它已有算法进行比较。验证了利用词向量和主题向量表示文章特征的优势，同时验证了这种高维的向量空间模型得到的特征与低维度特征相比的优势。最后对实验中参数选择进行了分析，得到了参数选取的一般性方法，最终确定了一套文本分类方案，为项目后续的新闻推荐工作提供分类结果。

著录项

作者
郭宏运;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科信息与通信工程
授予学位硕士
导师姓名刘文予;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
文本分类; 词向量; 主题向量; 信息过滤; 向量空间模型; 自适应聚类;

相似文献

中文文献
外文文献
专利

1. 结合主题模型词向量的CNN文本分类 [J] . 牛雪莹 . 计算机与现代化 . 2019,第010期
2. 基于模糊支持向量机的多主题文本分类算法研究 [J] . 秦玉平 ,王秀坤 ,艾青 . 小型微型计算机系统 . 2008,第003期
3. 基于双通道词向量的ACRNN文本分类 [J] . 邢鑫 ,孙国梓 . 计算机应用研究 . 2021,第004期
4. 基于宽度和词向量特征的文本分类模型 [J] . 李雪松 . 计算机系统应用 . 2021,第003期
5. 基于加权词向量和卷积神经网络的新闻文本分类 [J] . 胡万亭 ,贾真 . 计算机系统应用 . 2020,第005期
6. 基于词向量和主题向量嵌入的文本分类方法研究 [C] . Mao Wenliang ,毛文梁 ,Feng Dawei . 2017年全国高性能计算学术年会 . 2017
7. 基于词向量和主题的短文本分类算法研究 [A] . 徐逸 . 2018

基于词向量和主题向量的文本分类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅