基于主题相似度的短文本分类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在互联网广泛应用的影响下，特别是微信、微博、问答系统等新媒体的出现使得互联网每天产生海量的短文本信息。这些短文本的长度短、内容少、用词不规范、数据量庞大而且属于半结构化的信息数据。把长文本的处理方法直接应用于短文本的文本挖掘中，难以取得令人满意的文本挖掘效果。因此，如何准确、实时、高效的挖掘短文本中隐藏的信息，是目前中文信息处理与文本挖掘讨论与研究的热点。
　　短文本具有结构短、文本内容少、数量庞大、语义不明显等特点，导致短文本的分类面临特征稀疏、噪声多、上下文依赖强等问题。基于搜索引擎的短文本分类方法，分类结果比较依赖搜索引擎;基于大规模语料库的分类方法，比较依赖外部语料库。本文在分析短文本特点的基础上，根据目前短文本分类方法存在的缺陷，从短文本的建模矩阵特征稀疏、短文本上下文依赖性强等问题进行切入，探索根据主题判断短文本的相似度从而实现分类。
　　首先，研究文献资料，分析中文文本分类的理论和方法，着重分析短文本分类方法。在分析基于VSM的传统短文本分类方法时，发现短文本建模的特征矩阵稀疏、维度高不利于准确分类，因此设计一种基于主题相似度的分类算法。应用主题挖掘的理论和方法，采用LDA概率模型来估算短文本的主题概率分布向量。
　　其次，针对传统KNN算法在分类过程中，计算量特别大，处理文本集庞大的短文本集时，计算量会更大。本文根据局部敏感哈希解决ANN问题的优点，构建改进LSH的KNN分类器，实现从主题层面上对短文本的快速分类。
　　最后，本文从理论上叙述了构建改进LSH的KNN分类器，能够在一定程度上提高分类效果，减少分类时间。本文根据构建的分类器和文本分类方法，在Linux环境下建模，利用MATLAB实现分类，设计基于VSM分类方法的对比实验，对最终的实验结果对比，得出本文基于主题相似度的分类方法整体分类性能较好。

著录项

作者
李彬;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机软件与理论
授予学位硕士
导师姓名陈利;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ;
关键词
文本分类; 主题相似度; LDA概率模型; KNN分类器;

相似文献

中文文献
外文文献
专利

1. 基于关键词相似度的短文本分类方法研究 [J] . 张振豪 ,过弋 ,韩美琪 . 计算机应用研究 . 2020 ,第001期
2. 基于语义相似度的技术多主题演化路径识别方法研究 [J] . 吴菲菲 ,陈肖微 ,黄鲁成 . 情报杂志 . 2018 ,第005期
3. 基于概率主题和文本互扩展的短文本分类技术 [J] . 周国剑 ,陈庆春 ,类先富 . 计算机与数字工程 . 2020 ,第010期
4. 基于Sentence-LDA主题模型的短文本分类 [J] . 张浩 ,钟敏 . 计算机与现代化 . 2019 ,第003期
5. 基于主题模型的短文本分类研究 [J] . 王海林 ,张雅君 . 中国管理信息化 . 2016 ,第019期
6. 一种基于聚类的主题模型短文本分类方法 [C] . 黄鑫 ,樊兴华 . 第十届中国Rough集与软计算、第四届中国Web智能、第四届中国粒计算联合会议 . 2010
7. 基于主题模型的短文本分类方法研究与实现 [A] . 汪涵潇 . 2020

基于主题相似度的短文本分类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅