首页> 中文学位 >基于主题相似度的短文本分类方法研究
【6h】

基于主题相似度的短文本分类方法研究

代理获取

目录

声明

摘要

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 概率主题模型研究现状

1.2.2 短文本分类研究现状

1.3 研究内容及创新点

1.4 论文结构安排

第二章 相关理论知识概述

2.1 文本分类

2.1.1 文本分类概述

2.1.2 文本分类的流程

2.1.3 文本分类介绍

2.2 文本预处理

2.2.1 文本切分

2.2.2 分词

2.2.3 去除噪音

2.3 特征选择方法和建模

2.3.1 特征选择

2.3.2 建模

2.4 文本分类性能评价指标

2.5 本章小结

第三章 基于主题相似度的短文本模型构造

3.1 短文本特征分析

3.2 LDA主题模型

3.2.1 LDA主题模型的生成过程

3.2.2 吉布斯抽样原理

3.3 文本主题向量化

3.4 基于LDA模型的短文本分类

3.5 实验结果与分析

3.5.1 文本集预处理

3.5.2 实验结果分析

3.6 本章小结

第四章 改进KNN分类算法设计实现

4.1 文本分类器

4.1.1 KNN分类算法

4.1.2 相似性度量

4.1.3 改进的KNN算法

4.2.1 实验流程

4.2.2 参数设置

4.2.3 对比实验设计

4.3 实验结果与分析

4.3.1 实验环境

4.3.2 实验语料处理

4.3.3 吉布斯抽样过程

4.3.4 结果分析

4.4 本章小结

5.1 总结

5.2 展望

参考文献

致谢

展开▼

摘要

在互联网广泛应用的影响下,特别是微信、微博、问答系统等新媒体的出现使得互联网每天产生海量的短文本信息。这些短文本的长度短、内容少、用词不规范、数据量庞大而且属于半结构化的信息数据。把长文本的处理方法直接应用于短文本的文本挖掘中,难以取得令人满意的文本挖掘效果。因此,如何准确、实时、高效的挖掘短文本中隐藏的信息,是目前中文信息处理与文本挖掘讨论与研究的热点。
  短文本具有结构短、文本内容少、数量庞大、语义不明显等特点,导致短文本的分类面临特征稀疏、噪声多、上下文依赖强等问题。基于搜索引擎的短文本分类方法,分类结果比较依赖搜索引擎;基于大规模语料库的分类方法,比较依赖外部语料库。本文在分析短文本特点的基础上,根据目前短文本分类方法存在的缺陷,从短文本的建模矩阵特征稀疏、短文本上下文依赖性强等问题进行切入,探索根据主题判断短文本的相似度从而实现分类。
  首先,研究文献资料,分析中文文本分类的理论和方法,着重分析短文本分类方法。在分析基于VSM的传统短文本分类方法时,发现短文本建模的特征矩阵稀疏、维度高不利于准确分类,因此设计一种基于主题相似度的分类算法。应用主题挖掘的理论和方法,采用LDA概率模型来估算短文本的主题概率分布向量。
  其次,针对传统KNN算法在分类过程中,计算量特别大,处理文本集庞大的短文本集时,计算量会更大。本文根据局部敏感哈希解决ANN问题的优点,构建改进LSH的KNN分类器,实现从主题层面上对短文本的快速分类。
  最后,本文从理论上叙述了构建改进LSH的KNN分类器,能够在一定程度上提高分类效果,减少分类时间。本文根据构建的分类器和文本分类方法,在Linux环境下建模,利用MATLAB实现分类,设计基于VSM分类方法的对比实验,对最终的实验结果对比,得出本文基于主题相似度的分类方法整体分类性能较好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号