基于词性与LDA主题模型的文本分类技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着“互联网+”时代的到来，需要处理的数据越来越多，文本挖掘的工作也显得越来越重要，人们希望能够从海量的信息文本中准确地获得想要的信息，于是对于现有的文本数据挖掘技术，人们提出来一系列更高的需求。文本分类作为文本数据挖掘的重要组成部分之一，目前已经广泛应用于信息过滤、搜索引擎、数字化图书馆、个性化推荐等多个领域，对它的研究拥有很强的现实意义。
　　首先，本文介绍了文本分类技术的价值，简要介绍了当前时代下文本分类的课题背景;阐述了国内外目前对于文本表示、特征选择的研究现状;对传统文本分类技术的特征提取方法进行了剖析，针对其存在的特征空间维度大、分类效率低、准确率相对偏低的现状，结合词性在文本中的地位，提出了使用基于词性的特征选择的方法，同时将其与LDA主题模型结合使用，并深刻分析了该方法存在的意义与价值，以及其应用在LDA主题模型上的优势，以及对最终分类结果的性能评估的影响。
　　其次，对文本分类过程中重要的环节，包括预处理、文本分词、特征提取、特征权重、分类算法、性能评估等，都选择了目前比较常用经典的算法以及实验中将会使用到的算法、指标等，进行了简要的介绍与原理分析，对文本分类的整体流程进行了系统性的介绍。
　　然后，针对提出的基于词性的特征选择方法与结合LDA主题模型的方式，重点介绍了词关于词性的这个特性，以及LDA主题模型。为了验证词性的可用性，研究了典型特征提取算法提取的特征词的词性分布;然后有选择的筛选词性作为特征，研究其对特征空间降维的影响以及分类结果的影响;并对比筛选不同词性特征词组合的分类结果，分析各种词性的重要程度，以及它们在文本中的实际价值;最后结合词性与LDA主题模型，研究词性在LDA主题模型的作用于意义。通过系统的实验，使用真实的数据进行了最终的结果分析，得出名词、动词、形容词构成文本的主体，它们基本决定了文本的属性，其中尤其以名词表现最为突出的结论，验证了词性的重要性，同时也发现词性在传统特征选择算法中，并没有发挥太大的作用，反而能够从语料的角度来说，能够缩减原始数据集，从另一个角度降低分类算法的需要处理的数据量，从而节约了时间与空间，还能保持原有的正确率。同时在原有实验基础上，验证了LDA主题模型对于词性的依赖，证明了词性在LDA主题模型上的适用性，而且词性与LDA主题模型的结合使用拥有非常好的分类效果。
　　最后，结合实验中遇到的问题，总结了下一步的研究方向，展望了文本分类技术在未来的发展趋势。

著录项

作者
张勇;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科软件工程
授予学位硕士
导师姓名周爱武;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
特征选择; 词性筛选; LDA主题模型; 文本分类;

相似文献

中文文献
外文文献
专利

1. 基于Sentence-LDA主题模型的短文本分类 [J] . 张浩 ,钟敏 . 计算机与现代化 . 2019,第003期
2. 基于LDA主题模型的短文本分类 [J] . 杨萌萌 ,黄浩 ,程露红 . 计算机工程与设计 . 2016,第012期
3. 基于mRMR和LDA主题模型的文本分类研究 [J] . 史庆伟 ,从世源 . 计算机工程与应用 . 2016,第005期
4. 基于卡方特征选择和LDA主题模型的中文短文本分类 [J] . 郑诚 ,熊大康 ,刘倩倩 . 电脑知识与技术 . 2014,第013期
5. 基于LDA主题模型的短文本分类方法 [J] . 张志飞 ,苗夺谦 ,高灿 . 计算机应用 . 2013,第006期
6. 一种基于聚类的主题模型短文本分类方法 [C] . 黄鑫 ,樊兴华 . 第十届中国Rough集与软计算、第四届中国Web智能、第四届中国粒计算联合会议 . 2010
7. 一种词性标注LDA模型的文本分类方法研究 [A] . 张超 . 2015

基于词性与LDA主题模型的文本分类技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅