基于自然语言处理与非负矩阵分解的中文文本分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

中文文本自动分类就是根据待判文本的内容，让计算机自动将其判别为预先定义好的若干类别中的某一类或者是某几类的过程，它是中文自然语言处理中的一个重要研究方向，有着极其重要的现实意义。中文文本分类的难点就是文本经向量空间模型表示后，特征空间维数很高，这样一方面会增加文本分类的计算复杂度，导致分类时间过长，另一方面这些特征中可能含有冗余特征，导致分类精度降低。另外，在选择“词”作为文本表示的特征项时，分词的精度对分类效果有着一定的影响，而目前的分词系统中存在着分词词典过于陈旧、领域相关性过强的缺点，会直接影响分词精度而导致不满意的文本分类效果。
　　本文针对以上两个问题，提出了基于自然语言处理与非负矩阵分解的中文文本分类算法。针对目前分词词典过于陈旧、领域相关性过强的缺点，提出了基于统计的用户词典生成算法，该算法首先对最新的大规模语料库进行分词，然后利用新词发现算法，经过适当人工干预，形成一个只包含新词的用户词典，在分词时，与原词典采用一体化方法来提高分词精度。针对中文文本分类中特征空间维数较高的问题，结合非负矩阵分解的独特优点--分解结果的非负性，提出了基于非负矩阵分解的中文文本分类算法。分类时，首先利用非负矩阵分解方法进行特征提取，然后进行分类识别。对上述算法，从四个方面进行了比较实验，实验结果表明，上述算法提高了文本分类的F1值，证实了所提算法的有效性，文章最后设计并实现了一个中文文本自动分类系统。

著录项

作者
王传廷;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科应用数学
授予学位硕士
导师姓名王展青;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类模式识别与装置;
关键词
中文文本; 文本分类; 模式识别; 非负矩阵分解;

相似文献

中文文献
外文文献
专利

1. 基于自然语言处理的政务留言文本分类研究 [J] . 李铭鑫 ,尹凯倩 ,吴岳松 . 电脑知识与技术 . 2021,第029期
2. 基于Python自然语言处理的文本分类研究 [J] . 韦文娟 ,韩家新 ,夏海洋 . 福建电脑 . 2016,第007期
3. 基于自然语言处理的中文产科电子病历研究 [J] . 张坤丽 ,马鸿超 ,赵悦淑 . 郑州大学学报（理学版） . 2017,第004期
4. 基于自然语言处理的中文科技论文特征提取研究 [J] . 陈频 . 电脑知识与技术 . 2007,第016期
5. 基于自然语言处理的中文科技论文特征提取研究 [J] . 陈频 . 电脑知识与技术 . 2007,第016期
6. 基于自然语言处理的中文情报检索和处理系统研究 [C] . 曾民族 . 第三届中文信息处理国际会议 . 1992
7. 基于自然语言处理的文本分类研究与应用 [A] . 何铠 . 2020

基于自然语言处理与非负矩阵分解的中文文本分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅