首页> 中文学位 >基于自然语言处理与非负矩阵分解的中文文本分类研究
【6h】

基于自然语言处理与非负矩阵分解的中文文本分类研究

代理获取

目录

文摘

英文文摘

声明

第1章 绪论

1.1 文本分类的研究背景

1.2 文本分类的研究意义

1.3 文本分类的研究历史与现状

1.4 本文的主要工作

1.5 各章内容简介

第2章 中文文本分类概述

2.1 文本分类的特点和框架

2.1.1 文本分类的特点

2.1.2 文本分类的框架

2.2 文本预处理

2.3 文本表示

2.3.1 向量空间模型(VSM)

2.3.2 文本特征的选择

2.4 特征降维

2.4.1 文档频数

2.4.2 互信息

2.4.3 信息增益

2.4.4 x2统计量

2.5 分类器设计

2.5.1 Rocchio方法-相似度计算方法

2.5.2 KNN-K邻近算法

2.5.3 SVM-支持向量机

2.6 本章小节

第3章 基于统计的用户词典生成算法

3.1 中文自动分词

3.2 分词词典的重要性

3.3 基于统计的用户词典生成算法

3.4 本章小节

第4章 基于非负矩阵分解的中文文本分类

4.1 非负矩阵分解

4.1.1 非负矩阵分解的理论

4.1.2 非负矩阵分解的计算

4.2 基于非负矩阵分解的中文文本分类算法

4.2.1 特征提取

4.2.2 分类识别

4.3 实验设计与结果分析

4.3.1 实验语料

4.3.2 评价指标

4.3.3 文本预处理

4.3.4 实验结果分析

4.4 本章小节

第5章 中文文本分类系统

5.1 文本分类系统设计的主要考虑因素

5.2 文本分类系统的系统结构

5.3 文本分类系统的主要算法流程

5.4 文本分类系统的主要图形界面

5.5 文本分类系统的特点

5.6 本章小节

第6章 总结与展望

6.1 全文总结

6.2 工作展望

参考文献

攻读硕士学位期间发表的学术论文

致谢

展开▼

摘要

中文文本自动分类就是根据待判文本的内容,让计算机自动将其判别为预先定义好的若干类别中的某一类或者是某几类的过程,它是中文自然语言处理中的一个重要研究方向,有着极其重要的现实意义。中文文本分类的难点就是文本经向量空间模型表示后,特征空间维数很高,这样一方面会增加文本分类的计算复杂度,导致分类时间过长,另一方面这些特征中可能含有冗余特征,导致分类精度降低。另外,在选择“词”作为文本表示的特征项时,分词的精度对分类效果有着一定的影响,而目前的分词系统中存在着分词词典过于陈旧、领域相关性过强的缺点,会直接影响分词精度而导致不满意的文本分类效果。
   本文针对以上两个问题,提出了基于自然语言处理与非负矩阵分解的中文文本分类算法。针对目前分词词典过于陈旧、领域相关性过强的缺点,提出了基于统计的用户词典生成算法,该算法首先对最新的大规模语料库进行分词,然后利用新词发现算法,经过适当人工干预,形成一个只包含新词的用户词典,在分词时,与原词典采用一体化方法来提高分词精度。针对中文文本分类中特征空间维数较高的问题,结合非负矩阵分解的独特优点--分解结果的非负性,提出了基于非负矩阵分解的中文文本分类算法。分类时,首先利用非负矩阵分解方法进行特征提取,然后进行分类识别。对上述算法,从四个方面进行了比较实验,实验结果表明,上述算法提高了文本分类的F1值,证实了所提算法的有效性,文章最后设计并实现了一个中文文本自动分类系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号