首页> 中文学位 >中文文本分类特征提取方法的研究与实现
【6h】

中文文本分类特征提取方法的研究与实现

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文主要研究内容

1.4 本文的组织结构

2 文本分类的相关技术

2.1 文本分类概述

2.2 文本预处理

2.3 文本表示模型

2.4 文本特征降维

2.5 文本特征加权

2.6 文本分类算法

2.7 分类器性能评价

3 基于类别相关的新文本特征提取方法

3.1 文本特征提取的过程

3.2 常用的特征提取方法

3.3 基于类别相关的新文本特征提取方法

3.4 本章小结

4 中文文本分类系统的设计与实现

4.1 中文文本分类系统的总体设计

4.2 中文文本分类系统模块设计

4.3 中文文本分类系统的实现

4.4 本章小结

5 实验结果分析

5.1 实验介绍

5.2 实验结果及分析

5.3 本章小结

6 总结与展望

6.1 研究总结

6.2 下一步工作

致谢

参考文献

展开▼

摘要

随着计算机网络技术的迅猛发展,文本信息数量呈现指数级的增长。文本分类作为一种有效的文本信息组织管理技术能很好地组织管理海量、异构的信息。在文本分类基础上通过信息检索、过滤等技术可以帮助人们从海量信息中快速,准确地查找相关知识信息,提高生活工作效率,因此对文本分类技术的研究具有较大的研究意义和实用价值。
  本文首先对文本分类关键技术进行研究分析,在此基础上对特征提取方法进行了重点研究,提出了新特征提取方法,并利用新特征提取方法设计开发了一个中文文本分类系统,实验结果分析表明文中提出的特征提取方法取得了良好的实验效果。本文主要的研究工作如下:
  ①分析了对文本分类过程及关键技术,研究了文本特征特征提取方法。通过对基于过滤模型的几种常用特征提取方法分析比较后,发现文本特征提取过程中负相关特征与弱相关特征对特征提取质量好坏易产生较大的干扰。为了避免这种干扰,本文提出一个基于类别正相关和类别强相关的特征提取方法SP(StrongCorrelationandPositiveCorrelation,正相关与强相关),SP方法通过优先选择正相关特征和强相关特征,有效地减少了负相关特征和弱相关特征的干扰,从而保证高质量文本特征的提取。
  ②设计与实现了一个中文文本分类系统,把文本分类的特征提取方法SP应用到中文文本分类系统。文中对中文文本分类系统进行了总体设计和功能模块设计,分析研究汉语语法分析工具包ICTCLAS与全文检索工具包Lucene,并将二者结合作为中文文本分类系统搭建解决方案,最终实现了中文文本分类系统。
  ③在中文文本分类系统上对特征提取方法进行大量的实验。把本文提出的新特征提取方法与常用的DF、CHI、CC等特征提取方法进行对比实验,利用多项常用的分类效果评价指标对实验结果进行综合性评价分析。实验结果表明SP方法通过提取高质量的特征词,构造低维的特征向量,能够有效地降低特征空间维度,在中文文本分类中表现出良好的特征提取效果,反映了类别间的差异度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号