首页> 中文学位 >基于语句特征提取的文本分类方法研究
【6h】

基于语句特征提取的文本分类方法研究

代理获取

目录

文摘

英文文摘

南京邮电学院学位论文独创性声明和使用授权声明

第一章文本分类系统综合概述

第一节研究背景

第二节文本分类介绍

第三节中文文本分类研究的现状

第四节基于统计的中文文本自动分类

第五节中文分类系统的典型应用

第六节本文的主要内容

第二章统计学习理论

第一节机器学习的一般方法和不足

第二节统计学习理论的核心内容

第三章向量空间模型

第一节关于VSM的基本概念

第二节项的选择

第三节项的权重计算

第四节语句单位特征项和词单位特征项探讨

第五节特征项的选择

第六节分词

第七节词的选择

第四章文本自动分类

第一节分类算法

第二节阀值的确定

第三节分类系统评估

第五章分类系统实现模型

第一节系统模型

第二节实际模型的实现

1.USE CASE图

2.类图

3.顺序图

第六章实验结果分析

第一节训练文本的选择

第二节阀值的选择

第三节补偿算法

第四节分类算法的探讨

结论

致谢

参考文献

攻读学位期间发表的学术论文

展开▼

摘要

随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法,进行了研究和探讨。当前的分类系统一般以孤立的词为特征单位,对孤立的词进行抽样、特征提取、获得权重,不进行语义的处理。这是由于进行语义处理需要大量的规则库和推理机,其实现方式复杂。针对这种情形,本文提出了一种将向量空间模型和语义相结合的方式,获取特征权重,进行训练文本训练,获得分类机的模式。阐述了模型的文本分类系统的结构,并给出了评估方法和实验结果,对比了各种分类方式下的效果。本文分以下几部分内容:一:本文在第一章讲述了分本分类系统当前背景情况,文本分类的几个基本步骤和常用方法。第二章讲述了统计学习的理论,从理论上进行了探讨。第三章介绍了向量空间模型和几种特征方法的获取,最后提出了新的特征获取方法。二:第四章讲述分类学习算法,以及针对本文提出的特征获取方法的分类学习方法。并且阐述了中文分类的评比标准。第五章介绍了针对本文提出的新方法建立模型的步骤和过程。三:第六章对实验结论进行阐述,并讲述了本文方法优点和缺点,以及未来研究可以做出的改进。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号