首页> 中文学位 >基于统计方法的中文文本自动分类研究
【6h】

基于统计方法的中文文本自动分类研究

代理获取

目录

文摘

英文文摘

郑重声明

第一章 引言

1.1课题研究的背景和意义

1.2国外研究状况

1.3国内研究状况

1.4主要工作与本文的结构

第二章 文本自动分类的相关模型

2.1文本自动分类的定义

2.2分类常用模型

2.2.1向量空间模型(VSM,Vector Space Model)

2.2.2潜在语义索引(LSI)模型

2.2.3贝叶斯概率模型

2.3自动分类常用算法介绍

2.3.1中心向量法

2.3.2朴素贝叶斯方法(Naive Bayes)

2.3.3 K-近邻算法(KNN)

2.3.4支持向量机(SVM)

第三章 文本自动分类器构造

3.1文本预处理

3.2文本特征描述

3.2.1特征提取

3.2.2特征重构

3.3分类器构造

3.3.1训练文本特征项权重计算

3.3.2待分类文本特征项权重计算

3.3.3分类器构造算法

3.4阈值的确定

3.5文本自动分类系统的结构框架

第四章 实验设置与结果分析

4.1实验用语料库

4.1.1国家语委现代汉语平衡语料库

4.1.2新浪网网页语料

4.2实验环境

4.3实验评测标准

4.4实验项目

4.5实验结果分析

4.6网页自动分类实验

第五章 分类器算法的改进

5.1改进算法

5.2实验结果分析

第六章 结论与展望

6.1全文总结

6.2展望

致谢

硕士阶段参加的课题与发表的论文

参考文献

展开▼

摘要

随着信息技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的数字化的时代.如何从这些海量信息中迅速有效地获得所需信息也就成为一项很重要的研究课题.为此目的,文本自动分类被研究者提出并进行了应用研究.研究文本自动分类具有重要意义,它可以大大的缩短了对资料的整理时间,为信息检索提供方便,有利于现实文档的存档管理.该文主要是应用统计的方法对文本自动分类进行理论和实践的探讨.我们的工作主要从以下方面进行:1.探讨了基于统计方法的文本自动分类的定义、常用模型和常用算法.2.讨论了文本自动分类器一般方法、步骤及有关技术细节.3.在向量空间模型下,实现了向量距离加权算法、代表向量算法、中心向量算法构造的三种分类器.对三种分类器分别以字、词为特征进行分类测试、分析发现:①使用相同的分类算法,用词作为特征项,比以字作为特征的分类效果好;②用不同的算法构造分类器对分类效果的影响很大,如中心向量算法在字、词特征下的分类效果优于其他两算法;在以字为特征的情况下,该算法的平均查全率80.73%,平均查准率82.94%;在以词为特征的情况下,该算法的平均查全率83.6%,平均查准率85.97%;③选用语料不同对分类效果也有影响,如用新浪网(www.sina.com.cn)网页语料进行测试,使用中心向量法分类器和词作为特征的情况下,平均准确率为89.31%,平均查全率为88.33%.4.基于改进后的中心向量法重构自动分类器,测试取得了开放测试平均查全率90.35%、平均准确率90.87%和封闭测试平均查全率98.36%、平均准确率98.74%的分类效果,说明改进后的算法适合中文文本分类.该文所得到的这些实验数据对于开发实际的文本分类系统具有指导意义.该研究可应用于网络信息检索、信息过滤、中文文本自动分类、中文网页自动分类等应用领域.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号