首页> 中文学位 >基于范例推理的文本自动分类研究
【6h】

基于范例推理的文本自动分类研究

代理获取

目录

文摘

英文文摘

第一章绪论

1.1文本自动分类的意义及现状

1.2基于范例推理CBR概述

1.3本文工作内容

1.4本文组织结构

第二章文本自动分类技术

2.1文本自动分类概述

2.2特征提取

2.2.1 IG特征提取

2.2.2MI特征提取

2.2.3 CHI特征提取

2.2.4DF特征提取

2.3特征表示

2.3.1布尔模型

2.3.2向量空间模型

2.3.3概率模型

2.4分类模型

2.4.1 Rocchio算法

2.4.2朴素贝叶斯模型

2.4.3 决策树

2.4.4神经网络

2.4.5 K近邻

2.5性能指标

2.6本章小结

第三章基于范例推理技术

3.1 CBR的主要过程

3.2关键技术

3.2.1范例库的建立

3.2.2范例的检索

3.2.3范例修改

3.2.4范例存储

3.2.5范例的维护

3.3本章小结

第四章基于CBR的文本自动分类研究

4.1特征表示

4.1.1VSM与词共现模型

4.1.2综合VSM与词共现的文档表示方法

4.2范例表示

4.3基于CBR的文本自动分类系统的设计与实现

4.3.1系统结构

4.3.2 训练模块

4.3.3分类模块

4.3.4范例库维护

4.4实验过程及结果讨论

4.4.1测试集及性能评价指标

4.4.2实验程及结果讨论

4.5本章小结

第五章基于CBR的Email自动分类研究

5.1 Email自动分类的研究现状

5.2潜在语义分析方法

5.2.1潜在语义分析方法的基本思想

5.2.2潜在语义分析方法的理论基础

5.3基于CBR的Email自动分类

5.3.1建立单词-文档关联矩阵的方法

5.3.2范例表示

5.3.3分类过程

5.3.4一个简单的例子

5.4实验过程及结果讨论

5.4.1测试集及评价指标

5.4.2实验过程及果讨论

5.5本章小结

第六章总结与展望

6.1本文工作总结

6.2下一步工作

参考文献

致 谢

攻读硕士学位期间论文发表及科研项目

展开▼

摘要

迅猛发展的现代科技带来了大量的信息资料。如何对这些信息资料进行有效地管理成为了现代科学的一个重要问题。   本文将基于范例推理CBR技术应用到文本自动分类中,并对范例表示进行了研究,实现了基于范例推理的文本自动分类系统和Email自动分类系统。文章针对目前常规的向量空间模型VSM 文档表示方法不能反映概念的问题,提出了用VSM和词共现共同表示文档的方法,用词共现来表达文档的概念信息。将训练集中的每一类文档聚类,聚类后的结果作为范例存入范例库中,然后用最近邻方法进行分类。由于Email具有文本长度短、内容覆盖面大的特点,用关键词匹配的方法很难取得比较好的效果,文章采用潜在语义分析LSA的方法,利用矩阵的奇异值分解理论SVD来获得了Email的概念空间,在此概念空间上表示Email作为范例,再用最近邻方法分类。实验结果验证了本文提出的方法是可行的和有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号