首页> 中文学位 >独立于语种的文本分类研究
【6h】

独立于语种的文本分类研究

代理获取

目录

中文摘要

英文摘要

1 绪论

1.1 文本分类的研究背景及意义

1.2 文本分类的定义

1.3 文本分类技术的研究现状

1.3.1 文本分类技术的分类

1.3.2 文本分类在国外的发展

1.3.3 文本分类在国内的发展

1.4 本文研究内容

1.5 本文安排

2 文本分类的相关模型

2.1 文本表示模型

2.1.1 向量空间模型

2.1.2 统计语言模型

2.1.3 文本表示模型的比较与选择

2.2 基于N-GRAM语言模型的文本表示

2.3 N-GRAM模型若干关键问题

2.3.1 语义词

2.3.2 参数N的选择

2.3.3 数据平滑

2.4 分类常用算法介绍

2.4.1 贝叶斯方法

2.4.2 k-近邻方法

2.4.3 决策树方法

2.4.4 支持向量机方法

2.4.5 神经网络方法

2.4.6 基于投票的方法

2.4.7 Rocchio方法

2.5 小结

3 文本分类系统结构设计

3.1 文本分类系统的结构

3.2 分类功能

3.2.1 朴素贝叶斯分类器

3.2.2 链状贝叶斯分类器

3.2.3 多类别处理

3.3 数据分析功能

3.4 小结

4 分类系统开发

4.1 系统实现的目的和意义

4.2 总体结构

4.3 主要算法过程

4.3.1 分类算法的详细设计与实现

4.3.2 训练算法的详细设计与实现

4.3.3 混淆矩阵的生成

4.3.4 N元项的储存方式

4.3.5 分类数据的储存方式

4.4 评价方法

4.5 小结

5 实验及分析

5.1 实验环境

5.2 语料库

5.2.1 语料库的重要性

5.2.2 本文所使用的语料

5.3 实验结果以及分析

5.3.1 实验结果

5.3.2 实验分析

5.4 小结

6 总结与展望

6.1 总结

6.2 展望

致谢

参考文献

附录

展开▼

摘要

随着Internet的快速发展,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但随着Internet上信息量的爆炸式增加,信息搜索时,与特定用户要求不大相关的信息大量涌现,甚至掩盖了对用户真正有用的信息。在这繁杂的信息中,如何快速地找到用户需要的信息,如何有效地利用这些信息,文本分类起着非常重要的作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。本文提出了一种独立于语种不需分词的文本分类方法。与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免特征选择和大量预处理过程。本文首先介绍了文本自动分类在国内外的研究现状;其次对主流的文本表示模型进行了分析比较,研究了N-gram模型的参数N选取、平滑算法等内容;再次对系统的各个功能进行讨论,对系统的核心功能分类器进行了详细论述。本文选择了一种链状朴素贝叶斯分类器,这种分类器通过与N-gram模型相结合,弱化N-gram模型的独立性假设。实验表明,这种方法能够取得良好的分类效果;接下来对系统开发的关键点进行了展开,并详细介绍了评价方法;最后给出了实验结果及其分析。该文本分类方法已经在中文和英文两个语种上得到实现,并获得了较好的分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号