首页> 中文学位 >基于潜在语义结构的文本层次分类
【6h】

基于潜在语义结构的文本层次分类

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1文本分类概述

1.1.1文本平面分类

1.1.2文本层次分类

1.2国内外研究现状

1.2.1文本分类的发展阶段

1.2.2文本分类存在的问题

1.3本文主要研究内容

1.4论文的组织结构

第2章文本分类方法及分析

2.1文本自动分类问题的一般描述

2.1.1文本层次分类问题描述

2.1.2文本层次分类的求解策略

2.2文本自动分类的关键技术

2.2.1文本的特征表示

2.2.2特征项提取

2.2.3文本分类的性能评估方法

2.3常用文本分类算法

2.3.1简单向量距离分类法

2.3.2 KNN(K最近邻居)算法

2.3.3贝叶斯分类法

2.3.4支持向量机分类方法

2.3.5其它分类方法

2.4文本分类算法分析

2.4.1分类器性能分析

2.4.2平面分类和层次分类评估

第3章基于概率主题的文本层次分类

3.1文本层次分类相关工作

3.2传统特征表示方法改进

3.2.1传统特征表示方法

3.2.2基于概率主题的表示方法

3.3一种新的层次分类方法

3.3.1模型介绍

3.3.2主题抽取方法

3.3.3分类方法

3.4实验结果和分析

3.5本章小结

第4章基于潜在语义索引的文本层次分类

4.1潜在语义索引

4.1.1 LSI的原理

4.1.2基于LSI文本分类

4.2结合标签的自适应性层次分类方法

4.2.1基于LSI文本分类

4.2.2丰富类别标签

4.2.3算法的理论分析

4.3层次分类模型

4.4实验结果和分析

4.4.1数据集介绍

4.4.2实验参数设置

4.4.3实验结果

4.5本章小结

第5章结论与工作展望

5.1本文总结

5.2工作展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

在读期间参加的科研项目

展开▼

摘要

随着网络的迅速发展,网页,电子邮件,数据库数字图书馆等电子文本成几何级数不断增长,如何有效地处理这些海量数据,并将其按照某种给定的模式进行归类是一个非常重要的课题。文本分类技术的基本任务就是根据文档内容,从给定的标记集中找出一个或者多个最适合于该文档的标记,现阶段较为常用的是基于统计和机器学习的文本分类方法。 传统的文本分类方法未能考虑类别间的层次结构,而在实际应用中,类别之间有着复杂的关系,这些类别通常组织成一个概念层次树。这种层次结构可以方便用户进行浏览及搜索等可视化操作。此外,依照层次结构对文档库进行分类更能体现文档之间的语义关系。通常而言,层次分类方法首先将给定的文档类别按照层次结构组成分类树,然后对于给定的文档,按照某个分类算法将它逐层分配到分类树中某个节点中。 在文本层次分类研究中,较为通用的数学模型是向量空间模型。该模型利用特征向量表征文档,其中特征项一般用词条表示。然而,该模型只注重了词形,而未考虑词义。本文利用潜在语义索引和概率主题模型等方法,有效发现了文档集合中的语义信息,并依此信息实现文本层次分类,本文的工作主要体现在以下几个方面: 首先,对层次分类技术进行了详尽细地调研和分析。本文介绍了文本层次分类技术的基本方法和关键技术,并充分调研国内外相关工作现状,通过实验,对文本层次分类方法进行了综合分析和评估。同时,指出了当前文本层次分类方面的不足,即基于向量空间模型的特征表示方法没有反映文档集合中的语义信息,而且易受到噪音的影响,而以后的发展方向则应该更加侧重于从文档语义着手。 其次,提出了基于概率主题的文本层次分类方法。概率主题模型是一种统计生成模型,它可以从文档集合中抽取一系列主题,并将这些文档表示为不同主题依照一定概率混合而成。通过这种模型发现的主题,能揭示文档的语义信息,在很多领域都有着广泛的应用。本文基于概率主题模型,提出了一种新的文本层次分类方法。在20 Newsgroups数据集上的实验结果表明,该方法的分类性能可以超越支持向量机分类方法。 最后,提出了基于类别标签的文本层次分类模型。在文本层次分类中,类别是以层次的结构组织的,每个类别用一个标签来标识。虽然文本分类的研究工作已经有很多,但是很少有人将类别标签结合到分类的过程中去。一般来说,在文本分类过程中,在标签中出现的词条比其它词条更加重要。本文提出了一种基于类别标签的潜在语义索引模型,并全面的探索了类别标签在文本层次分类中的作用。同时,在该模型中,本文提出了一种自适应的策略,从而更好的利用类别间的层次结构。实验结果表明,该分类方法可以明显的提高分类性能。通过详细的理论分析和实验证明,本文提出的文本层次分类方法能够很好的探索并利用文档集合中包含的语义信息,同时,在潜在的语义结构中实现的分类方法能够减弱噪声的影响,更好的提高文本分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号