首页> 中文学位 >中文文本自动分类算法研究
【6h】

中文文本自动分类算法研究

代理获取

摘要

随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。 本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出多种有效的解决或改进的方法和技术。较系统地综述了中文文本分类中自动分词技术、特征提取技术、文本分类模型和性能评估技术的研究现状和研究方法。较全面地讨论了贝叶斯方法、k近邻方法和AdaBoost等三种中文文本分类方法。作者采用三个模型,实现了朴素贝叶斯分类器、k近邻分类器和Adaboost分类器三个中文文本分类器,集成了一个实用性较强的实验系统。 文中深入地分析了k近邻方法的不足,提出了改进的k近邻方法,有基于隐含语义,特征聚合,强化文本中语义链属性因子与检索相结合的迭代近邻法四种方法进行改进,提高了分类器的性能。 重点讨论了AdaBoost的相关问题。概述了boost理论的主要内容和应用情况。 Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。 实验表明,三种分类器都适合于中文文本分类的需要,其中Adaboost分类器的分类性能最好。而朴素贝叶斯的简单快速,k近邻方法性能适中同样适用于中文文本分类的需要。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号