中文文本自动分类算法研究

代理获取

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

随着Internet的迅猛发展和日益普及，电子文本信息迅速膨胀，如何有效地组织和管理这些信息，并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术，可以在较大程度上解决信息杂乱现象的问题，方便用户准确地定位所需的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础，文本分类技术有着广泛的应用前景。本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发，提出多种有效的解决或改进的方法和技术。较系统地综述了中文文本分类中自动分词技术、特征提取技术、文本分类模型和性能评估技术的研究现状和研究方法。较全面地讨论了贝叶斯方法、k近邻方法和AdaBoost等三种中文文本分类方法。作者采用三个模型，实现了朴素贝叶斯分类器、k近邻分类器和Adaboost分类器三个中文文本分类器，集成了一个实用性较强的实验系统。文中深入地分析了k近邻方法的不足，提出了改进的k近邻方法，有基于隐含语义，特征聚合，强化文本中语义链属性因子与检索相结合的迭代近邻法四种方法进行改进，提高了分类器的性能。重点讨论了AdaBoost的相关问题。概述了boost理论的主要内容和应用情况。 Naive Bayesian分类器是一种有效的文本分类方法，但由于具有较强的稳定性，很难通过Boosting机制提高其性能。因此用Naive分类器作为Boosting的基分类器需要解决的最大问题，就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本，第二种方法采用随机属性选择社团，第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明，这几种方法各有其优缺点，但都比原有方法准确、高效。实验表明，三种分类器都适合于中文文本分类的需要，其中Adaboost分类器的分类性能最好。而朴素贝叶斯的简单快速，k近邻方法性能适中同样适用于中文文本分类的需要。

著录项

作者
王香港;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科电子与通信工程
授予学位硕士
导师姓名倪佑生;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;TP391.12;
关键词
中文文本; 自动分类; 信息检索; 搜索引擎; 文本数据库; 贝叶斯方法;

相似文献

中文文献
外文文献
专利

1. 基于关联规则的图书馆中文文本自动分类方法 [J] . 姚亮亮 . 科技资讯 . 2020,第014期
2. 基于机器学习的中文文本自动分类的实践研究 [J] . 韦灵 ,黎伟强 . 智库时代 . 2019,第045期
3. 基于机器学习的中文文本自动分类的实践研究 [J] . 韦灵 ,黎伟强 . 智库时代 . 2019,第046期
4. 三种中文文本自动分类算法的比较和研究 [J] . 陈琳 ,王箭 . 计算机与现代化 . 2012,第002期
5. 中文文本自动分类中的特征选择改进与研究 [J] . 张振浩 ,周奇年 ,杨继慧 . 工业控制计算机 . 2012,第011期
6. 中文文本自动分类中特征向量选择的一种改进算法 [C] . 王若翔 ,刘亚军 . 全国第五次程序设计语言发展与教学学术会议、第三届全国Web信息系统及其应用学术会议暨全国首届语义Web与本体论学术研讨会 . 2006
7. 基于关联规则的中文文本自动分类算法研究 [A] . 杨柯 . 2007

中文文本自动分类算法研究

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅