首页> 中文学位 >基于SVM的WEB中文文本分类系统研究与实现
【6h】

基于SVM的WEB中文文本分类系统研究与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 研究背景和意义

1.2 研究现状

1.3 存在问题

1.4 研究内容和章节安排

第二章 WEB中文文本分类理论概述

2.1 文本分类的概念

2.2 Web中文文本预处理

2.3 特征选择

2.4 特征权重

2.5 文本表示

2.6 分类算法

2.7 性能估计

第三章 文本表示

3.1 TF-IDF模型

3.2 主题模型

第四章 支持向量机理论及关键技术

4.1 支持向量机理论

4.2 多分类问题

第五章 SVM中文文本分类系统设计与实现

5.1单文本表示模型下的文本分类系统设计

5.2 实验平台

5.3语料库

5.4 训练阶段

5.6 预测阶段

5.7 实验结果与分析

5.8 新型Web中文文本分类系统

第六章 总结和展望

6.1 总 结

6.2 存在问题和工作展望

致谢

参考文献

展开▼

摘要

近几年来,我国的互联网处于飞速发展之中,计算机的使用也不断普及,互联网上出现了海量的信息资源。如何管理、获取这些资源成为了一个极具挑战性的问题。就国内的现状而言,互联网上的信息多数是以中文Web文本的形式存储、展示的。针对中文Web文本的自动分类系统,由于其在解决获取、管理互联网信息资源中的重要意义,而受到了广泛的关注。
  不同于印欧语系语言,中文由于其独特的特性决定,其特征词之间并没有明显的分界线,且相同长度文字之中的信息量也远大于印欧语系语言,因而在对中文Web文本分类的过程中,首先必须使用一种合理有效的方式表示文本并提取特征信息,其次才能根据这些信息进行分类。因而中文Web文本的表示模型与分类算法一起,成为中文分类系统中的两个关键问题。
  本文介绍了中文Web文本分类的相关背景技术,研究与讨论了经典TF-IDF信息检索模型和、LSA语义信息检索模型和LDA概率主题检索模型在中文文本分类技术中的应用,研究并分析了现有的基于支持向量机的分类算法的优缺点。之后实现了使用上述三种检索模型的基于支持向量机的文本分类算法。使用公开的数据对系统进行了测试。对基于上述三种模型的分类结果进行了分析和比对,提出了可以在准确率和时间上权衡的Web中文文本分类系统,并通过实验验证了该系统的正确性和实用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号