首页> 中文学位 >基于关系权重的SVM文本分类研究
【6h】

基于关系权重的SVM文本分类研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1 引言

1.2 国外研究现状

1.3 国内研究现状

1.4 本文的研究内容

1.5 本文的组织结构

第二章支持向量机理论介绍

2.1 引言

2.2 统计学习理论

2.3 支持向量机概述

2.3.1 最优分类超平面

2.3.2 广义最优分类超平面

2.3.3 核函数

2.3.4 模型选择

2.4 多类问题中的SVM

2.4.1 多类问题中SVM组合策略

2.4.2 常用多类SVM分析比较

第三章文本分类相关知识

3.1 文本表示模型

3.1.1 文本特征表示

3.1.2 向量空间模型

3.2 文本分类算法总结

3.2.1 统计方法

3.2.2 规则方法

3.3 评价指标

3.3.1 召回率与精确率

3.3.2 BEP与F-Measure

3.3.3 微平均与宏平均

3.4 特征选择

第四章基于关系权重的文本表示法

4.1 经典的文本表示法

4.2 关系权重的定义与表示

4.3 关系权重的计算

第五章 基于关系权重的SVM文本分类系统

5.1 系统总体设计

5.2 分词

5.3 去停用词

5.4 词频统计

5.5 文本排重

5.6 特征项提取

5.7 特征项权重计算

5.8 分类学习

5.9 分类测试

5.10 分类结果评估

第六章 系统实现与实验结果

6.1 实验环境

6.2 SVM实验平台

6.2.1 LIBSVM软件包简介

6.2.2 LIBSVM使用方法简介

6.2.3 LIBSVM使用的数据格式

6.3 实验数据

6.4 实验结果与分析

第七章总结与展望

参考文献

作者在攻读硕士学位期间公开发表的论文

作者在攻读硕士学位期间参加的项目

致 谢

展开▼

摘要

随着科学技术的日新月异,特别是互联网的快速发展,各种信息情报激增,人们可以通过各种手段快速获取大量的文本资料,但是如何对所获取的资料进行科学而有效地管理,如何运用计算机对文本进行自动分类是摆在人们面前的一个不可回避而又很有意义的课题。支持向量机作为一种强分类器,在文本分类中的应用获得了广泛的研究,成为现代信息处理的一个研究热点。本文在上述背景下,开展了基于关系权重的SVM文本分类的研究。 本文首先介绍了支持向量机的理论,并对其在多类问题中的几种组合策略进行了分析和比较。同时阐述了文本分类的一些相关知识,比如向量空间模型、文本分类评价指标等。 然后,深入分析了一种简单又常用的TF-IDF特征加权算法的特点,找出其分类精度不高的原因,在此基础上提出了一种基于关系权重的文本表示方法,通过引入关系权重,优化了文本表示,在文本向量中体现了不同特征项在不同类别中重要程度的差异,使得在此权重下不同类别的文本得到更准确的区分。同时,本文还采用六种不同的特征选择评估函数来计算关系权重,改进了文本向量的表示。 接着,本文构造了一个基于关系权重的SVM中文文本分类系统。该系统采用“一对多”的方法来进行SVM文本分类,并且在文本排重模块中,引入了一个聚类算法,通过设定一个适当的聚类半径,达到聚类排重的目的,降低了系统的时间复杂度。 最后,通过一个数码产品信息语料库进行了文本分类实验,实验结果表明:用大多数的特征选择评估函数来计算关系权重,对文本分类精度都有一定的优化和改进,其中以互信息效果最佳。实验表明基于关系权重的文本表示法,较之传统的TF-IDF文本表示法,能使文本分类精度得到提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号