首页> 中文学位 >基于多示例多标签框架的网页分类信息丢失的研究
【6h】

基于多示例多标签框架的网页分类信息丢失的研究

代理获取

目录

声明

第一章 前言

1.1 课题背景

1.2 国内外研究现状

1.2.1 SVM技术研究现状

1.2.2 多示例多标签学习研究现状

1.3 论文研究内容

1.4 论文组织结构

第二章 网页分类技术概述

2.1关于网页分类

2.1.1 常用的网页分类算法

2.1.2 网页分类技术

2.2 多示例多标签学习

2.2.1 多示例学习

2.2.2 多标签学习

2.2.3 多示例多标签学习

2.3 SVM概述

2.3.1 SVM简介

2.3.2 SVM基本原理

2.3.3 核函数

2.4 本章小结

第三章 基于混合高斯模型的MIMLSVM改进算法

3.1 聚类算法K-Means和K-Medoids

3.1.1 K-Means算法

3.1.2 K-Medoids算法

3.2 基于混合高斯模型的MIMLSVM改进算法

3.2.1 豪斯多夫距离

3.2.2 MIMLSVM算法

3.2.3 EM算法

3.2.4 混合高斯模型

3.2.5 MIMLSVM改进算法

3.3 实验与分析

3.3.1 实验设计

3.3.2 实验结果分析

3.5 本章小结

第四章 基于权重排序的多示例多标签算法

4.1 AdaBoost算法

4.1.1 AdaBoost算法

4.1.2 TF-IDF算法

4.2 基于权重排序的MIMLBOOST改进算法

4.2.1 MIMLBOOST算法

4.2.2 基于权重排序的MIMLBOOST改进算法

4.3 实验与分析

4.3.1 实验设计

4.3.2 实验结果分析

4.4 本章小结

第五章 网页分类系统设计与实现

5.1 实验环境设定

5.2 实验设计

5.2.1 页面爬取

5.2.2 网页预处理

5.2.3 训练模块

5.2.4 测试模块

5.3 运行结果与分析

5.3.1 系统运行

5.3.2 结果分析

5.4 本章小结

总结与展望

主要工作

主要创新点

存在的问题及未来的方向

参考文献

攻读硕士学位期间取得的学术成果

致谢

展开▼

摘要

随着互联网技术的快速发展,网络成为人们获取信息的主要来源,如何从网络中挖掘出有用信息并找出相关规律,已经成为当前研究的热点。网页分类是一种组织和分析网页信息的技术,它能够对网页实现类别标注。多示例多标签是一种新的学习框架,其在分类领域表现良好。因此,将网页分类和多示例多标签相结合十分有意义。 本文阐述了网页分类算法,介绍了多示例多标签学习框架,分析了MIMLBOOST与MIMLSVM两种算法。真实世界中的事物往往是多语义的,将多个示例集合映射到多个标签集合上才能更好地反映真实世界。在解决多示例映射问题时通常采用退化机制,将多示例多标签退化为单示例单标签,但是退化过程中可能丢失重要信息从而影响分类结果。针对网页分类准确率低问题,提出了基于混合高斯模型的聚类算法。混合高斯模型可以逼近样本点的分布,通过概率模型计算样本点类别,然后采用EM算法对高斯模型进行参数优化,重新计算后再基于退化算法来提高分类准确率。针对退化过程中忽略示例之间联系造成信息丢失问题,采用基于权重排序的算法。通过聚类加强示例之间的联系,再利用TF-IDF算法对标签加权,对于权重低于阈值的标签,不与示例包结合。这样一方面增强了示例之间的联系,另一方面使正负样本趋于平衡。改进后的算法减少了重要信息的丢失,提高了分类效率。 最后,将改进后的算法应用到网页分类系统中,并对该算法进行实验对比和性能分析。实验数据表明,本文算法具有更好的分类效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号