基于多示例多标签框架的网页分类信息丢失的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的快速发展，网络成为人们获取信息的主要来源，如何从网络中挖掘出有用信息并找出相关规律，已经成为当前研究的热点。网页分类是一种组织和分析网页信息的技术，它能够对网页实现类别标注。多示例多标签是一种新的学习框架，其在分类领域表现良好。因此，将网页分类和多示例多标签相结合十分有意义。本文阐述了网页分类算法，介绍了多示例多标签学习框架，分析了MIMLBOOST与MIMLSVM两种算法。真实世界中的事物往往是多语义的，将多个示例集合映射到多个标签集合上才能更好地反映真实世界。在解决多示例映射问题时通常采用退化机制，将多示例多标签退化为单示例单标签，但是退化过程中可能丢失重要信息从而影响分类结果。针对网页分类准确率低问题，提出了基于混合高斯模型的聚类算法。混合高斯模型可以逼近样本点的分布，通过概率模型计算样本点类别，然后采用EM算法对高斯模型进行参数优化，重新计算后再基于退化算法来提高分类准确率。针对退化过程中忽略示例之间联系造成信息丢失问题，采用基于权重排序的算法。通过聚类加强示例之间的联系，再利用TF-IDF算法对标签加权，对于权重低于阈值的标签，不与示例包结合。这样一方面增强了示例之间的联系，另一方面使正负样本趋于平衡。改进后的算法减少了重要信息的丢失，提高了分类效率。最后，将改进后的算法应用到网页分类系统中，并对该算法进行实验对比和性能分析。实验数据表明，本文算法具有更好的分类效率。

著录项

作者
王文杰;
展开▼
作者单位

中国石油大学(华东);

展开▼
授予单位中国石油大学(华东);
学科计算机技术
授予学位硕士
导师姓名李村合,王稼良;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
示例; 多标签; 框架; 网页分类;

相似文献

中文文献
外文文献
专利

1. 基于特权信息的多示例多标签算法研究 [J] . 廖嘉林 ,倪文 ,谢礼珍 . 电子世界 . 2019,第017期
2. 基于页面标签的网页分类研究 [J] . 陈笑筑 ,王东 ,陈笑蓉 . 商场现代化 . 2009,第019期
3. 认知框架视野下的"标签新闻"研究——基于四大门户网站的典型标签新闻报道分析(2010-2016) [J] . 刘丽 . 宜春学院学报 . 2017,第005期
4. 基于Fisher的RFID标签安全双向认证防丢失协议研究 [J] . 林虎 ,舒成也 ,胡美意 . 电子设计工程 . 2019,第009期
5. 中国本土领导研究的一种框架及操作:基于张瑞敏个案的研究过程示例 [J] . 徐立国 ,席酉民 ,葛京 . 管理学报 . 2012,第010期
6. 基于多示例框架的属性学习算法 [C] . Ding Ya-chen ,丁亚晨 ,Wu Hang . 第17届中国系统仿真技术及其应用学术年会（17th CCSSTA 2016) . 2016
7. 基于多示例多标签框架的网页分类方法 [A] . 王亚星 . 2016

基于多示例多标签框架的网页分类信息丢失的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅