首页> 中文学位 >基于层次监督的多标签文档分类问题研究
【6h】

基于层次监督的多标签文档分类问题研究

代理获取

目录

声明

摘要

1绪论

1.1研究背景与研究意义

1.2国内外研究现状

1.3本文研究内容

1.4本文组织结构

2文本分类以及分类模型

2.1文本分类

2.1.1文本分类定义

2.1.2文本分类过程

2.2文本分类模型

2.2.1隐性语义分析

2.2.2无监督主题模型

2.2.3监督主题模型

2.2.4神经网络模型

2.2.5支持向量机

2.2.6决策树算法

2.2.7贝叶斯分类

2.2.8 KNN分类器

2.3本章小结

3基于层次结构的NLDA模型

3.1模型的提出

3.2模型的推导

3.2.1模型的训练

3.2.2模型的预测

3.3本章小结

4引入主题监督的NSLDA模型

4.1模型的提出

4.2模型的推导

4.3模型的扩充

4.3.1主题的扩充

4.3.2结构的扩充

4.3.3发掘标签结构

4.4基于正负例的模型混合

4.4.1集成学习

4.4.2正负例模型的选择

4.4.3模型的融合

4.5本章小结

5实验结果与分析

5.1实验数据与实验环境

5.1.1实验数据

5.1.2数据预处理

5.1.3实验环境

5.2评估指标

5.3实验设计

5.3.1 NSLDA模型实验设计

5.3.2正负例模型混合实验设计

5.4实验结果与分析

5.4.1 NSLDA模型实验结果

5.4.2正负例模型混合实验结果

5.5本章小结

6总结与展望

6.1本文工作总结

6.2未来研究展望

参考文献

附录攻读学位期间参加的科研工作及成果

致谢

展开▼

摘要

文本分类是数据挖掘领域的热门话题。从文本数据中快速有效地发掘文本内容信息并根据文本的内容自动对文本进行分类成为数据挖掘领域的主流方向。传统的单标签文档分类假定每个文档属于一个类别,而且不同类别之间彼此独立。但是在实际应用中,一个文档可以绑定到多个标签上,不同文档之间可以共享标签。多标签分类的任务是基于训练得到文档分类模型,对未知标签的测试样本准确的定位到多个类别,更加全面的反映文档的实际特性。文档分类问题可用的机器学习方法包括决策树模型,贝叶斯分类,神经网络模型、主题模型和支持向量机等,通过构建文本分类系统对未知的样本进行自动归类。 本文重点在于对多标签文档进行分类,在已知多标签文本的层次结构或者可以发掘数据集层次结构的情况下,对传统的基于主题模型的分类模型进行改进。本文的主要工作包括以下三个部分: 1)基于文档标签固有的层次结构,引入隐藏层提出NLDA模型。隐藏层是“主题-标签”对,上层主题和下层标签通过对偶形成全连接结构。对隐藏层计数统计得到下层标签分布,自上而下对文档生成过程进行监督以提高分类精度。 2)在NLDA模型的基础上,引入主题层次监督提出NSLDA模型。我们的观察是:文档中主题数量远小于标签数量,因此主题层次的分类精度远大于标签层次的分类精度。研究基于LDA模型得到每个文档主题层的稳定概率分布,并将该概率分布作为输入对NLDA模型的Gibbs采样过程进行调谐得到NSLDA模型。同时,根据层次结构的多样性对NSLDA模型进行扩充,提高模型的通用性。 3)构建正负例模型进行模型融合。借鉴集成学习的思想引入增强学习。将主题模型的训练分为两个(正负)训练模型,分别预测得到预测集的标签概率分布,将标签概率按照一定的权重融合得到最终的概率分布,降低模型过拟合的风险。 实验结果表明,本文提出的NLDA模型与NSLDA模型在标签层次结构已知的数据集中有良好的分类效果,NSLDA模型又优于NLDA模型。合理选择正负例样本训练模型,并对预测的标签概率分布混合会进一步提升模型的分类性能。

著录项

  • 作者

    谢晨阳;

  • 作者单位

    武汉大学;

  • 授予单位 武汉大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 李文海;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TN9;
  • 关键词

    层次; 监督; 多标签; 文档分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号