基于层次监督的多标签文档分类问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本分类是数据挖掘领域的热门话题。从文本数据中快速有效地发掘文本内容信息并根据文本的内容自动对文本进行分类成为数据挖掘领域的主流方向。传统的单标签文档分类假定每个文档属于一个类别，而且不同类别之间彼此独立。但是在实际应用中，一个文档可以绑定到多个标签上，不同文档之间可以共享标签。多标签分类的任务是基于训练得到文档分类模型，对未知标签的测试样本准确的定位到多个类别，更加全面的反映文档的实际特性。文档分类问题可用的机器学习方法包括决策树模型，贝叶斯分类，神经网络模型、主题模型和支持向量机等，通过构建文本分类系统对未知的样本进行自动归类。本文重点在于对多标签文档进行分类，在已知多标签文本的层次结构或者可以发掘数据集层次结构的情况下，对传统的基于主题模型的分类模型进行改进。本文的主要工作包括以下三个部分: 1)基于文档标签固有的层次结构，引入隐藏层提出NLDA模型。隐藏层是“主题-标签”对，上层主题和下层标签通过对偶形成全连接结构。对隐藏层计数统计得到下层标签分布，自上而下对文档生成过程进行监督以提高分类精度。 2)在NLDA模型的基础上，引入主题层次监督提出NSLDA模型。我们的观察是:文档中主题数量远小于标签数量，因此主题层次的分类精度远大于标签层次的分类精度。研究基于LDA模型得到每个文档主题层的稳定概率分布，并将该概率分布作为输入对NLDA模型的Gibbs采样过程进行调谐得到NSLDA模型。同时，根据层次结构的多样性对NSLDA模型进行扩充，提高模型的通用性。 3)构建正负例模型进行模型融合。借鉴集成学习的思想引入增强学习。将主题模型的训练分为两个（正负）训练模型，分别预测得到预测集的标签概率分布，将标签概率按照一定的权重融合得到最终的概率分布，降低模型过拟合的风险。实验结果表明，本文提出的NLDA模型与NSLDA模型在标签层次结构已知的数据集中有良好的分类效果，NSLDA模型又优于NLDA模型。合理选择正负例样本训练模型，并对预测的标签概率分布混合会进一步提升模型的分类性能。

著录项

作者
谢晨阳;
展开▼
作者单位

武汉大学;

展开▼
授予单位武汉大学;
学科计算机软件与理论
授予学位硕士
导师姓名李文海;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TN9;
关键词
层次; 监督; 多标签; 文档分类;

相似文献

中文文献
外文文献
专利

1. 基于标签加权的HTML文档分类算法 [J] . Michael Williams . 现代计算机（专业版） . 2012,第014期
2. 基于增量模式的文档层次分类研究 [J] . 古平 ,罗志恒 ,欧阳源遊 . 计算机工程 . 2014,第001期
3. 基于Fisher线性判别式的层次文档分类 [J] . 徐敏 ,张丽萍 ,朱梧槚 . 南京理工大学学报（自然科学版） . 2005,第004期
4. 基于卷积神经网络和层次标签集扩展的文本分类方法 [J] . 王礼云 ,辛月兰 . 西北师范大学学报（自然科学版） . 2021,第002期
5. 一种基于树搜索的层次多标签乳腺疾病分类诊断方法 [J] . 金程笑 ,潘乔 ,张敬谊 . 智能计算机与应用 . 2020,第002期
6. 基于Boosting方法的中文文档层次分类 [C] . 周水庚 ,胡运发 ,汪保友 . 第7届中国机器学习学术会议 . 2000
7. 基于不完整标签信息的多标签分类问题研究 [A] . 王晶晶 . 2019

基于层次监督的多标签文档分类问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅