基于概念格扩展模型的无标签文本挖掘方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本挖掘是指从文本中获取有价值信息的技术方法。文本分类和文本聚类是文本挖掘中的重要手段，是处理和归类文档信息的关键技术。随着文本数量的快速增长，无标签文本所占的比例越来越高，传统的分类方法无法直接处理该类文本。一种解决办法是结合无监督的聚类方法和有监督的分类方法，将无标签分类问题转化为传统的有标签分类问题。解决思路是：首先利用聚类方法挖掘出文本的类别信息，以此构建分类体系并获取与类别语义相关的关键词；然后利用单词匹配的方法获取有类别标记的样本；最后构建分类器。常见的聚类方法一般是将文本划分到唯一的类别，然而实际应用中的文本往往是多类别的，并且类别之间存在一定的层次关系。另一方面，两个常用的聚类方法，K-means和FCM，对初始值的设定较为敏感，聚类结果不稳定。基于概念格的文本聚类方法是稳定的，并且格结构可解决聚类节点中的多重继承关系，构建出多层次的分类体系。模糊概念格是经典概念格的扩展，相对于经典概念格，能够更精确地表示出文本与特征词之间的不确定关系。本文利用模糊概念格实现文本聚类，改进现有的模糊形式概念之间相似度的计算方法，综合考虑模糊对象子集和模糊属性子集对相似度的影响，构建模糊概念层次关系并生成模糊本体原型。利用模糊本体原型构建分类体系，并通过词向量之间的余弦相似度获取现有标签的语义相关词汇，不断扩充并完善分类体系。支持向量机、神经网络等常用的分类方法存在可解释性低的问题。基于概念格的分类方法能够利用一组正分类规则实现分类，具有较强的可解释性。但概念格中的形式概念仅考虑特征属性与类别属性之间的正关联关系，忽视了负关联关系。Qi等于2014年将概念格理论拓广为三支概念分析，该拓展理论能够同时表达数据集中的正关联关系和负关联关系。本文首次将三支概念分析应用于文本分类。首先，给出三支概念分析下正负分类规则的定义、获取方法和约简原则；其次，根据类别信息将分类规则集分组，计算待分类样本属于每类的加权和，负分类规则对权值产生负影响，最大权值对应的类别即为预测类别。文章最后利用搜狗实验室新闻语料进行实验。通过聚类质量评估文本聚类效果，分别从数据集，特征词个数，参数三个角度设计实验，实验结果表明：改进后的方法具有更高的聚类质量。通过准确率评估文本分类效果，分别从测试集，特征词个数两个角度进行实验。实验结果表明：相对于基于经典概念的分类模型，基于三支概念的分类模型具有更高的准确率，平均提高5.9%。

著录项

作者
朱晓敏;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科计算机科学与技术
授予学位硕士
导师姓名祁建军;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
概念格扩展模型; 标签; 文本挖掘;

相似文献

中文文献
外文文献
专利

1. 基于概念格的Web文本挖掘方法 [J] . 张楠 ,于波 . 东北石油大学学报 . 2009,第003期
2. 基于概念格的文本挖掘 [J] . 王娜 ,李云松 . 计算机技术与发展 . 2006,第001期
3. 基于概念格的无冗余关联规则提取算法 [J] . 翟悦 ,秦放 . 计算机应用与软件 . 2015,第004期
4. 基于改进概念格的无冗余关联规则提取 [J] . 刘霜霜 ,饶天贵 ,孙建华 . 计算机工程 . 2010,第010期
5. 基于FCM与Max-min扩展模型的制造业供应商风险评估方法研究 [J] . 陈伟杰 ,肖智 . 工业工程 . 2013,第006期
6. 基于概念格理论的电网故障诊断方法研究 [C] . 洪晓东 ,栗然 ,刘金生 . 中国高等学校电力系统及其自动化专业第二十五届学术年会 . 2009
7. 基于概念格扩展模型的关联规则挖掘 [A] . 刘凡 . 2005

基于概念格扩展模型的无标签文本挖掘方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅