首页> 中文学位 >基于概念格扩展模型的无标签文本挖掘方法研究
【6h】

基于概念格扩展模型的无标签文本挖掘方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

文本挖掘是指从文本中获取有价值信息的技术方法。文本分类和文本聚类是文本挖掘中的重要手段,是处理和归类文档信息的关键技术。随着文本数量的快速增长,无标签文本所占的比例越来越高,传统的分类方法无法直接处理该类文本。一种解决办法是结合无监督的聚类方法和有监督的分类方法,将无标签分类问题转化为传统的有标签分类问题。解决思路是:首先利用聚类方法挖掘出文本的类别信息,以此构建分类体系并获取与类别语义相关的关键词;然后利用单词匹配的方法获取有类别标记的样本;最后构建分类器。 常见的聚类方法一般是将文本划分到唯一的类别,然而实际应用中的文本往往是多类别的,并且类别之间存在一定的层次关系。另一方面,两个常用的聚类方法,K-means和FCM,对初始值的设定较为敏感,聚类结果不稳定。基于概念格的文本聚类方法是稳定的,并且格结构可解决聚类节点中的多重继承关系,构建出多层次的分类体系。模糊概念格是经典概念格的扩展,相对于经典概念格,能够更精确地表示出文本与特征词之间的不确定关系。本文利用模糊概念格实现文本聚类,改进现有的模糊形式概念之间相似度的计算方法,综合考虑模糊对象子集和模糊属性子集对相似度的影响,构建模糊概念层次关系并生成模糊本体原型。利用模糊本体原型构建分类体系,并通过词向量之间的余弦相似度获取现有标签的语义相关词汇,不断扩充并完善分类体系。 支持向量机、神经网络等常用的分类方法存在可解释性低的问题。基于概念格的分类方法能够利用一组正分类规则实现分类,具有较强的可解释性。但概念格中的形式概念仅考虑特征属性与类别属性之间的正关联关系,忽视了负关联关系。Qi等于2014年将概念格理论拓广为三支概念分析,该拓展理论能够同时表达数据集中的正关联关系和负关联关系。本文首次将三支概念分析应用于文本分类。首先,给出三支概念分析下正负分类规则的定义、获取方法和约简原则;其次,根据类别信息将分类规则集分组,计算待分类样本属于每类的加权和,负分类规则对权值产生负影响,最大权值对应的类别即为预测类别。 文章最后利用搜狗实验室新闻语料进行实验。通过聚类质量评估文本聚类效果,分别从数据集,特征词个数,参数三个角度设计实验,实验结果表明:改进后的方法具有更高的聚类质量。通过准确率评估文本分类效果,分别从测试集,特征词个数两个角度进行实验。实验结果表明:相对于基于经典概念的分类模型,基于三支概念的分类模型具有更高的准确率,平均提高5.9%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号