首页> 中文学位 >主题优化过滤方法研究与应用
【6h】

主题优化过滤方法研究与应用

代理获取

目录

声明

摘要

第1章 绪论

1.1 课题背景及意义

1.2 国内外研究现状

1.3 本文研究内容

1.4 章节安排

第2章 相关理论概述

2.1 LDA主题模型

2.1.1 文本建模

2.1.2 概率隐含语义索引模型

2.1.3 LDA文本建模

2.1.4 吉布斯采样

2.1.5 模型训练和推断

2.2 主题优化过滤相关方法

2.2.1 词向量简介

2.2.2 词汇表述全局向量模型(GloVe)

2.3 词性分析

第3章 主题过滤方法的研究与应用

3.1 引言

3.2 主题语义一致性计算

3.3 实验设计与结果分析

3.3.1 实验环境与目的

3.3.2 数据预处理

3.3.3 主题数目的确定

3.3.4 主题语义一致性的计算

3.3.5 分类过程及结果

3.4 本章小结

第4章 主题优化方法的研究与应用

4.1 引言

4.2 主题词判定

4.3 基于WordNet的英语词汇相似度计算

4.4 实验结果分析

4.4.1 实验环境与目的

4.4.2 实验结果

4.5 本章小结

第5章 总结与展望

5.1 论文的总结

5.2 下一步研究工作

参考文献

致谢

展开▼

摘要

在文本挖掘领域,主题模型受到越来越高的关注。生成的主题作为数据的隐含表述,获得了富含语义且低维的特征。但是现阶段主题模型构建方法所生成主题的质量却不尽如人意,因此如何提升主题质量这一问题得到了许多研究者的关注。
  本文针对主题质量这一问题,提出了一系列对主题进行过滤优化的方法,包括:在语料库预处理中引入词性分析这一概念,只保留文档中有用的名词和动词,利用主题语义一致性评价主题质量并设定阈值,对噪声主题进行过滤;针对主题中的词汇进行主题词判定,对主题中的噪声词汇进行过滤。通过文本分类来验证所提方法的有效性。文章主要工作包括以下两个方面:
  主题的过滤方法。要想得到较好的主题过滤效果,就需要一个精确的主题质量评价指标。传统的主题一致性只是根据当前语料库来对主题质量进行判定,没有利用外部语料库来对其进行语义调整。本文利用一个外部语料库(Wikipedia2014)生成词向量,根据词向量来计算两个单词的语义相似度,再与主题一致性中的同文档词频矩阵相结合,实现外部语料库对主题一致性的指导作用,从而更加精确地对主题质量进行评价,再通过设定阈值来过滤噪声主题,以提高主题模型的质量。
  主题的优化方法。本文利用主题词判定方法来对主题进行优化,认定在当前语料库中频繁出现而在一般英语中不常出现的词汇是主题词。排除非主题词,可减少噪声词汇的影响。此外,还利用WordNet这一语义层级结构词典来计算单词间的关联度,进而确定主题中的词汇是否在语义层次方面有关联,以对主题进行二次优化,提高文本分类效果。

著录项

  • 作者

    解琰;

  • 作者单位

    大连海事大学;

  • 授予单位 大连海事大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 王春立,许捍卫;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    文本挖掘; 主题质量; 过滤优化方法; 评价指标;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号