主题优化过滤方法研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在文本挖掘领域，主题模型受到越来越高的关注。生成的主题作为数据的隐含表述，获得了富含语义且低维的特征。但是现阶段主题模型构建方法所生成主题的质量却不尽如人意，因此如何提升主题质量这一问题得到了许多研究者的关注。
　　本文针对主题质量这一问题，提出了一系列对主题进行过滤优化的方法，包括:在语料库预处理中引入词性分析这一概念，只保留文档中有用的名词和动词，利用主题语义一致性评价主题质量并设定阈值，对噪声主题进行过滤;针对主题中的词汇进行主题词判定，对主题中的噪声词汇进行过滤。通过文本分类来验证所提方法的有效性。文章主要工作包括以下两个方面:
　　主题的过滤方法。要想得到较好的主题过滤效果，就需要一个精确的主题质量评价指标。传统的主题一致性只是根据当前语料库来对主题质量进行判定，没有利用外部语料库来对其进行语义调整。本文利用一个外部语料库(Wikipedia2014)生成词向量，根据词向量来计算两个单词的语义相似度，再与主题一致性中的同文档词频矩阵相结合，实现外部语料库对主题一致性的指导作用，从而更加精确地对主题质量进行评价，再通过设定阈值来过滤噪声主题，以提高主题模型的质量。
　　主题的优化方法。本文利用主题词判定方法来对主题进行优化，认定在当前语料库中频繁出现而在一般英语中不常出现的词汇是主题词。排除非主题词，可减少噪声词汇的影响。此外，还利用WordNet这一语义层级结构词典来计算单词间的关联度，进而确定主题中的词汇是否在语义层次方面有关联，以对主题进行二次优化，提高文本分类效果。

著录项

作者
解琰;
展开▼
作者单位

大连海事大学;

展开▼
授予单位大连海事大学;
学科软件工程
授予学位硕士
导师姓名王春立,许捍卫;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
文本挖掘; 主题质量; 过滤优化方法; 评价指标;

相似文献

中文文献
外文文献
专利

1. WEB内容过滤方法的研究与应用 [J] . 张颖江 ,陈驰 . 武汉纺织大学学报 . 2005,第004期
2. 基于非线性规划理论的事件主题词过滤方法 [J] . 高影繁 ,苏娜 ,张运良 . 情报学报 . 2018,第001期
3. 一种基于主题分类的文本过滤方法及其硬件实现 [J] . 谭玉玲 ,张新林 . 湖南工程学院学报（自然科学版） . 2010,第002期
4. 基于信息反馈的文本主题分类过滤方法 [J] . 侯风巍 ,郭东军 ,李世磊 . 通信学报 . 2009,第S1期
5. 基于Morphology处理和主题词抽取的垃圾邮件过滤方法 [J] . 胡健 ,马范援 . 上海交通大学学报 . 2005,第12期
6. 基于信息反馈的文本主题分类过滤方法 [C] . 侯风巍 ,郭东军 ,李世磊 . 第二届中国计算机网络与信息安全学术会议 . 2009
7. 信息过滤方法的研究与应用 [A] . 周威成 . 2003

主题优化过滤方法研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅