首页> 中文学位 >基于主题和语义指纹融合的学术论文粗分类方法研究
【6h】

基于主题和语义指纹融合的学术论文粗分类方法研究

代理获取

目录

声明

摘要

1.1 研究目的与意义

1.2 相关研究现状

1.2.1 文本表示模型

1.2.2 文档的压缩表示技术

1.2.3 文本语义特征提取

1.2.4 文本聚类方法

1.3 研究内容与主要工作

1.4 本文结构

第2章 文本表示与文本粗分类的理论基础

2.1 引言

2.2 文本表示模型

2.2.1 布尔模型

2.2.2 向量空间模型

2.3 数字指纹

2.3.1 哈希函数

2.3.2 Simhash算法

2.4 文本主题语义抽取

2.4.1 潜在语义分析

2.4.2 LDA主题模型

2.5 文本聚类

2.5.1 K-means聚类算法

2.5.2 文本相似度计算

2.5.3 聚类算法评价

2.6 本章小结

第3章 语义指纹提取与文档粗分类方法

3.1 引言

3.2 基于潜在语义分析的文本指纹提取方法

3.2.1 文本特征提取

3.2.2 潜在语义空间构造

3.2.3 指纹提取原理及算法

3.2.4 指纹相似度计算

3.3 基于融合表示的文档粗分类算法

3.3.1 梗概主题抽取

3.3.2 文档的融合表示与相似度计算

3.3.3 K-means聚类算法的改进

3.3.4 文档粗分类算法

3.4 基于原型的文档分类

3.4.1 原型的概念

3.4.2 集外文档的表示

3.4.3 文档分类算法

3.5 本章小结

4.1 引言

4.2 数据选取与预处理

4.3 指纹有效性实验

4.3.1 实验数据与设计

4.3.2 文本相似度实验结果与分析

4.3.3 K-means聚类结果与分析

4.4 文档集的粗分类

4.4.1 实验数据与设计

4.4.2 短文本主题抽取

4.4.3 权值α的选取

4.4.4 分类结果比较与分析

4.5 原型有效性实验

4.5.1 实验设计

4.5.2 评价标准

4.5.3 结果分析

4.6 本章小结

结论

参考文献

攻读硕士学位期间发表的论文

致谢

展开▼

摘要

互联网、物联网、云计算等信息技术把我们带到了多元智能的网络化大数据时代。然而,大量的资源共享和实时的交流探讨使网络空间中的数据呈爆炸式增长,其规模巨大且形式多样,不仅给网络空间数据的存储带来了压力,同时降低了数据价值的利用密度,呈现出“数据丰富而知识缺乏”的窘态。如何对数据压缩存储,如何从庞大的网络空间中寻取到满意的信息成为目前迫切需要解决的问题。本文选取学术论文作为数据对象,提出了一种文本指纹提取方法和文本粗分类算法,进而达到数据的压缩表示和有效组织管理的目的。
  首先,本文提出了基于潜在语义分析的文本指纹提取方法。该方法是针对目前指纹提取方法语义缺失问题的一种改进。该方法主要用于学术论文正文部分的语义指纹提取,通过奇异值分解对原始文档进行潜在语义分析,挖掘原始文档的潜在语义特征,然后根据随机超平面原理将保留的语义特征转换成二进制数字指纹,得到高维原始文档的低维语义指纹表示。
  其次,设计了一种基于融合表示的文本粗分类算法。该算法主要是基于学术论文梗概(题目、摘要、关键字)和正文两大部分融合表示的聚类,是K-means算法的一种改进。该算法下每篇文档都被主题向量和语义指纹所表示,聚类过程中每次迭代的簇中心均采用数据集中的真实文档,并作为原文档集的一个原型。此外,算法采用余弦距离与汉明距离融合的计算方法计算文档与各类中心的模糊隶属程度,并将文档归到具有最大隶属度的类别,完成数据集的粗分类。
  最后,为了给后续搜索访问等操作提供有利信息,本文设计了基于原型的文档分类算法。该算法根据集外文档与各原型间的相似度来判断是否对其进行归类以及归到哪一类等处理。
  实验结果表明,本文提出的基于潜在语义分析的文本指纹提取方法与常用的向量空间模型表示方法及Simhash方法相比,所提取的指纹精度更高,更能体现文本的语义信息。另外,本文基于融合表示的文档粗分类方法解决了原始K-means聚类算法的大类问题,对数据集中各领域文档的F值均达到80%以上,能够得到较好的类结构。基于原型的集外文档分类方法,在与原型同领域文档间具有较高的正确率,对其它领域文档具有较高的拒识率,可以对集外文档进行正确辨识,达到粗分类目的,有利于文档集的组织和管理。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号