基于主题和语义指纹融合的学术论文粗分类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网、物联网、云计算等信息技术把我们带到了多元智能的网络化大数据时代。然而，大量的资源共享和实时的交流探讨使网络空间中的数据呈爆炸式增长，其规模巨大且形式多样，不仅给网络空间数据的存储带来了压力，同时降低了数据价值的利用密度，呈现出“数据丰富而知识缺乏”的窘态。如何对数据压缩存储，如何从庞大的网络空间中寻取到满意的信息成为目前迫切需要解决的问题。本文选取学术论文作为数据对象，提出了一种文本指纹提取方法和文本粗分类算法，进而达到数据的压缩表示和有效组织管理的目的。
　　首先，本文提出了基于潜在语义分析的文本指纹提取方法。该方法是针对目前指纹提取方法语义缺失问题的一种改进。该方法主要用于学术论文正文部分的语义指纹提取，通过奇异值分解对原始文档进行潜在语义分析，挖掘原始文档的潜在语义特征，然后根据随机超平面原理将保留的语义特征转换成二进制数字指纹，得到高维原始文档的低维语义指纹表示。
　　其次，设计了一种基于融合表示的文本粗分类算法。该算法主要是基于学术论文梗概（题目、摘要、关键字）和正文两大部分融合表示的聚类，是K-means算法的一种改进。该算法下每篇文档都被主题向量和语义指纹所表示，聚类过程中每次迭代的簇中心均采用数据集中的真实文档，并作为原文档集的一个原型。此外，算法采用余弦距离与汉明距离融合的计算方法计算文档与各类中心的模糊隶属程度，并将文档归到具有最大隶属度的类别，完成数据集的粗分类。
　　最后，为了给后续搜索访问等操作提供有利信息，本文设计了基于原型的文档分类算法。该算法根据集外文档与各原型间的相似度来判断是否对其进行归类以及归到哪一类等处理。
　　实验结果表明，本文提出的基于潜在语义分析的文本指纹提取方法与常用的向量空间模型表示方法及Simhash方法相比，所提取的指纹精度更高，更能体现文本的语义信息。另外，本文基于融合表示的文档粗分类方法解决了原始K-means聚类算法的大类问题，对数据集中各领域文档的F值均达到80％以上，能够得到较好的类结构。基于原型的集外文档分类方法，在与原型同领域文档间具有较高的正确率，对其它领域文档具有较高的拒识率，可以对集外文档进行正确辨识，达到粗分类目的，有利于文档集的组织和管理。

著录项

作者
崔彤彤;
展开▼
作者单位

延边大学;

展开▼
授予单位延边大学;
学科计算机应用技术
授予学位硕士
导师姓名崔荣一;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
学术论文; 文档粗分类; 融合表示; 语义特征; K-means聚类;

相似文献

中文文献
外文文献
专利

1. 融合潜在主题信息和卷积语义特征的文本主题分类 [J] . 陈培新 ,郭武 . 信号处理 . 2017,第008期
2. 融合词语统计特征和语义信息的文本分类方法研究 [J] . 张丽 ,马静 . 计算机工程与科学 . 2021,第007期
3. 基于《中国分类主题词表》电子版的学术论文关键词标引 [J] . 蔡益群 . 科技情报开发与经济 . 2018,第006期
4. 基于《中国分类主题词表》电子版的学术论文关键词标引 [J] . 蔡益群 . 图书情报导刊 . 2018,第006期
5. 融合主题信息的卷积神经网络文本分类方法研究 [J] . 杨锐 ,陈伟 ,何涛 . 现代情报 . 2020,第004期
6. 基于百度百科与文本分类的网络文本语义主题抽取方法 [C] . Chen Yewang ,陈叶旺 ,Chen Chaoyang . 2012年第三届中国计算机学会服务计算学术会议 . 2012
7. 基于层级语义图嵌入的食物图像语义融合分类算法研究 [A] . 左俊杰 . 2019

基于主题和语义指纹融合的学术论文粗分类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅