一种基于随机n-Grams的文本相似度计算方法

王贤明; 胡智文; 谷琼

首页> 中文期刊>情报学报 >一种基于随机n-Grams的文本相似度计算方法

一种基于随机n-Grams的文本相似度计算方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域,然而传统的方法往往不具有语言无关性,且要花费大量的时间分析提取文档的特征项.针对目前相关方法的诸多不足,提出了一种基于随机n-Grams(Random n-Gram,记为R-Gram)的长文本相似度算法,该算法具备语言无关性,且可以充分利用短n-Gram的细粒度检测特性和长n-Gram的高效检测特性.实验结果表明:基于R-Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点,在长文本相似度计算中具有良好的应用价值.%Text similarity computing is widely used in many text applications such as plagiarism detection, automatic question answering system and text clustering. However, most traditional methods for computing text similarity are dependent on a special language and spend much time on analyzing and extracting of feature items. In view of the shortages of traditional methods, a novel algorithm based on Random n-Grams (R-Gram) with language independence for long text is proposed , which can make full use of fine-grained characteristics of short n-Grams and high efficiency characteristics of long n-Grams. The results strongly suggest that text similarity algorithm based on R-Gram have the advantages of fast speed, easy operation and flexibility. As a bonus, it is beneficial for text similarity computing for long texts.

著录项

来源
《情报学报》|2013年第7期|716-723|共8页
作者
王贤明; 胡智文; 谷琼;
展开▼
作者单位

温州大学瓯江学院,温州,325035;

温州大学瓯江学院,温州,325035;

湖北文理学院数学与计算机科学学院,襄阳,441053;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
文本相似度; 评价函数; 集合; n-Gram; R-Gram;
入库时间 2023-07-25 17:24:50

相似文献

中文文献
外文文献
专利

1. 一种基于SA_LDA模型的文本相似度计算方法 [J] . 邱先标 ,陈笑蓉 . 计算机科学 . 2018,第0z1期
2. 一种基于语义与句法结构的短文本相似度计算方法 [J] . 赵谦 ,荆琪 ,李爱萍 . 计算机工程与科学 . 2018,第007期
3. 一种基于源网页质量的锚文本相似度计算方法--LAAT [J] . 陆一鸣 ,胡健 ,马范援 . 情报学报 . 2005,第005期
4. 一种PST_LDA中文文本相似度计算方法 [J] . 张超 ,陈利 ,李琼 . 计算机应用研究 . 2016,第002期
5. 一种实体描述短文本相似度计算方法 [J] . 秦添轶 ,林蝉 ,宋博宇 . 智能计算机与应用 . 2015,第002期
6. 一种基于关联分析与N-Gram的错误参数检测方法 [C] . Chao Li ,李超 ,Hui Liu . 第十六届全国软件与应用学术会议 . 2017
7. 一种基于语义网络的中文文本相似度计算方法 [A] . 邹能清 . 2015

一种基于随机n-Grams的文本相似度计算方法

摘要

著录项

相似文献

相关主题

期刊订阅