基于minwise哈希的文档复制检测的研究及应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

WEB正经历着爆炸性增长，海量文档中存在大量的相似信息，这些相似性文档一方面消耗了高额的检索资源，另一方面影响了用户的使用。文档的数字化和易获性也使得非法复制、剽窃等行为越来越猖獗。为保护知识产权和提高信息检索效率，文档复制检测技术应运而生并得到迅速发展。
　　文档复制检测就是判断给定文档是否抄袭、剽窃或者相似于一篇或多篇文档的内容。论文以某基金项目相似性检测为实际应用背景，为了在海量数据环境中快速而准确地检测出文档的相似性，主要研究相似性检测系统中涉及的关键技术，重点研究相似度估计算法、相似度检索算法和基于SIMD优化的相似度比对等关键技术，具体进行了如下的研究工作:
　　(1)针对文档相似性检测系统中精度和存储空间只能取离散值、粒度过粗的问题，提出了分数位minwise哈希算法，验证了分数位minwise哈希算法的可行性，构造了使得估计方差最小的最优分数位。分数位minwise哈希算法将整数位minwise哈希扩展到分数位，突破了b整数位的限制，使得相似度可以使用分数位来估计，不仅完善了minwise哈希算法的理论体系，也为实际系统中的用户对于相似度估计的精度和存储空间更加细粒度可选择性需求提供支撑。
　　(2)针对文档相似性检测效率不高的问题，提出了连接位minwise哈希算法。连接位minwise哈希算法将位连接起来进行相似性度量，证明与推导及实验结果显示算法虽然牺牲5％精度，却能成倍地减少比对的次数，大大提升算法的时间性能。一方面，连接位无需任何复杂的操作，方便构建;另一方面，亿万级文档的相似度的估计，通过损失一定的精度误差，获得了性能的成倍提升具有很强的实际应用意义。
　　(3)针对海量文档相似性检索中相似度阈值不能设置过低，初始指纹数少等问题，提出了指纹分组合并检索算法，理论推导及实验结果表明算法能够在低相似度阈值（比如70％）下快速地从已有的文档集中检索目标文档，从而实现相似性文档查询的实时性，并且由于降低了相似度阈值，也增大了相似性检索的应用范围。
　　(4)针对某基金对相似性证据快速采集和清晰呈现的特殊需求，提出了基于SIMD优化的相似性比对算法。通过使用SIMD指令集和OpenCL框架对相似度比对算法进行了一系列的优化，实验结果表明优化算法提升了可提升11.6％-170％的时间性能，一方面使得相似性有迹可循;另一方面也有利于人工复审工作。
　　(5)针对某基金项目相似性检测系统中存在的项目数据难以准确快速提取、海量项目数据比对时间超长、比对结果难以清晰呈现等关键问题，论文论述了如何采用所研究的关键技术形成完整的基金项目相似性检测系统，并为基金项目形式审查提供支持。

著录项

作者
袁鑫攀;
展开▼
作者单位

中南大学;

展开▼
授予单位中南大学;
学科计算机应用技术
授予学位博士
导师姓名桂卫华,张祖平,龙军;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;数据安全;
关键词
文档复制检测; minwise哈希; 相似度估计; 分数位; 连接位; 信息检索;

相似文献

中文文献
外文文献
专利

1. 基于SIFT和感知哈希的图像复制粘贴篡改检测方法 [J] . 马伟鹏 ,林敏锐 ,吴泽宇 . 现代计算机（专业版） . 2019,第015期
2. 基于指纹和语义特征的文档复制检测方法 [J] . 李旭 ,赵亚伟 ,刘国华 . 燕山大学学报 . 2008,第004期
3. 基于句子相似度的文档复制检测算法研究 [J] . 秦新国 . 现代图书情报技术 . 2007,第011期
4. 基于文档指纹的中文复制检测方法 [J] . 麻会东 ,刘国华 ,李现伟 . 广西师范大学学报（自然科学版） . 2007,第004期
5. 基于提取关键词的中文文档复制检测研究 [J] . 麻会东 ,刘国华 ,李旭 . 计算机工程与科学 . 2007,第010期
6. 基于shellcode检测的恶意文档检测 [C] . Bai Peng ,白鹏 ,Hu Ying . 第十九届全国青年通信学术年会 . 2014
7. 基于相似度估计文档复制检测系统的设计与实现 [A] . 潘鑫 . 2014

基于minwise哈希的文档复制检测的研究及应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅