首页> 中文学位 >基于相似度估计文档复制检测系统的设计与实现
【6h】

基于相似度估计文档复制检测系统的设计与实现

代理获取

目录

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景及意义

1.2 国内外的研究现状

1.3 本文研究内容

1.4 论文组织结构

第二章 文档相似性度量技术概述

2.1 文档相似性度量基本概念

2.2 文档相似性度量技术分析

2.3 本章小结

第三章 基于相似度估计的文档复制检测系统的需求分析

3.1 业务流程

3.2 功能需求

3.3 安全要求

3.4 性能要求

3.5 本章小结

第四章 基于相似度估计的文档复制检测系统的设计

4.1 系统总体设计

4.2 各子系统模块设计

4.3 数据库设计

4.3 本章小结

第五章 基于相似性估计的文档复制检测系统的实现

5.1 系统实现环境

5.2项目信息提取的实现

5.3 项目信息预处理子系统的实现

5.4 核心相似度计算端子系统的实现

5.5 项目相似度查询导出子系统的实现

5.6 系统测试

5.7 系统的性能测试

5.8 本章小结

第六章 结论

6.1 工作总结

6.2 进一步的研究

致谢

参考文献

展开▼

摘要

随着计算机网络应用技术的发展,互联网中相似信息的数量呈几何级增长,越来越多的高相似度文档一方面消耗了高额的网络储存空间,另一方面也对用户体验造成了不良影响。信息平台的开放性与数字化文本的易获性造成了论文的抄袭甚至是非法剽窃等学术不端行为有越演越烈之势,造成的严重后果不言而喻。为提高信息检索效率和保护知识产权,利用相似度估计技术来设计和实现文档复制检测系统具有重要技术意义和应用价值。
  为了在海量数据环境中快速地、准确地检测出相似性文档,论文围绕文档相似度估计的相关理论与方法进行了深入的研究,设计并实现了基于相似度估计的文档复制检测系统。论文的主要工作体现如下:
  论文基于 minwise相似性估计子,使用设计并实现了一套文档相似性检测系统,涵盖了文档信息预处理、相似性计算、相似性结果呈现及导出三个子功能系统,重点解决了项目文档聚类、相似度估值算法、相似性证据着色、相似性报告单生成和数据统计分析等问题。
  以软件工程中的瀑布模型为设计主线,论文详细介绍了基于相似度估计的文档相似性检测系统的业务需求、系统架构设计、功能设计和主要业务流程设计,并对主要功能,给出了系统的实现环境、界面设计以及关键功能模块的实现过程。
  经过本课题的研发测试,最终得到的系统拥有更为人性化的操作,各类格式的文本(pdf、word)的提取率和相似性比对的计算效率显著提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号