首页> 中文学位 >基于指纹特征的文本复制检测技术研究
【6h】

基于指纹特征的文本复制检测技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1课题研究背景及意义

1.2课题研究现状

1.3本文研究内容与组织结构

第2章 文本复制检测的相关技术综述

2.1文本复制检测技术

2.2基于指纹特征的文本复制检测技术

2.3文本复制检测技术的评价标准

2.4本章小结

第3章 指纹特征提取算法

3.1基于混合窗口的指纹特征提取算法

3.2基于最优决策的指纹特征提取算法

3.3本章小结

第4章 基于改进编辑距离的相似度算法

4.1编辑距离算法的优化

4.2相似度的概念及公式概述

4.3适用于优化算法的相似度计算公式

4.4算法描述

4.5本章小结

第5章 实验结果与分析

5.1实验环境

5.2评测语料介绍

5.3基于混合窗口的指纹特征提取算法实验

5.4基于最优决策的指纹特征提取算法实验

5.5改进编辑距离算法实验

5.6本章小结

第6章 总结与展望

6.1工作总结

6.2工作展望

致谢

参考文献

附录

展开▼

摘要

基于指纹特征的文本复制检测技术虽然可以快速识别抄袭现象,但是存在指纹特征过大,指纹特征选取复杂,相似度计算效率低等问题。
  为了解决上述指纹特征提取中存在的问题,本文提出了两种算法:基于混合窗口的指纹特征提取算法和基于最优决策的指纹特征提取算法。基于混合窗口的指纹特征提取算法,借鉴了模糊哈希算法中根据触发条件提取指纹特征的思想,将固定窗口与滑动窗口相结合,为指纹特征提取来选取触发条件。基于最优决策的指纹特征提取算法在Winnowing算法的基础上,引入最优决策理论,构建了指纹特征提取的最优决策模型。
  针对相似度计算效率低的问题,我们在编辑距离算法的基础上,提出一种基于改进编辑距离的相似度算法。该算法在计算编辑距离时,通过预测待比对指纹特征含有的公共序列,对编辑距离计算方法进行优化,并结合公共序列,重新定义了相似度计算公式。
  实验结果表明,本文提出的两种指纹特征提取算法能够有效地减少指纹特征数量,提高指纹特征提取的效率。改进的编辑距离算法增强了公式适用性并提高了计算速度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号