声明
摘要
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 基于词频统计的文档复制检测方法
1.2.2 基于字符串比对的文档复制检测方法
1.2.3 基于相似度估计的文档复制检测方法
1.3 论文研究的主要内容
1.4 论文的组织结构
第二章 文档相似性度量技术
2.1 引言
2.2 度量空间和规范化距离
2.3 距离函数
2.4 文档相似度估计算法
2.4.1 minwise哈希算法
2.4.2 b位minwise哈希算法
2.5 本章小结
第三章 分数位minwise哈希算法
3.1 引言
3.2 分数位的构建
3.3 最优分数位
3.4 分数位方差和存储因子分析
3.4.1 分数位方差
3.4.2 分数位存储因子
3.5 小于1的分数位的构建
3.6 扩展分数位
3.7 实验结果分析
3.7.1 实际方差
3.7.2 分数位的准确率和召回率
3.8 本章小结
第四章 连接位minwise哈希算法
4.1 引言
4.2 连接位的构建
4.2.1 b=1时连接位的无偏估计
4.2.2 b=2时连接位的无偏估计
4.2.3 b连接位的无偏估计
4.3 连接位方差和存储因子分析
4.3.1 连接位方差
4.3.2 连接位存储因子
4.4 实验结果分析
4.4.1 连接位的准确率和召回率
4.4.2 连接位的时间性能
4.4.3 连接位的可用性
4.5 本章小结
第五章 指纹分组合并检索算法
5.1 引言
5.2 海明码指纹的提取
5.3 海明距离检索问题
5.4 相似度检索算法
5.4.1 指纹分组检索算法
5.4.2 指纹分组合并检索算法
5.4.3 时间复杂度分析
5.5 实验结果分析
5.5.1 参数ng的分布的测量
5.5.2 检索算法的准确率和召回率
5.5.3 时间耗费
5.6 应用实例—文档段落相似度
5.6.1 段落相似性索引建立
5.6.2 段落相似度查询
5.7 本章小结
第六章 基于SIMD优化的相似性比对技术
6.1 引言
6.2 基于SIMD优化的并行算法
6.2.1 基于SSE4.2优化的指纹比对算法
6.2.2 基于SSE优化的求交集比对算法
6.2.3 基于GPU优化的求交集比对算法
6.3 实验结果分析
6.3.1 基于SSE优化的实验结果
6.3.2 基于GPU优化的实验结果
6.3.3 结合SSE和GPU同时优化的实验结果
6.4 本章小结
第七章 海量项目文档复制检测系统实例
7.1 引言
7.2 系统框架
7.2.1 系统的层次结构
7.2.2 系统的数据流程
7.2.3 系统的功能结构
7.2.4 系统的软硬件结构
7.3 系统的关键技术难点及解决方案
7.3.1 项目信息抽取
7.3.2 文档聚类
7.3.3 项目相似度估计
7.4 软件实现和应用
7.4.1 项目相似性检索
7.4.2 项目相似性比对
7.5 系统性能
7.6 本章小结
第八章 结论与展望
8.1 结论
8.2 下一步的研究工作
参考文献
致谢
攻读学位期间主要的研究成果