声明
致谢
摘要
1引言
1.1研究背景与意义
1.2研究现状
1.3研究内容
1.4论文的组织结构
2 相似查找及其相关技术
2.1 相似查找及相似词典查询问题
2.2相似性计算与距离度量
2.2.1相似性计算方法
2.2.2距离度量
2.3基于Simhash的近似文本检测
2.3.1 Simhash介绍
2.3.2基于Simhash的近似文本检测流程
2.3.3本文Simhash方法使用
2.4本章小结
3 基于海明空间的多索引Search算法
3.1 静态海明距离的相似查找问题描述
3.2静态海明足巨离的相似查找算法研究
3.3基于海明空间的多索引算法
3.3.1 多索引算法主要研究内容
3.3.2 Manku的多索引Search算法
3.4基于海明空间的多索引Search算法
3.4.1算法基本思想
3.4.2索引结构设计
3.4.3参数k与b对候选集数目的影响
3.5本章小结
4基于中心点的Check算法
4.1基于中心点的Check算法基本思想和索引结构
4.1.1基于中心点的Check算法基本思想
4.1.2索引结构设计
4.2基于中心点的一般Check算法
4.3基于中心点的贪心Check算法
4.3.1 贪心策略
4.3.2参数及临界条件分析
4.4本章小结
5实验与分析
5.1评价标准
5.2实验条件
5.2.1实验数据集
5.2.2实验环境和工具
5.3实验预处理和实验过程
5.3.1实验的预处理
5.3.2实验过程
5.4 多索引Search算法实验与分析
5.4.1 平均候选集数目对比实验与分析
5.4.2平均查询时间对比实验与分析
5.5基于中心点的Check算法实验与分析
5.5.1 平均查询时间对比实验与分析
5.5.2平均检查的候选集数目对比实验与分析
5.6本章小结
6总结与展望
6.1 工作总结
6.2未来展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
北京交通大学;