文摘
英文文摘
插图索引
附表索引
第1章 绪论
1.1 研究目的及意义
1.2 Q-gram过滤算法研究现状
1.2.1 相似字符串匹配简介
1.2.2 Q-gram索引
1.2.3 过滤算法研究现状
1.3 本文主要工作与结构
第2章 中文索引与精确字符串匹配
2.1 索引结构简介
2.1.1 常用序列索引
2.1.2 Q-gram索引
2.1.3 中文处理与q-gram索引
2.2 中文Bigram二级哈希索引结构
2.2.1 GB2312编码
2.2.2 中文Bigram二级哈希索引
2.2.3 中文字符串精确匹配
2.3 中文Bigram二级哈希索引实验分析
2.3.1 实验语料库简介
2.3.2 实验结果
2.4 小结
第3章 索引优化
3.1 索引压缩
3.1.1 整数序列编码d-gaps
3.1.2 参数编码和无参数编码
3.1.3 位编码和字节编码
3.1.4 索引压缩处理过程
3.2 索引建立
3.2.1 索引建立与压缩
3.2.2 索引建立与内存管理
3.3 索引更新方案
3.4 索引压缩实验分析
3.4.1 各序列整数值与出现次数统计实验
3.4.2 各压缩编码性能对比实验
3.4.3 索引压缩效果
3.5 小结
第4章 相似字符串匹配过滤算法及改进
4.1 相似字符串过滤算法
4.1.1 过滤算法简介
4.1.2 过滤准则
4.1.3 相似字符串过滤算法匹配过程
4.2 匹配区域特征提取
4.3 基于匹配区域特征的改进过滤算法AdBlock
4.3.1 文本预处理、输入查询和查询预处理
4.3.2 过滤区确定
4.3.3 过滤、验证和输出
4.4 AdBlock算法伪代码
4.5 AdBlock算法退化
4.6 实验结果及分析
4.6.1 实验环境
4.6.2 算法性能分析
4.7 结论
结论
参考文献
附录A 攻读硕士学位期间发表的论文目录
附录B 攻读硕士学位期间参加的项目
致谢