基于编辑距离的近似字符串匹配及其优化技术

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机技术在各个领域的广泛应用，信息量也在呈指数增长。在如此多的数据之中，由于各种各样的原因，难免会存在一些错误。在众多的数据类型中，文本数据是最常见也是最古老的类型之一。在文本数据上进行允许一定错误的匹配，即近似字符串匹配已经应用于很多领域，例如数据清洗、实体识别、拼写检查、集合连接和Web搜索等。然而，近似字符串匹配在为用户提供更强大、更全面的功能的同时也使得匹配处理过程及索引建立更加复杂。如何高效地进行近似字符串匹配至关重要。
　　目前，已经有大量工作致力于解决近似字符串匹配问题。其中大部分工作都是围绕着基于编辑距离的近似字符串匹配进行的。基于编辑距离的近似字符串匹配算法大多基于签名，并采用索引结构来支持近似字符串匹配。在匹配的时候采用两阶段的方式，即过滤阶段和验证阶段。过滤阶段首先从索引结构中获取可能与查询字符串近似匹配的字符串的集合，然后通过各种过滤算法过滤掉一些不可能是结果的字符串从而生成候选集合。候选集合中包含了所有近似匹配的字符串和一些并不近似匹配的字符串，所以需要在验证阶段对候选集合中的字符串逐一进行验证以确定其是否真正近似匹配。
　　本文在现有工作的基础之上将变长gram算法的思想和非对称的定长chunk-gram算法的思想相结合提出了非对称的变长chunk-gram算法，并对该算法的公共签名数量的下限进行了分析。在变长chunk-gram算法的基础之上，本文又提出了最优的变长chunk算法，该算法对查询字符串划分最优的τ+1个变长chunk，同时基于BWT提出了BWTPA索引来支持最优τ+1个变长chunk划分，使之满足基于签名框架的最小签名数量τ+1。本文还研究了如何将基于签名的近似字符串匹配技术应用于商用数据库管理系统(DBMS)的顶层来支持近似字符串匹配。这样在利用商用数据库提供的一些功能的同时不需要对商用数据库的底层进行修改。最后，在真实数据集上进行了大量的实验。通过实验结果本身及对实验结果的分析证明了本文提出的算法都能够高效地回答近似字符串匹配问题。

著录项

作者
王业;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机技术
授予学位硕士
导师姓名杨晓春;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本数据; 近似字符串; 匹配技术; 编辑距离;

相似文献

中文文献
外文文献
专利

1. 基于BPM-BM过滤优化的近似字符串匹配算法 [J] . 石永革 ,张毫 . 青岛科技大学学报（自然科学版） . 2016,第001期
2. 基于近似技术的协同优化方法在机翼设计优化中的应用 [J] . 白小涛 ,李为吉 . 航空学报 . 2006,第005期
3. 基于径向基组合近似模型技术的立柱结构优化设计 [J] . 魏锋涛 ,史云鹏 ,张洋洋 . 制造技术与机床 . 2022,第1期
4. 基于近似模型技术的高强钢盾构刀盘优化设计 [J] . 闫利鹏 ,黄鸿颖 ,杨骁 . 铁道科学与工程学报 . 2021,第008期
5. 基于近似计算技术的FPRM逻辑功耗优化 [J] . 王一琛 ,王伦耀 ,夏银水 . 宁波大学学报（理工版） . 2020,第001期
6. 中文信息中近似字符串匹配的研究与实现 [C] . 张小山 ,赵国鸿 ,王勇军 . 2005中国计算机大会 . 2005
7. 支持编辑距离的高效近似字符串匹配方法 [A] . 王佳英 . 2016

基于编辑距离的近似字符串匹配及其优化技术

目录

摘要

著录项

相似文献

相关主题

期刊订阅