基于汉字编码特征的中文多模式匹配算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来网络的高速发展，信息呈爆炸式增长，模式匹配是内容过滤和信息检索的核心技术，成为计算机应用和信息安全领域中的重要研究方向。对大规模中文模式匹配，已有模式匹配算法的时间和空间性能都难以满足需求。因此，提高中文模式匹配算法的时间效率，对于提高计算机应用系统的性能有重要意义。　　本文介绍了几种经典模式匹配算法，包括BF算法、BM算法以及Sunday算法等，深入研究了AC、AC_BM以及WM等多模式匹配算法，详细描述了各算法的匹配过程，分析了它们的优缺点以及时间性能。　　AC及其改进算法基于有限状态自动机，对于大规模中文模式串匹配，由于汉字的散度较高，导致有限状态自动机中的零状态过长，在查找零状态字符时耗时较多，算法的效率急剧下降。针对此问题，本文提出了一种基于汉字编码特征混合存储结构，并提出了相应的中文多模式匹配算法，该算法有如下特点:　　(1)考虑到汉字编码的首字节范围比尾字节范围小，因此，先查找首字节，再查找尾字节，由于首字节查找失败后直接跳转，一定程度上避免了查找尾字节，降低了查找时间。　　(2)对状态字符设置匹配标记，当字符的匹配标记为0时，不再匹配模式串后继字符，有效避免重复匹配以及部分匹配，节省了匹配时间。　　(3)将跳转距离存储在状态链表和匹配桶中，在确定下一跳转距离时同时查找跳转距离，避免了重复查找跳转距离，提高了算法的匹配效率。　　最后，对有限状态自动机的不同存储方式和不同跳跃式匹配算法的时间性能进行测试。实验结果表明，本文混合存储结构的时间性能好于状态矩阵和邻接邻接链表存储方式。本文算法的时间性能优于AC_Tuned BM算法、AC_WM算法及IACBM算法，适用于大规模中文模式匹配。

著录项

作者
黄宇;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科计算机软件与理论
授予学位硕士
导师姓名侯整风;
年度 2015
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
中文文本,多模式匹配算法,汉字编码特征,有限状态自动机;

相似文献

中文文献
外文文献
专利

1. 一种基于汉字编码特征的中文多模式匹配算法 [J] . 黄宇 ,侯整风 ,余虎 . 合肥工业大学学报：自然科学版 . 2016,第8期
2. 基于《知网》的中文Deep Web模式匹配算法研究 [J] . 金玉 ,范学峰 . 计算机应用研究 . 2009,第010期
3. 基于特征串的大规模中文网页快速去重算法研究 [J] . 吴平博 ,陈群秀 ,马亮 . 中文信息学报 . 2003,第002期
4. 基于数据模型演化过程中模式匹配算法研究 [J] . 文必龙 ,修海波 ,汪志群 . 计算机与数字工程 . 2014,第004期
5. 基于模式匹配的NAC_BM算法研究 [J] . 秦晓明 ,杨春耕 . 数字技术与应用 . 2013,第006期
6. 基于模式匹配的中文命名实体识别 [C] . 张冬梅 ,晋耀红 . 2011年全国知识组织与知识链接学术交流会 . 2011
7. 基于有限状态自动机的中文多模式匹配算法研究 [A] . 杨波 . 2013

基于汉字编码特征的中文多模式匹配算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅