一种在汉语文本中抽取重复字串的快速算法

马颖华; 王永成; 苏贵洋

首页> 中文期刊> 《电子学报》 >一种在汉语文本中抽取重复字串的快速算法

一种在汉语文本中抽取重复字串的快速算法

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

词典未登录词的处理是自然语言处理不可或缺的研究方向.抽取文本中重复出现的字串是抽取未登录词最为直接简便的方法.以往算法运行速度较慢,无法满足海量文本快速处理的要求.遵循"左结合优先"和"最长匹配"原则,本文提出一种快速算法:位置记忆跳跃匹配.该方法最差情况下时间复杂度为o(t2),其中t为重复字串的重复次数.比较实验表明,本方法速度提高明显,数据结构简单,处理过程一次扫描完成.

著录项

来源
《电子学报》 |2002年第z1期|2177-2180|共4页
作者
马颖华; 王永成; 苏贵洋;
展开▼
作者单位

上海交通大学;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
重复字串抽取; 自动抽词; 汉语文本处理;

相似文献

中文文献
外文文献
专利

1. 一种基于模板的快速网页文本自动抽取算法 [J] . 陈治昂 ,周知予 ,李大学 . 计算机应用研究 . 2009,第007期
2. 一种快速的字串交叉模式匹配算法 [J] . 鲍峥嵘 ,王永成 ,刘功申 . 上海交通大学学报 . 2003,第3期
3. 一种面向中文的快速字串多模式匹配算法 [J] . 沈洲 ,王永成 ,许一震 . 上海交通大学学报 . 2001,第9期
4. 一种信息抽取系统中汉语同指消解算法 [J] . 孔祥勇 ,张冬茉 . 计算机工程 . 2003,第016期
5. 一种基于字同现频率的汉语文本主题抽取方法 [J] . 马颖华 ,王永成 ,苏贵洋 . 计算机研究与发展 . 2003,第006期
6. 一种快速的多模式串匹配算法及其在实时汉语文本分类系统中的应用 [C] . 张鑫 ,程学旗 ,谭建龙 . 全国第七届计算语言学联合学术会议 . 2003
7. 企业外宣文本中汉语多重复句英译评述报告——以哈尔滨电机厂网页翻译为例 [A] . 陈明 . 2013

一种在汉语文本中抽取重复字串的快速算法

摘要

著录项

相似文献

相关主题

期刊订阅