无词典高频字串快速提取和统计算法研究

韩客松; 王永成; 陈桂林

首页> 中文期刊>中文信息学报 >无词典高频字串快速提取和统计算法研究

无词典高频字串快速提取和统计算法研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

In this paper we describe a fast high-frequency strings extracting algorithm. Our approach uses HASH technology to avoid relying on corpus and word segmentation. To extract the high frequency strings, we only use statistics information. After processing the prefixes and suffixes, the high frequency strings we get can be the supplement knowledge for the un- login words processing, word disambiguation and word weighting. The experimental results show that it has a high speed and can work on arbitrary texts. Our method has good effect when processing novels and other real texts.%本文提出了一种快速的高频字串提取和统计方法。使用Hash技术，该方法不需要词典，也不需要语料库的训练，不进行分词操作，依靠统计信息，提取高频字串。用语言学知识进行前缀后缀等处理后，得到的高频字串可以作为未登录词处理、歧义消解和加权处理等的辅助信息。实验显示了该方法速度较快且不受文章本身的限制，在处理小说等真实文本时体现了较高的可用性。

著录项

来源
《中文信息学报》|2001年第2期|23-30|共8页
作者
韩客松; 王永成; 陈桂林;
展开▼
作者单位

上海交通大学电子信息学院上海 200030;

上海交通大学电子信息学院上海 200030;

上海交通大学电子信息学院上海 200030;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
Hash技术; 高频字串; 统计; 算法;

相似文献

中文文献
外文文献
专利

1. 基于字串切分统计词典的繁体中文拼写检错方法 [J] . 王勇 ,顾磊 . 计算机应用研究 . 2016,第005期
2. 基于CNET模型的无词典汉语自动分词算法研究 [J] . 刘龙飞 ,陈斌 ,党荣 . 计算机应用与软件 . 2007,第010期
3. 无词典中英文混合术语抽取及算法研究 [J] . 姜韶华 ,党延忠 . 情报学报 . 2006,第003期
4. 词典与统计相结合的中文分词算法研究 [J] . 李宏波 . 武汉理工大学学报（信息与管理工程版） . 2010,第006期
5. 基于统计的无词典分词方法 [J] . 傅赛香 ,袁鼎荣 ,黄柏雄 . 广西科学院学报 . 2002,第004期
6. VXI总线字串行通信协议及其实现机构—字串行通信接口 [C] . 文华均 . 第九届VXI技术研讨会 . 2000
7. 关于名词释义中高频限定成分的研究——基于《现代汉语词典》(第6版)的统计分析 [A] . 何晓晓 . 2014

无词典高频字串快速提取和统计算法研究

摘要

著录项

相似文献

相关主题

期刊订阅