基于单字特征和搜索引擎的新词识别

苏宁; 惠子敬; 刘娟

首页> 中文期刊> 《武汉大学学报：理学版》 >基于单字特征和搜索引擎的新词识别

基于单字特征和搜索引擎的新词识别

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

新词识别是影响搜索准确率以及速率的重要因素.本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法.采用条件概率的方法提取单字词搭配特征和临界词特征,并采用层次结构实现新词定位以及识别.首先采用双向最大匹配相结合的方法对文本进行词法粗切分,然后根据单字词搭配得到候选新词的位置,用临界词方法确定候选新词的边界,采用改进Nagao串频统计方法对新词候选词在本文内进行重复串统计,对于只在文中出现一次的新词则借助搜索引擎进行确定.对新浪网近期的网络文章进行测试,结果表明,基于本文方法设计的系统可以识别不同领域的新词,在低频词、较长的词以及新词语搭配方面取得了良好的效果.单字词搭配检查发现新词位置综合指标F值达到96.8%.

著录项

来源
《武汉大学学报：理学版》 |2010年第6期|704-710|共7页
作者
苏宁; 惠子敬; 刘娟;
展开▼
作者单位

武汉大学计算机学院;

湖北武汉430072;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
新词识别; 单字词; 临界词; 搭配抽取; 搜索引擎;

相似文献

中文文献
外文文献
专利

1. 基于单字音特征提取的说话人识别方法 [J] . 张燕 ,唐振民 ,李燕萍 . 计算机工程 . 2009,第10期
2. 基于单字提示特征的中文命名实体识别快速算法 [J] . 冯元勇 ,孙乐 ,李文波 . 中文信息学报 . 2008,第1期
3. 基于小波特征的单字符汉字字体识别 [J] . 陈力 ,丁晓青 . 电子学报 . 2004,第2期
4. 基于互信息特征提取的食品安全信息新词识别 [J] . 马强 ,路阳 ,李菲 . 黑龙江八一农垦大学学报 . 2021,第2期
5. 基于新词扩充和特征选择的微博观点句识别方法 [J] . 赵洁 ,温润 . 情报学报 . 2013,第9期
6. 基于单字提示特征的中文命名实体识别快速算法 [C] . 冯元勇 ,中国科学院研究生院 ,孙乐 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 基于SVM和词特征的新词识别研究 [A] . 徐远方 . 2012

基于单字特征和搜索引擎的新词识别

摘要

著录项

相似文献

相关主题

期刊订阅