基于大规模语料库的新词检测

崔世起; 刘群; 孟遥; 于浩; 西野文人

首页> 中文期刊>计算机研究与发展 >基于大规模语料库的新词检测

基于大规模语料库的新词检测

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.

著录项

来源
《计算机研究与发展》|2006年第5期|927-932|共6页
作者
崔世起; 刘群; 孟遥; 于浩; 西野文人;
展开▼
作者单位

中国科学院计算技术研究所数字化技术研究室,北京,100080;

中国科学院研究生院,北京,100049;

中国科学院计算技术研究所数字化技术研究室,北京,100080;

富士通研究开发中心有限公司,北京,100016;

富士通研究开发中心有限公司,北京,100016;

富士通研究开发中心有限公司,北京,100016;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
新词; 垃圾串; 垃圾头; 垃圾尾; 独立词概率;
入库时间 2022-08-18 04:58:59

相似文献

中文文献
外文文献
专利

1. 英语网络新闻中热点新词的特点分析——基于NOW语料库的实证研究 [J] . 王静怡 ,佟玉平 . 声屏世界 . 2020,第023期
2. 以Selfie一词为例探究网络英语新词的确立——基于NOW语料库 [J] . 黄越悦 . 兰州教育学院学报 . 2017,第004期
3. 基于双语新闻平行语料库的汉语新词语俄译规律研究 [J] . 朴哲浩 ,林立娟 ,严文颖 . 燕山大学学报（哲学社会科学版） . 2016,第001期
4. 《红楼梦》修辞词汇化衍生新词特点研究——基于语料库研究视角 [J] . 廖钟源 . 钦州学院学报 . 2015,第004期
5. 基于动态语料库的新词语监测 [J] . 李楠 . 海外英语(上) . 2015,第007期
6. 基于大规模语料库的新闻领域新词挖掘 [C] . 程涛 ,施水才 ,张玉杰 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 基于大规模语料库的中文新词识别 [A] . 吕红良 . 2008

基于大规模语料库的新词检测

摘要

著录项

相似文献

相关主题

期刊订阅