首页> 中文会议>第三届学术计算语言学研讨会 >基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法

基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法

页面导航

摘要
著录项
相似文献
相关主题

摘要

词频估计在NLP的各个领域中都有着重要的应用,中文的特点使得中文词频估计对我们来说依然是一个严峻的挑战.其中一个主要因素就是缺少一个供我们作词频估计的"完美的"语料库.我们现有的语料库有:规模可以任意大的生语料库;由生语料库通过自动分词得到的已切分语料库;一些规模较小,由不同机构根据不同的分词标准开发的熟语料库.基于以上所有因素及已有的语料库,本文提出了一种基于折中的思想,综合利用已有信息来进行中文词频估计的方法.实验表明这一策略在多数情况下能够显著提高词频估计的准确度,但在某些情况下,这一方法的性能仍不够满意.

著录项

来源
《第三届学术计算语言学研讨会》|2006年|261-268|共8页
会议地点沈阳
作者
乔维; 孙茂松;
展开▼
作者单位

中国中文信息学会;

沈阳航空工业学院;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类数理语言学;文字信息处理;
关键词
生语料; MM语料; 熟语料; 词频估计; 语料库;
入库时间 2022-08-17 10:35:51

相似文献

中文文献
外文文献
专利

1. 一种基于齐普夫定律的确定语料中高低词频分界点的新方法——以科学计量研究为例 [J] . 叶飞 ,宋志强 . 情报学报 . 2013,第011期
2. 基于词典与语料结合的中文微博主观句抽取方法 [J] . 朱海欢 ,余青松 . 华东师范大学学报（自然科学版） . 2014,第004期
3. 异种语料融合方法:基于统计的中文词法分析应用 [J] . 孟凡东 ,徐金安 ,姜文斌 . 中文信息学报 . 2012,第002期
4. 基于双语平行语料的中文缩略语提取方法 [J] . 刘友强 ,李斌 ,奚宁 . 中文信息学报 . 2012,第002期
5. 基于论坛语料识别中文未登录词的方法 [J] . 都菁 ,熊海灵 . 计算机工程与设计 . 2010,第003期
6. 基于语料的哈萨克语词频统计的研究 [C] . 王花 ,古丽拉·阿东别克 . 第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会 . 2010
7. 中文语料库切分不一致字串分类校验方法研究 [A] . 苗玺 . 2006

基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法

摘要

著录项

相似文献

相关主题

期刊订阅