基于统一分词框架的中文新词识别方法

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

本文研究了在基于统计语言模型的汉语统一分词框架下的新词识别问题。主要有以下两部分工作：(1)总结已有的新词识别特征及新词识别方法，引入一个语素产率特征，把新词识别问题看作二分问题，采用SVM算法，比较了各个特征对于新词识别相对贡献大小，尝试不同的特征组合来识别新词。(2)讨论了目前新词识别研究中存在的分词性能和效率较低的问题，针对缺乏含新词信息的语料这一难题，提出模拟新词的办法，着重研究了新词分布的情况，寻找适合模拟新词的模型，构筑了基于统一分词框架的在线新词识别系统，并给出新的分词系统在五种不同标准的测试集上的评测结果。测试结果表明语素产率特征的引入提高了新词识别的查全率和查准率，新的分词系统可以同时实现汉语自动分词和新词识别，提高了新词识别效率和原框架的分词性能。特别，有关中文新词分布规律的研究对其他研究有理论参考价值。

著录项

作者
秦浩伟;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科计算机应用技术
授予学位硕士
导师姓名步丰林;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.12;
关键词
中文新词; 新词识别; 自动分词; 统一分词框架; 蒙特卡罗模拟; 源信道模型;

相似文献

中文文献
外文文献
专利

1. 基于互信息改进算法的新词发现对中文分词系统改进 [J] . 夏同飞 ,李志 ,王超 . 电子元器件与信息技术 . 2018,第009期
2. 基于互信息改进算法的新词发现对中文分词系统改进 [J] . 夏同飞 ,李志 ,王超 . 电子元器件与信息技术 . 2018,第009期
3. 基于改进分词标注集的中文微博命名实体识别方法 [J] . WANG Chao ,WANG Zheng . 计算机与数字工程 . 2019,第001期
4. 基于统计学习框架的中文新词检测方法 [J] . 张海军 ,栾静 ,李勇 . 计算机科学 . 2012,第002期
5. 一种与分词一体化的中文人名识别方法 [J] . 高红 ,黄德根 ,杨元生 . 计算机工程 . 2006,第019期
6. 一种改进的基于海量智能分词的中文自动分词算法 [C] . 赵琳瑛 ,赵捧未 . 第五届中国管理科学与工程论坛 . 2007
7. 基于互联网海量语料的新词发现研究及中文分词系统改进 [A] . 杜丽萍 . 2015

基于统一分词框架的中文新词识别方法

摘要

著录项

相似文献

相关主题

期刊订阅