基于最大熵模型的词位标注汉语分词

于江德; 王希杰; 樊孝忠

首页> 中文期刊> 《郑州大学学报（理学版）》 >基于最大熵模型的词位标注汉语分词

基于最大熵模型的词位标注汉语分词

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

The performance of Chinese word segmentation has been greatly improved by word-position-based approaches in recent years.This approach treated Chinese word segmentation as a word-position tagging.With the help of powerful sequence tagging model, word-position-based method quickly rose as a mainstream technique in this field.Feature template selection and tag sets selection was crucial in this method.The technique was studied via using different word-positions tag sets and maximum entropy model.Closed evaluations were performed on corpus from the second international Chinese word segmentation Bakeoff-2005, and comparative experiments were performed on different tag sets and feature templates.Experimental results showed that the feature template set TMPT-6 and six word-position tag sets was much better than the other.%近年来基于字的词位标注汉语分词方法极大地提高了分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,词位标注汉语分词逐渐成为汉语分词的主要技术路线.该方法中特征模板集设定和词位标注集的选择至关重要,采用不同的词位标注集,使用最大熵模型进一步研究了词位标注汉语分词技术.在国际汉语分词评测Bakeoff2005的语料上进行了封闭测试,并对比了不同词位标注集对分词性能的影响.实验表明所采用的六词位标注集配合相应的特征模板集TMPT-6较其他词位标注集分词性能要好.

著录项

来源
《郑州大学学报（理学版）》 |2011年第1期|70-74|共5页
作者
于江德; 王希杰; 樊孝忠;
展开▼
作者单位

安阳师范学院,计算机与信息工程学院,河南,安阳,455002;

安阳师范学院,计算机与信息工程学院,河南,安阳,455002;

北京理工大学计算机科学技术学院,北京,100081;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
汉语分词; 词位标注; 最大熵模型; 词位标注集; 特征模板;

相似文献

中文文献
外文文献
专利

1. 基于三词位的字标注汉语分词 [J] . 王希杰 ,黄勇杰 . 安阳师范学院学报 . 2013,第005期
2. 词位标注汉语分词中上下文有效范围定量分析 [J] . 王希杰 . 计算机应用 . 2012,第005期
3. 词位标注汉语分词中特征模板定量研究 [J] . 于江德 ,王希杰 ,樊孝忠 . 计算机工程与设计 . 2012,第003期
4. 词位标注汉语分词技术详解 [J] . 于江德 ,王希杰 . 安阳师范学院学报 . 2010,第005期
5. 基于弱标注数据的汉语分词领域移植 [J] . 朱运 ,李正华 ,黄德朋 . 中文信息学报 . 2019,第009期
6. 基于三元统计模型的汉语分词及标注一体化研究 [C] . 高山 ,张艳 ,徐波 . 全国第六届计算语言学联合学术会议 . 2001
7. 汉语分词中未登录词识别及词性标注的研究与实现 [A] . 张国兵 . 2008

基于最大熵模型的词位标注汉语分词

摘要

著录项

相似文献

相关主题

期刊订阅