基于序列标注的中文分词、词性标注模型比较分析

刘一佳; 车万翔; 刘挺; 张梅山

首页> 中文期刊>中文信息学报 >基于序列标注的中文分词、词性标注模型比较分析

基于序列标注的中文分词、词性标注模型比较分析

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

该文对三种不同的分词词性标注模型进行了比较.这三种模型分别为一个序列标注串行模型,一个基于字分类的联合模型和一个将这两种模型使用Stacked Learning框架进行集成的融合模型.通过在《人民日报》、CoNLL09、CTB5.0和CTB7.0四个数据集上进行比较分析,最终实验结果表明分类联合模型能取得比较好的速度,融合模型能取得比较好的准确率,而普通串行模型处于速度和准确率的平衡位置.最后该文将准确率最好的融合模型和相关前沿工作在CTB5.0和CTB7.0上进行了对比,该融合模型均取得了最好的结果.%In this paper,we compare three different Chinese word segmentation and POS tagging models.Accuracy and speed are considered during the comparison.First of these three models are pipelinesequential model.The second is a joint model for word segmentation and POS tagging,andthe last one is a combination of two modelsmentionedabove with a stacked learning framework.We conduct experiments on four data sets,including People Daily,CoNLL09,CTB5.0 and CTB7.0.Experimental results show that the joint model achieves the fastest speed while the stacked learning model achievesthe highest accuracy.Finally,we compare our stacked learning model with stateof-the-art systems on data sets CTB5.0 and CTB7.0 and our model achieve the best performance in this comparison.

著录项

来源
《中文信息学报》|2013年第4期|30-36|共7页
作者
刘一佳; 车万翔; 刘挺; 张梅山;
展开▼
作者单位

哈尔滨工业大学计算机学院社会计算与信息检索研究中心,黑龙江哈尔滨150001;

哈尔滨工业大学计算机学院社会计算与信息检索研究中心,黑龙江哈尔滨150001;

哈尔滨工业大学计算机学院社会计算与信息检索研究中心,黑龙江哈尔滨150001;

哈尔滨工业大学计算机学院社会计算与信息检索研究中心,黑龙江哈尔滨150001;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
中文分词; 词性标注; Stacked Learning;

相似文献

中文文献
外文文献
专利

1. 基于无向图序列标注模型的中文分词词性标注一体化系统 [J] . 朱聪慧 ,赵铁军 ,郑德权 . 电子与信息学报 . 2010,第003期
2. 基于字符的中文分词、词性标注和依存句法分析联合模型 [J] . 郭振 ,张玉洁 ,苏晨 . 中文信息学报 . 2014,第006期
3. 基于BI_LSTM_CRF神经网络的序列标注中文分词方法 [J] . 姚茂建 ,李晗静 ,吕会华 . 现代电子技术 . 2019,第001期
4. 基于循环神经网络序列标注的中文分词研究 [J] . 刁琦 ,古丽米拉·克孜尔别克 ,钟丽峰 . 计算机技术与发展 . 2017,第010期
5. 基于LSTM网络的序列标注中文分词法 [J] . 任智慧 ,徐浩煜 ,封松林 . 计算机应用研究 . 2017,第005期
6. 基于序列标注的中文分词、词性标注模型比较分析 [C] . 刘一佳 ,车万翔 ,刘挺 . 第六届全国青年计算语言学会议 . 2012
7. 基于深度学习方法的中文分词和词性标注研究 [A] . 刘振涛 . 2020

基于序列标注的中文分词、词性标注模型比较分析

摘要

著录项

相似文献

相关主题

期刊订阅