基于平行语料库的无监督中文词性标注研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

伴随着计算机综合能力的日益强大和互联网的迅猛发展,自然语言处理已经成为信息处理领域一个引人注目的研究热点。词性标注是自然语言处理的重要内容,也是自然语言处理工作的一个非常有用的预处理过程,它的准确程度将直接影响到后续的一系列分析处理任务的效果。
　　本文首先探索了基于单语料库的无监督中文词性标注。本文提出了一种基于条件随机场(CRFs)模型的无监督的中文词性标注方法,主要思路为:(1)利用词典对获得的已分好词的生文本进行词性标注；(2)采用已定义的规则对未登录词进行标注,获得初始标注语料；(3)利用CRFs对语料进行迭代标注,逐步优化标注结果。关于特征的选择,本文在探索了适用于无监督词性标注的上下文特征的基础上,提出了词语类别的特征,用于特征模板。本文以宾州中文树库为实验语料,考查了不同规模的标注数据对模型性能的影响,实验结果表明,本文提出的无监督词性标注方法提高了中文词性标注的性能。
　　在此基础上,考虑到在词性标注过程中,往往很难根据词(其是兼类词)的上下文信息判断其词性,从而产生歧义,本文提出了基于平行语料库的中文无监督词性标注。主要思路为:(1)半自动构造了一个中英平行双语语料库；(2)使用GIZA++工具对词语进行双向对齐,并进行修订；(3)对英文语料库进行词性标注,以获得中文词语对应的英文单词的词性,并将其作为一个特征加入到特征模板。本文在多个语料上分别进行了实验,实验结果表明,通过获取句子对应的英文词性,能够进一步提高中文词性标注的性能,说明了本文提出的无监督方法对平行语料库进行词性标注的有效性。

著录项

作者
孙静;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机应用技术
授予学位硕士
导师姓名周国栋;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
自然语言处理; 词性标注; 条件随机场; 无监督学习; 平行语料库;

相似文献

中文文献
外文文献
专利

1. 基于条件随机场的无监督中文词性标注 [J] . 孙静 ,李军辉 ,周国栋 . 计算机应用与软件 . 2011,第004期
2. 一种基于规则的无监督词性标注方法 [J] . 彭涛 ,戴耀康 ,朱枫彤 . 吉林大学学报（理学版） . 2015,第005期
3. 基于HMM中文词性标注研究 [J] . 杨荣根 ,杨忠 . 金陵科技学院学报 . 2017,第001期
4. 基于MapReduce的中文词性标注CRF模型并行化训练研究 [J] . 刘滔 ,雷霖 ,陈荦 . 北京大学学报：自然科学版 . 2013,第1期
5. 基于实例的中文分词-词性标注方法的应用研究 [J] . 姜涛 ,姚天顺 ,张俐 . 小型微型计算机系统 . 2007,第011期
6. 基于序列标注的中文分词、词性标注模型比较分析 [C] . 刘一佳 ,车万翔 ,刘挺 . 第六届全国青年计算语言学会议 . 2012
7. 基于联合训练和无监督方法的中文知识图谱问答研究 [A] . 赵思洋 . 2020

基于平行语料库的无监督中文词性标注研究

摘要

著录项

相似文献

相关主题

期刊订阅