首页> 中文学位 >基于平行语料库的无监督中文词性标注研究
【6h】

基于平行语料库的无监督中文词性标注研究

代理获取

摘要

伴随着计算机综合能力的日益强大和互联网的迅猛发展,自然语言处理已经成为信息处理领域一个引人注目的研究热点。词性标注是自然语言处理的重要内容,也是自然语言处理工作的一个非常有用的预处理过程,它的准确程度将直接影响到后续的一系列分析处理任务的效果。
   本文首先探索了基于单语料库的无监督中文词性标注。本文提出了一种基于条件随机场(CRFs)模型的无监督的中文词性标注方法,主要思路为:(1)利用词典对获得的已分好词的生文本进行词性标注;(2)采用已定义的规则对未登录词进行标注,获得初始标注语料;(3)利用CRFs对语料进行迭代标注,逐步优化标注结果。关于特征的选择,本文在探索了适用于无监督词性标注的上下文特征的基础上,提出了词语类别的特征,用于特征模板。本文以宾州中文树库为实验语料,考查了不同规模的标注数据对模型性能的影响,实验结果表明,本文提出的无监督词性标注方法提高了中文词性标注的性能。
   在此基础上,考虑到在词性标注过程中,往往很难根据词(其是兼类词)的上下文信息判断其词性,从而产生歧义,本文提出了基于平行语料库的中文无监督词性标注。主要思路为:(1)半自动构造了一个中英平行双语语料库;(2)使用GIZA++工具对词语进行双向对齐,并进行修订;(3)对英文语料库进行词性标注,以获得中文词语对应的英文单词的词性,并将其作为一个特征加入到特征模板。本文在多个语料上分别进行了实验,实验结果表明,通过获取句子对应的英文词性,能够进一步提高中文词性标注的性能,说明了本文提出的无监督方法对平行语料库进行词性标注的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号