全词消歧的序列标注方法

摘要

词义消歧,即在特定的上下文中确定歧义词的词义。全词消歧(All-Words Word Sense Disambiguation)本质上是一个序列标注问题,本文提出了两种用于全词消歧的序列标注方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,HMM)和最大熵马尔可夫模型Maximum Entropy Markov Model,MEMM模型.首先,用HMM对全词消歧进行建模.然后,针对HMM只能利用观察值的缺点,将上述HIM模型推广为MEMM模型,将大量上下文特征集成到模型中.对于全词消岐这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,通过柱状搜索Viterbi算法和平滑策略来解决.最后,在Senseval-2和Senseval-3的数据集上进行了评测,本文提出的MEMM方法的性能超过该评测上所有的序列标注方法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号