首页> 中文期刊>中文信息学报 >一种细粒度的汉语语义角色标注数据集的构建方法

一种细粒度的汉语语义角色标注数据集的构建方法

     

摘要

语义角色对自然语言的语义理解和分析有着重要的作用,其自动标注技术依赖良好的语义角色标注训练数据集。目前已有的大部分语义角色数据集在语义角色的标注上都不够精确甚至粗糙,不利于语义解析和知识抽取等任务。为了满足细粒度的语义分析,该文通过对实际语料的考察,提出了一种改进的汉语语义角色分类体系。在此基础上,以只有一个中枢语义角色的语料作为研究对象,提出了一种基于半自动方法的细粒度的汉语语义角色数据集构建方法,并构建了一个实用的语义角色数据集。截至目前,该工程一共完成了9550条汉语语句的语义角色标注,其中含有9423个中枢语义角色,29142个主要周边语义角色,3745个辅助周边语义角色,172条语句被进行了双重语义角色标注,以及104条语句被进行了不确定语义事件的语义角色标注。我们采用Bi-LSTM+CRF的基线模型在构建好的汉语语义角色数据集和公开的Chinese Proposition Bank数据集进行了关于主要周边语义角色的基准实验。实验表明,这两个语义角色数据集在主要周边语义角色自动识别方面存在差异,并且为提高主要周边语义角色的识别准确率提供了依据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号