首页> 中文会议>第二届HNC与语言学研讨会 >HNC语料库标注体系浅识

HNC语料库标注体系浅识

摘要

HNC立足于在概念空间研究概念联想脉络,用人工设计的符号体系突现自然语言内在的关联知识。同时它服务于自然语言理解处理,需要借助语料库这一工具完善理论设计。在技术层面,语料库将为分清技术关键点的轻重缓急提供依据。因此,语料库是HNC研究的重要资源。HNC在发展过程也非常注重语料库的建设,以HNC句类理论为基础,设计建立了语料标注体系。在实际标注中多次调整,使得标注体系具有较好的可操作性。HNC的语料标注体系将标注的内容分成概念空间和语言空间两个层面。语言空间主要标注各种语义块之间的切分点,在语义块内部标注优先组合的单位以及层级关系。语言空间的标注以句号为单元。在汉英双语对照语料的标注过程中,以长句的句号为单元。在概念空间主要标注对应的句类代码,句蜕的类型和各种辅块的类型。在标注体系中,以句类代码为纲,尽管在标注体系中没有显式地给出词语级的语义标记,但通过句类代码,可以在句类知识的约束下消除词语意义的模糊。另外,由于标注是以句号为单位,两个句号之间的逗号分隔的往往是句子,而这些句子之间经常共享主语义块,对于这种情况标注体系也提供了标注符号。通过实际语料的标注表明,语料标注体系在语义深层进行标注,提供了语句的关键信息,能够胜任HNC语料库的功能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号