首页> 中文期刊> 《计算机工程与科学 》 >基于边界标记集的专利文献术语抽取方法

基于边界标记集的专利文献术语抽取方法

             

摘要

目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果.为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提出了一种基于专利术语边界标记集的术语抽取方法.方法中提出了边界标记集的概念,并结合专利文献中术语边界的特点构建专利术语边界标记集;提出了一种种子术语权重计算方法抽取种子术语;使用人民日报语料作为对比语料抽取专利文献术语部件词库,提高候选术语的术语度;最后采用左右边界熵的方法对识别出的术语进行过滤.实验表明,所提出的方法具有较好的实验结果,正确率81.67%,召回率71.92%,F值0.765,较对比实验有较大提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号