首页> 中国专利> 一种面向专利摘要的中文分词方法

一种面向专利摘要的中文分词方法

摘要

本发明涉及一种面向专利摘要的中文分词方法,包括以下步骤:步骤A:构建专利停用词表;步骤B:抽取候选术语;步骤C:过滤候选术语;步骤D:抽取低频专业术语。本发明提供的面向专利摘要的中文分词方法,采用规则的方法来抽取专利文献的术语,然后利用平均互信息和NC-value算法对候选术语进行过滤,通过条件随机场进一步识别专利文献中出现频率较低的术语,最后将抽取的术语加入到用户词典中对专利文献进行分词,本发明的分词方法的准确率和召回率都很高,可以很好地满足实际应用的需要。

著录项

  • 公开/公告号CN105550200A

    专利类型发明专利

  • 公开/公告日2016-05-04

    原文格式PDF

  • 申请/专利权人 北京信息科技大学;首都师范大学;

    申请/专利号CN201510863565.7

  • 发明设计人 吕学强;周建设;董志安;

    申请日2015-12-02

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构

  • 代理人

  • 地址 100192 北京市海淀区清河小营东路12号

  • 入库时间 2023-12-18 15:54:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-08

    发明专利申请公布后的驳回 IPC(主分类):G06F17/30 申请公布日:20160504 申请日:20151202

    发明专利申请公布后的驳回

  • 2016-06-01

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151202

    实质审查的生效

  • 2016-05-04

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号