首页> 中国专利> 一种从中文电子文档中自动提取词语的方法

一种从中文电子文档中自动提取词语的方法

摘要

本发明涉及一种从中文电子文档中自动提取词语的方法,其特征在于包括以下步骤:步骤S01:将电子文档处理为一组由特定词性的原子词所组成的词串;步骤S02:统计该些原子词词串及其子串的频率,将出现次数超过N次的原子词词串做为候选词语,其中N为可设定参数;步骤S03:删除候选词语集合中仅做为子串出现的词语,得到文档中出现的词语的集合,实现自动提取中文电子文档中的词语的目的。本发明的效果和益处是:解决了自动提词性能不高、自动化程度有限的实际问题和困难。高效的自动提词方法是文本自动处理的基础,是信息检索、文本摘要、内容管理等应用的有力保证。良好的词语提取方法能够促进上述工作的自动化程度和性能。

著录项

  • 公开/公告号CN103207921A

    专利类型发明专利

  • 公开/公告日2013-07-17

    原文格式PDF

  • 申请/专利权人 福州大学;

    申请/专利号CN201310156494.8

  • 发明设计人 于娟;

    申请日2013-04-28

  • 分类号G06F17/30;

  • 代理机构福州元创专利商标代理有限公司;

  • 代理人蔡学俊

  • 地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区

  • 入库时间 2024-02-19 19:02:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-04-05

    发明专利申请公布后的驳回 IPC(主分类):G06F17/30 申请公布日:20130717 申请日:20130428

    发明专利申请公布后的驳回

  • 2013-08-14

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130428

    实质审查的生效

  • 2013-07-17

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号