首页> 中国专利> 海关数据产品词的提取方法及检索方法

海关数据产品词的提取方法及检索方法

摘要

本发明提供了一种海关数据产品词的提取方法及检索方法。其中提取方法首先将海关描述文本中的多余部分清理干净,转化成较好处理的形式;接着启发式的找到海关描述文本中的分割词,将产品词和描述部分进行分割;再将文本中的量词和日期正则替换为空格符或删除;然后通过语法规则删除文本中的描述部分,或使用互信息和左右信息熵对数据进行产品词组的提取,得到单词数≤5产品词组作为产品词加入词库。检索方法是首先对待检索文本进行分词,然后采用bit map或hash map结构在构建的词库中进行检索。本发明结合了语法结构、互信息、字符信息和海关数据特有的结构信息,可以充分结合各种信息的优势,准确提取和检索出产品词。

著录项

  • 公开/公告号CN111966791A

    专利类型发明专利

  • 公开/公告日2020-11-20

    原文格式PDF

  • 申请/专利权人 深圳市小满科技有限公司;

    申请/专利号CN202010917197.0

  • 发明设计人 车进;曹彬;

    申请日2020-09-03

  • 分类号G06F16/33(20190101);G06F40/289(20200101);G06F40/129(20200101);

  • 代理机构44487 深圳汇策知识产权代理事务所(普通合伙);

  • 代理人梁超

  • 地址 518000 广东省深圳市南山区深南大道9678号大冲商务中心B座14楼

  • 入库时间 2023-06-19 08:59:45

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号