首页> 中国专利> 一种基于正则提取企业或政府中标公告中标金额的方法

一种基于正则提取企业或政府中标公告中标金额的方法

摘要

本申请公开了一种基于正则提取企业或政府中标公告中标金额的方法。该方法包括将企业或政府中标公告通过url进行分组;随机查看多组数据,分析含有中标金额数据的关键词,对所有公告正则筛选有中标金额的数据;针对每组公告进行随机查看n条数据,按中标金额表现格式写出正则,并用此正则处理对应组的数据,将结果存入数仓;根据数据表索引、主键、唯一字段运用spark过滤掉已过滤出中标金额的数据,保留没有过滤出中标金额的数据,接着重复以上步骤再次过滤,过滤所得中标金额数据保存在一起;将过滤出来的所有中标金额数据,通过限制长度,正则过滤掉噪音值,去重。本申请解决了无法准确提取中标金额的技术问题。

著录项

  • 公开/公告号CN113761926A

    专利类型发明专利

  • 公开/公告日2021-12-07

    原文格式PDF

  • 申请/专利权人 紫金诚征信有限公司;

    申请/专利号CN202110883865.7

  • 发明设计人 王锦胤;路长青;史延莹;

    申请日2021-08-02

  • 分类号G06F40/295(20200101);G06F40/205(20200101);

  • 代理机构11541 北京知果之信知识产权代理有限公司;

  • 代理人卜荣丽;李志刚

  • 地址 100088 北京市海淀区北航致真大厦B座6层

  • 入库时间 2023-06-19 13:37:05

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号