首页> 中国专利> 一种基于NLP自然语言的自动提取方法及装置

一种基于NLP自然语言的自动提取方法及装置

摘要

本发明涉及自然语言处理技术领域,具体公开了一种基于NLP自然语言的自动提取方法及装置。所述的方法包括以下步骤:获取招标系统中的评标文件;将评标文件利用光学字符识别技术进行第一预处理,生成初自然语言数据;将初自然语言数据进行第二预处理获得符合要求的目标自然语言;对所述目标自然语言进行自动提取。本发明能够有效提高自然语言提取的效率和准确度。

著录项

  • 公开/公告号CN112464872A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 广东电网有限责任公司;

    申请/专利号CN202011446913.8

  • 申请日2020-12-11

  • 分类号G06K9/00(20060101);G06K9/32(20060101);G06K9/34(20060101);G06K9/40(20060101);G06K9/62(20060101);G06F40/279(20200101);

  • 代理机构44369 广州一锐专利代理有限公司;

  • 代理人杨昕昕;董云

  • 地址 510000 广东省广州市越秀区东风东路757号

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及自然语言处理技术领域,特别是涉及一种基于NLP自然语言的自动提取方法及装置。

背景技术

自然语言处理(Natural Language Processing,简写为NLP)是计算机科学领域与人工智能领域中的一个重要方向,目前常用于自然语言的信息提取。在招标系统中,当遇到大型的招标项目时,评标专家在众多的待评标文件中,容易出现手误、偏向性等因素,导致无法精确获取其中的关键性自然语言数据,进而导致自然语言数据的提取效率低。

发明内容

针对上述问题,本发明提供了一种基于NLP自然语言的自动提取方法及装置。

为了解决上述技术问题,本发明第一方面提供了一种基于NLP自然语言的自动提取方法,所述方法包括以下步骤:

S1.获取招标系统中的评标文件;

S2.将评标文件利用光学字符识别技术进行第一预处理,生成初自然语言数据;

S3.将自然语言初自然语言数据进行第二预处理获得符合要求的目标自然语言;

S4.对所述目标自然语言进行自动提取。

优选地,所述评标文件包括:营业执照、公司资质、评标项目、财务数据及历史合作的项目。

优选地,将招标文件通过光学字符识别技术生成数字图像;利用二值化将数字图像进行降噪和转化成灰度图像;将二值化处理后的灰度图像进行倾斜校正获得初自然语言数据 。将数字图像进行降噪的目的是减少冗余信息量,加快传输速度。

优选地,步骤S3中,所述第二预处理包括:从初自然语言数据通过文字分隔,使得多行字符序列切割为单行字符序列,再分割成单个字符。

优选地,从单个字符中删除停用词并提取与其他字符相匹配的单个字符特征。

优选地, 将提取出来的单个字符特征进行特征加权计算,其计算公式为:

G= S*U*P

其中,S为字符特征在自然语言中的局部重要度权值,U为字符特征在整个自然语言数据中的全局重要度权值,P为归一因子。

优选地,将单个字符特征通过支持向量机进行分类得到最终的自然语言数据。

本发明第二方面提供了一种基于NLP自然语言的自动提取装置,其特征在于,包括:

获取数据模块:所述的获取数据模块用于获取招标系统中的评标文件;

第一预处理模块:所述的第一预处理模块用于将评标文件利用光学字符识别技术进行第一预处理,生成初自然语言数据;

第二预处理模块:所述的第二预处理模块用于将自然语言初自然语言数据进行第二预处理获得符合要求的目标自然语言;

自动提取模块:所述的自动提取模块用于对所述目标自然语言进行自动提取。

本发明第三方面提供了一种终端设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行时实现所述的基于NLP自然语言的自动提取方法的步骤。

本发明第四方面提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行时实现所述的基于NLP自然语言的自动提取方法的步骤。

与现有技术相比,本发明具有的有益效果为:将评标文件利用光学字符识别技术进行第一预处理,生成初自然语言数据;将初自然语言数据进行第二预处理获得符合要求的目标自然语言;从而实现所述目标自然语言进行自动提取,有效提高了自然语言提取的效率和准确度。

附图说明

图1为本发明实施例提供的一种基于NLP自然语言的自动提取方法的整体流程图。

图2为本发明实施例提供的一种基于NLP自然语言的自动提取装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

在本发明实施例中,一种基于NLP自然语言的自动提取方法可以应用于终端中;计算机设备,计算机设备可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。

请参阅图1,本发明实施例提供了一种基于NLP自然语言的自动提取方法的整体流程图,详述如下:

步骤S1,获取招标系统中的评标文件;

本发明实施例中,所述评标文件包括营业执照、公司资质、评标项目、财务数据及历史合作的项目。

步骤S2,将评标文件利用光学字符识别技术进行第一预处理,生成初自然语言数据;

本发明实施例中,步骤S2具体为,将招标文件通过光学字符识别技术生成数字图像;利用二值化将数字图像进行降噪和转化成灰度图像;将二值化处理后的灰度图像进行倾斜校正获得初自然语言数据 。

步骤S3,将自然语言初自然语言数据进行第二预处理获得符合要求的目标自然语言;

本发明实施例中,所述第二预处理包括:从初自然语言数据通过文字分隔,使得多行字符序列切割为单行字符序列,再分割成单个字符。

进一步的,在本发明实施例中,从单个字符中删除停用词并提取与其他字符相匹配的单个字符特征。

将提取出来的单个字符特征进行特征加权计算,其计算公式为:

G=S*U*P

其中,S为字符特征在自然语言中的局部重要度权值,U为字符特征在整个自然语言数据中的全局重要度权值,P为归一因子。

本发明实施例中,将单个字符特征通过支持向量机进行分类得到最终的自然语言数据。

步骤S4,对所述目标自然语言进行自动提取。

请参阅图2,本发明的实施例提供了一种基于NLP自然语言的自动提取装置,包括:

获取数据模块:所述的获取数据模块用于获取招标系统中的评标文件;

第一预处理模块:所述的第一预处理模块用于将评标文件利用光学字符识别技术进行第一预处理,生成初自然语言数据;

第二预处理模块:所述的第二预处理模块用于将自然语言初自然语言数据进行第二预处理获得符合要求的目标自然语言;

自动提取模块:所述的自动提取模块用于对所述目标自然语言进行自动提取。

作为本发明的一个实施例,一种终端设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行时实现所述的基于NLP自然语言的自动提取方法的步骤。

作为本发明的一个实施例,一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行时实现所述的基于NLP自然语言的自动提取方法的步骤

示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。例如,计算机程序可以被分割成上述各个方法实施例提供的智能合约地址生成方法的步骤。

本领域技术人员可以理解,上述计算机装置的描述仅仅是示例,并不构成对计算机装置的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信号以及软件分发介质等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号