首页> 中国专利> 一种基于电价条款数据的内容解析方法

一种基于电价条款数据的内容解析方法

摘要

本发明涉及一种基于电价条款数据的内容解析方法,属于人工智能数据处理技术领域。该方法包括:基于语义要素定位模型确定多个目标要素在电价条款数据中对应的内容片段;其中,所述目标要素用于表征所述电价条款数据的核心信息;分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容;按照预设形式组织各所述目标要素对应的结构化内容,得到所述电价条款数据的解析结果。本发明提取出目标要素的结构化内容并组合输出,整个过程无需人工干预,全部自动完成,大幅减轻人工解析工作量,提高工作效率,且具有较高的准确率,充分发挥电价条款数据对电价管理决策的辅助作用,实现了数据价值的最大化。

著录项

  • 公开/公告号CN112199475A

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利权人 远光软件股份有限公司;

    申请/专利号CN202011413792.7

  • 发明设计人 李玫;丁德智;李美平;

    申请日2020-12-07

  • 分类号G06F16/33(20190101);G06F40/205(20200101);G06F40/30(20200101);G06K9/62(20060101);

  • 代理机构11386 北京天达知识产权代理事务所(普通合伙);

  • 代理人窦艳鹏

  • 地址 519085 广东省珠海市科技创新海岸远光软件园

  • 入库时间 2023-06-19 09:30:39

说明书

技术领域

本发明涉及人工智能数据处理技术领域,尤其涉及一种基于电价条款数据的内容解析方法。

背景技术

电价政策是服从和服务于电力改革发展的经济政策,作为重要的经济杠杆和调节手段,它在电力改革发展中具有不可替代的作用。为了最大限度地发挥电价政策文档对电价管理的指导作用,需要对政策文档的每一项电价条款数据进行统一语义解析。

为此人们设计出了一些政策的解析方法和系统,但是这些方案的实现主要是依靠人工来解析政策信息,并将解析出来的内容通过人工的方式进行对应存储。这样的操作过程不仅效率低下,而且信息录入容易出错,内容更新不及时。最重要的是没有完全适用于专业性强的电价政策的解析方法。由此可见,提供一种能够自动、及时、全面以及精确地解析电价条款数据的方案是本领域亟需要解决的问题。

发明内容

鉴于上述的分析,本发明实施例旨在提供一种基于电价条款数据的内容解析方法,用以解决以上背景技术中提到的技术问题。

一方面,本发明实施例提供了一种基于电价条款数据的内容解析方法,包括:

获取电价条款数据;

基于语义要素定位模型确定多个目标要素在电价条款数据中对应的内容片段;其中,所述目标要素用于表征所述电价条款数据的核心信息;

分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容;

按照预设形式组织各所述目标要素对应的结构化内容,得到所述电价条款数据的解析结果。

基于上述方法的进一步改进,所述目标要素包括第一目标要素和第二目标要素,所述第一目标要素包括:用电价格、管理对象、电价政策、执行条件、地区;所述第二目标要素包括时间、价格口径、含税信息;其中,所述第一目标要素对应的内容片段和所述第二目标要素对应的内容片段同步或异步进行解析,各所述第一目标要素之间存在预设的解析顺序。

进一步,当所述第一目标要素为所述用电价格时,所述分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容,包括:

根据正则表达式确定所述用电价格对应的内容片段的所属模式;

执行所述模式下设定的内容形式对所述内容片段进行提取,得到所述用电价格对应的结构化内容。

进一步,所述方法还包括:

根据所述用电价格、管理对象、电价政策分别对应的内容片段,确定所述用电价格的数量信息、所述管理对象的数量信息、所述电价政策的数量信息。

进一步,当所述第一目标要素为所述电价政策时,响应于所述用电价格、所述管理对象、所述电价政策中至多有一个数量大于1,且所述电价政策的数量信息不为0,所述分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容,包括:

从所述用电价格对应的内容片段中获取补贴关键词,将所述补贴关键词与所述电价政策对应的内容片段进行拼接处理,得到电价政策关键词;

在预设的电价政策库中查找与所述电价政策关键词匹配的候选电价政策;其中,所述电价政策库存储有关键词和电价政策的映射关系,以及各电价政策对应的结构化内容;

若所述候选电价政策包括多个,基于所述用电价格对应的结构化内容和所述候选电价政策对应的用电价格上下限,从所述候选电价政策中选择目标电价政策;

获取所述目标电价政策对应的结构化内容。

进一步,当所述第一目标要素为所述电价政策时,响应于所述用电价格、所述管理对象、所述电价政策中至多有一个数量大于1,且所述电价政策的数量信息为0,所述分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容,包括:

基于所述用电价格对应的结构化内容在历史电价政策库中进行价格匹配,将所述历史电价政策库中价格在误差范围内的电价政策为第一电价政策集合;

将所述管理对象对应的结构化内容输入预先训练的发电类型分类模型中,得到所述管理对象的发电类型,利用所述发电类型与电价政策体系库中各电价政策的发电类型进行比对,得到第二电价政策集合;

将所述管理对象对应的结构化内容输入预先训练的管理对象属性模型,得到所述管理对象的属性信息,利用所述管理对象的属性信息与所述电价政策体系库中各电价政策的标准执行条件进行比对,得到第三电价政策集合;

如果第三电价政策集合为空,则取第一电价政策集合与第二电价政策集合的交集作为目标电价政策;如果第三电价政策集合不为空,则取第一电价政策集合与第三电价政策集合的交集作为目标电价政策;

获取所述目标电价政策对应的结构化内容。

进一步,当所述第一目标要素为所述地区时,所述分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容,包括:

若所述管理对象的数量信息为0,根据所述电价条款数据所在文档确定实体信息,将所述实体信息对应的行政地区、所述电价条款数据中的内容与行政地区库进行匹配,基于匹配结果确定所述地区对应的结构化内容;

若所述管理对象的数量信息不为0,但所述管理对象与管控管理对象表不存在映射关系,根据所述电价条款数据所在文档确定实体信息,将所述实体信息对应的行政地区、所述管理对象与行政地区库进行匹配,基于匹配结果确定所述地区对应的结构化内容;

若所述管理对象的数量信息不为0,且所述管理对象与所述管控管理对象表存在映射关系,确定所述管控管理对象表中与所述管理对象存在映射关系的单位实体信息,根据所述电价条款数据所在文档确定实体信息,将所述实体信息对应的行政地区、所述单位实体信息与行政地区库进行匹配,基于匹配结果确定所述地区对应的结构化内容。

进一步,所述执行条件包括第一执行条件和第二执行条件;所述第一执行条件对应的结构化信息是基于所述电价政策对应的结构化信息得到的;所述第二执行条件对应的结构化信息是基于所述时间对应的结构化信息以及所述管理对象对应的结构化信息得到的。

进一步,当所述第二目标要素为价格口径或含税信息时,所述分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容,包括:

将所述第二目标要素对应的内容片段与预设的业务映射表相匹配;其中所述业务映射表存储有关键词与业务关键信息的映射关系;

基于匹配结果确定所述第二目标要素对应的结构化数据。

进一步,所述按照预设形式组织各所述目标要素对应的结构化内容,得到所述电价条款数据的解析结果,包括:

在预设表格中根据首行各单元格的标识确定对应的所述目标要素;

基于所述首行各单元格确定好的所述目标要素,将各所述目标要素对应的结构化内容输入至对应的单元格中,得到所述电价条款数据的解析结果。

另一方面,本发明还提供了一种基于电价条款数据的内容解析装置,包括:

确定模块,用于基于语义要素定位模型确定多个目标要素在电价条款数据中对应的内容片段;其中,所述目标要素用于表征所述电价条款数据的核心信息;

解析模块,用于分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容;

组织模块,用于按照预设形式组织各所述目标要素对应的结构化内容,得到所述电价条款数据的解析结果。

第三方面,本发明还提供一种计算机设备,包括:处理器、存储器和总线;

所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中的步骤。

第四方面,本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中的步骤。

与现有技术相比,本发明至少可实现如下有益效果之一:公开提出的基于电价条款数据的内容解析方法、装置及电子设备,能够自动对电价条款数据进行分析,提取出目标要素的结构化内容并组合输出,整个过程无需人工干预,全部自动完成,大幅减轻人工解析工作量,提高工作效率,且具有较高的准确率,充分发挥电价条款数据对电价管理决策的辅助作用,实现了数据价值的最大化。

本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。

图1为本发明实施例1公开的基于电价条款数据的内容解析方法的流程图;

图2是本发明实施例2公开的基于电价条款数据的内容解析方法的目标要素解析顺序示意图;

图3是本发明实施例3公开的基于电价条款数据的内容解析装置的示意图;

图4是本发明实施例4公开的电子设备结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。

实施例1

本发明的一个具体实施例,公开了一种基于电价条款数据的内容解析方法,包括如下步骤:

S100. 获取电价条款数据;

S110. 基于语义要素定位模型确定多个目标要素在电价条款数据中对应的内容片段;其中,所述目标要素用于表征所述电价条款数据的核心信息,如图1所示;

S120. 分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容;

S130. 按照预设形式组织各所述目标要素对应的结构化内容,得到所述电价条款数据的解析结果。

目前应用比较普遍的电价条款数据解析方法,主要还是依靠人工整理、总结。由于电价政策专业性强、政策之间渊源深厚,很难在短时间内梳理出历史调价脉络。加上电价政策的高速迭代和内部工作的频繁交接,导致了电价条款数据理解统一难,效率低。为此,本发明提供了一种基于深度学习的电价条款数据解析方法,能够自动、准确、高效、全面的解读电价条款数据中的核心内容。

实施例2

在实施例1的基础上改进,步骤S110,基于语义要素定位模型确定多个目标要素在电价条款数据中对应的内容片段。

在进行本步骤之前,首先基于自然语言处理对电价政策文档进行拆分,得到若干电价条款数据。针对每个电价条款数据,利用预先训练好的语义要素定位模型定位电价条款数据中多个目标要素,从而确定每个目标要素对应的内容片段。其中,目标要素用于表征电价条款数据的核心信息,通过目标要素即可快速了解电价条款数据的核心内容。

具体来说,目标要素包括第一目标要素和第二目标要素,第一目标要素包括:用电价格、管理对象、电价政策、执行条件、地区;第二目标要素包括时间、价格口径、含税信息。其中,所述第一目标要素对应的内容片段和所述第二目标要素对应的内容片段同步或异步进行解析,各所述第一目标要素之间存在预设的解析顺序。用电价格指电价条款数据中的调价价格、管理对象指电价条款数据的作用管理对象、电价政策指电价条款数据对应的政策分类、地区指电价条款数据的作用地区范围、执行条件指电价条款数据的作用限定条件。

进一步地,语义要素定位模型是根据电价条款数据样本训练得到的,该电价条款数据样本中包括已标注的目标要素,以及目标元素对应的内容片段。在本步骤中,将电价条款数据输入到语义要素定位模型,即可输出已经划分好的各目标要素对应的内容片段。

步骤S120,分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容。

由于内容片段都是富文本形式,不易于用户进行理解,因此需要对内容片段进行解析,提取出每个内容片段的结构化数据。在此过程中,为了提高解析效率,如图2所示,不存在依赖关系的第一目标要素和第二目标要素,其对应的内容片段可以同步或异步进行解析;而部分第一目标要素之间由于存在依赖关系,需要按照预设的解析顺序继续解析。

具体来说,电价政策一般需要进行政策解释,不能仅仅通过电价政策的内容片段进行结构化内容的解析和提取,因此其依赖于用电价格和管理对象;进一步地,执行条件的结构化内容也需要结合其他目标要素得到,因此执行条件的解析依赖于电价政策或管理对象;此外,地区的详细解析依赖于管理对象。因此,在第一目标要素中,用电价格和管理对象属于第一解析优先级,电价政策属于第二解析优先级,执行条件和地区属于第三解析优先级。

步骤S130,按照预设形式组织各所述目标要素对应的结构化内容,得到所述电价条款数据的解析结果。

具体地,预设形式可以是表格形式,由于电价条款数据的目标要素一般是固定的,因此可以在表格首行设置各单元格的单元格标识,该单元格标识与目标要素具有映射关系。

在本步骤中,在表格中根据首行各单元格的标识确定对应的目标要素,再将各目标要素对应的结构化内容输入至该目标要素下对应的单元格中,得到所述电价条款数据的解析结果。

通过本公开上述实施例提供的基于电价条款数据的内容解析方法,能够自动对电价条款数据进行分析,提取出目标要素的结构化内容并组合输出,整个过程无需人工干预,全部自动完成,大幅减轻人工解析工作量,提高工作效率,且具有较高的准确率,充分发挥电价条款数据对电价管理决策的辅助作用,实现了数据价值的最大化。

作为本发明实施例的可选实施方式,以下具体介绍各第一目标要素和各第二目标要素对应的内容片段的解析方案。

针对第一目标要素,首先对第一解析优先级的第一目标要素进行解析。

当第一目标要素为用电价格时,根据正则表达式确定用电价格对应的内容片段的所属模式;执行该模式下设定的内容形式对内容片段进行提取,得到用电价格对应的结构化内容。

例如用电结果对应的内容片段为“每千瓦时0.2元”,符合模式“每千瓦时xx元”,通过执行该模式下设定的内容形式,得出用电价格对应的结构化数据,包括用电价格“0.2”及单位“元/千瓦时”。

需要说明的是,电价条款数据中除了用电价格是必须存在的,其他第一目标要素的数量可以是0个或多个,由于部分第一目标要素之间存在依赖关系,因此,各第一目标要素的数量也影响与其有依赖关系的第一目标要素的结构化内容的解析提取。

基于此,所述方法还包括:根据用电价格、管理对象、电价政策分别对应的内容片段,确定用电价格的数量信息、管理对象的数量信息、电价政策的数量信息。一般来说,可以根据第一目标元素对应的内容片段中包括的、与该第一目标元素相关的关键词个数,来确定其对应的数量信息。

举例来说,用电价格对应的内容片段为“对标杆电价每千瓦时0.6元中省级负担的0.1元部分进行补贴”,其中,与用电价格相关的关键词包括“0.6元”和“0.1元”,因此用电价格的数量信息为2;管理对象对应的内容片段为“威海南郊热电有限公司1、2号机组”,其中,与管理对象相关的关键词包括“威海南郊热电有限公司1号机”和“2号机”,因此管理对象的数量信息为2;电价政策对应的内容片段为“执行脱硝、脱硫、除尘电价”,其中,与电价政策相关的关键词包括“脱销”、“脱硫”、“除尘”,可匹配出“脱销电价”、“脱硫电价”以及“除尘电价”,因此电价政策的数量信息为3。

需要说明的是,由于电价条款数据具有侧重点,因此可能不包括所有的第一目标元素或第二目标元素,即电价条款数据中可能没有提到管理对象或电价政策,也就没有管理对象或电价政策对应的内容片段,其数量信息即为0。

若以上三种第一目标元素的数量信息都大于1,说明该条款是复杂性条款,不适合进行解析;若以上三种第一目标元素的数量信息至多有一个大于1,且电价政策的数量信息不为0,则执行下述方案一;若以上三种第一目标元素的数量信息至多有一个大于1,且电价政策的数量信息为0,则执行下述方案二。

方案一

从用电价格对应的内容片段中获取补贴关键词,将补贴关键词与电价政策对应的内容片段进行拼接处理,得到电价政策关键词;在预设的电价政策库中查找与电价政策关键词匹配的候选电价政策;其中,电价政策库存储有关键词和电价政策的映射关系,以及各电价政策对应的结构化内容;若候选电价政策包括多个,基于用电价格对应的结构化内容和候选电价政策对应的用电价格上下限,从候选电价政策中选择目标电价政策;获取所述目标电价政策对应的结构化内容。

具体地,用电价格对应的内容片段中除了包括价格和单位外,还可能会包括国补标志片段、省补标志片段等,例如“对标杆电价每千瓦时0.6元中省级负担的0.1元部分进行补贴”中即包含省补标志片段,从中进行补贴关键词提取。

进一步地,若国补标志片段非空则补贴关键词为“国补”;若省补标志片段非空则补贴关键词为“省补”;若内容片段中包含“省级负担”则补贴关键词为“省补”;若内容片段中同时含“补”、“国”且不含“至”则补贴关键词为“国补”;若价格片段中含“补”且不含“至”则补贴关键词为“省补”;若以上情况均不符合则补贴关键词为空。

提取完补贴关键词后,将其与电价政策对应的内容片段中涉及电价政策的关键词拼接,得到电价政策关键词,将电价政策关键词与预先根据历史解析经验总结的电价政策库匹配,得出候选电价政策。在候选电价政策中,可能存在匹配不合理的电价政策,因此可以借助用电价格对应的结构化内容中的价格与各候选电价政策价格的上下限进行比较,剔除掉不在低电价政策价格上下限范围的候选电价政策,从而得到目标电价政策。

方案二

基于用电价格对应的结构化内容在历史电价政策库中进行价格匹配,将历史电价政策库中价格在误差范围内的电价政策为第一电价政策集合;管理对象对应的结构化内容输入预先训练的发电类型分类模型中,得到管理对象的发电类型,利用发电类型与电价政策体系库中各电价政策的发电类型进行比对,得到第二电价政策集合;将管理对象对应的结构化内容输入预先训练的管理对象属性模型,得到管理对象的属性信息,利用管理对象的属性信息与所述电价政策体系库中各电价政策的标准执行条件进行比对,得到第三电价政策集合;

如果第三电价政策集合为空,则取第一电价政策集合与第二电价政策集合的交集作为目标电价政策;如果第三电价政策集合不为空,则取第一电价政策集合与第三电价政策集合的交集作为目标电价政策;获取所述目标电价政策对应的结构化内容。

具体地,对于历史上已经解析过的电价条款数据,会把每个电价条款数据中的各目标元素的结构化数据进行关联性存储,因此可以根据用电价格对应的结构化数据,在历史电价政策库中找到与该结构化数据中的价格误差在预设范围内的多个目标用电价格,将各目标用电价格关联的电价政策聚合在一起,作为第一电价政策集合。其中,误差阈值是可以人为设定的。

具体地,发电类型分类模型是基于深度学习预先训练的,训练样本包括标注好发电样本的管理对象。将管理对象对应的结构化内容输入至该发电类型分类模型中,得到管理对象的发电类型,将该发电类型与电价政策体系库中各电价政策的发电类型进行比对,得到多个匹配的目标发电类型,将目标发电类型对应的电价政策在一起,得到第二电价政策集合。

具体地,管理对象属性模型是基于深度学习预先训练的,训练样本包括标注好属性信息的管理对象。其中,属性信息包括但不限于管理对象的电厂名称、机组号。进一步地,若管理对象数量信息包括多个,该模型输出管理对象的属性信息后,将该属性信息与管控管理对象表进行匹配筛选,得出唯一管理对象。通过使用管控中该管理对象的发电类型、调度方式等属性信息与电价政策体系库中各电价政策的标准执行条件进行比对,得到多个匹配的目标发电类型,将目标发电类型对应的电价政策在一起,得到第三电价政策集合。

由于每个电价政策都预先存储有对应的结构化内容,因此确定好目标电价政策后,基于预先存储的对应关系,即提取到了电价政策对应的结构化内容,见表1和表2。表1是根据电价条款数据,表2是根据采用基于电价条款数据的内容解析方法得到的解析结果。

表1

表2

需要说明的是,若第一电价政策与第二电价政策的交集中同时出现“统调燃煤上网电价”和“地方电厂上网电价”,由于两个电价政策相互矛盾,则需要进一步使用该管理对象的属性信息,例如调度方式进行消歧。具体地,获取该管理对象的装机容量,利用装机容量大小得出调度方式,再从上述两种电价政策中选择与该调度方式相匹配的电价政策。

实施例3

本发明还公开了一种与实施例1、2方法对应的基于电价条款数据的内容解析装置,如图3所示,包括依次连接的确定模块410、解析模块420、组织模块430。

确定模块410,用于基于语义要素定位模型确定多个目标要素在电价条款数据中对应的内容片段;其中,所述目标要素用于表征所述电价条款数据的核心信息。

解析模块420,用于分别对各所述目标要素对应的内容片段进行解析,提取各所述目标要素对应的结构化内容。

组织模块430,用于按照预设形式组织各所述目标要素对应的结构化内容,得到所述电价条款数据的解析结果。

实施例4

本发明还提供一种计算机设备(电子设备500),如图4所示,包括:处理器501、存储器502和总线503;

所述存储器502存储有所述处理器501可执行的机器可读指令,当计算机设备运行时,所述处理器501与所述存储器502之间通过总线通信,所述机器可读指令被所述处理器501执行时执行上述第一方面中的步骤。

实施例5

本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器501运行时执行上述实施例1的步骤。

本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号