公开/公告号CN112434129A
专利类型发明专利
公开/公告日2021-03-02
原文格式PDF
申请/专利号CN202011314046.2
申请日2020-11-20
分类号G06F16/33(20190101);G06F16/35(20190101);G06F16/36(20190101);G06F40/194(20200101);G06F40/279(20200101);G06Q50/06(20120101);
代理机构32224 南京纵横知识产权代理有限公司;
代理人董建林
地址 010020 内蒙古自治区呼和浩特市赛罕区前达门路9号
入库时间 2023-06-19 10:05:17
技术领域
本发明属于电网调度操作技术领域,尤其涉及一种电网调度领域专业语料库生成方法及系统。
背景技术
电网结构日益复杂,调控业务量日益增加,亟需提高电网信息查询效率和业务操作效率,研究具备辅助调度员查询电网数据、操作调控业务、调阅图形画面的语音助手具有重要意义。电网智能调控助手包括智能语音交互、语义理解和对话管理三部分功能。其中语音识别和语义理解需要对调度专业语料库进行训练,提高应用的准确性。调度专业语料库所需要的语料以结构化、非结构化的形式存在调控领域中,如何将这些数据中的调度专业实体抽取出来,建立相应的语料库对开展调控语音识别和语义理解工作具有重要意义。
然而,利用现有的分词工具不能将电力系统中的专有名词进行提取,现有技术还不能支撑电网调控领域专业语料库的构建。
发明内容
本发明的目的在于提供一种电网调度领域专业语料库生成方法及系统,能够生成电网调度所需的语料库。
为实现上述目的,本发明提供如下技术方案:
第一方面,提供了一种电网调度领域专业语料库生成方法,包括:
对调控知识进行抽取,对抽取后的调控知识进行融合生成调度专业实体语料库;
根据调度专业实体语料库和业务整体操作意图生成调度专业事件语料库。
结合第一方面,进一步的,所述对调控知识进行抽取包括建立调控实体识别模型,建立调控知识关系抽取模型,根据调控实体识别模型和调控知识关系抽取模型从文本中提取调控知识。
结合第一方面,进一步的,所述对抽取后的调控知识进行融合生成调度专业实体语料库包括:采用文本相似度算法对调控专业术语的各种表述做相似度计算,将同一专业术语的不同表述形成映射关系,对调控知识进行融合和映射,生成调度专业实体语料库。
结合第一方面,进一步的,所述根据调度专业实体语料库和业务整体操作意图生成调度专业事件语料库包括:
通过深度学习从调度专业实体语料库中抽取动词和名词进行顺序组合,生成所需要调度操作语句;
结合业务操作意图和设定槽位,根据规则填写槽位生成所需调度操作语句。
结合第一方面,进一步的,抽取的调控知识的数据形式包括结构化数据、半结构化数据以及非结构化数据。
结合第一方面,进一步的,所述调控实体识别模型采用双向长短期记忆网络-条件随机场模型建立。
结合第一方面,进一步的,调控知识的抽取采用卷积神经网络模型。
第二方面,提供了一种电网调度领域专业语料库生成系统,包括:
调度专业实体语料库生成模块,用于对调控知识进行抽取,对抽取后的调控知识进行融合生成调度专业实体语料库;
调度专业事件语料库生成模块,用于根据调度专业实体语料库和业务整体操作意图生成调度专业事件语料库。
有益技术效果如下:
(1)构建了“通用语料集+调度专业语料集”的语料库,语料库包含了调控领域的专有名词表述,可以有效地支撑语音识别和调控语音交互的实现;
(2)在调控文本中抽取调度专业本体知识实体的准确率在95%以上,能够很好地支撑专业语料库的构建,效果远远好于现有的分词工具。
(3)将调控领域结构化、非结构化数据中的调度专业知识实体进行抽取,形成专业语料库。
附图说明
图1为本发明中电网调度知识抽取过程的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1,
如图1所示,本发明提供了一种电网调度领域专业语料库生成方法,包括如下步骤:
步骤一、对调控知识进行抽取,对抽取后的调控知识进行融合生成调度专业实体语料库。
调度专业实体语料库生成基于深度学习框架的电网调控知识抽取及融合技术从调控知识抽取和调控知识融合两个方面开展研究工作。在调控知识抽取方面,调控领域数据主要以结构化、半结构化和非结构化的形式存在,针对不同的形式存在的数据采用相应的方法进行知识抽取。结构化数据主要来自调控系统的关系库,依据应用场景对数据进行分类,映射到调控知识图谱中;对于半结构化形式存在的调度规程、细则、作业指导书中存在的表格、列表数据,采用规则包装进行解析,将表格中的调控业务数据转化可用的业务操作知识;对于非结构的调度规程、调度细则、作业指导书等文本数据,基于为基于人工智能技术进行解析,具体地,基于双向长短期记忆网络-条件随机场(BiLSTM-CRF)(不限于这种方法)建立调控实体识别模型,基于文本卷积神经网络(TextCNN)建立调控知识关系抽取模型,依据上述模型即可将文本中的调控本体知识提取出来,并且对调控其他的文本实体进行预测。基于文本相似度算法,如BM25、bert等算法(不限于算法)对调控专业术语的各种表述做相似度计算,将同一专业术语的不同表述形成映射关系,对调控数据进行知识融合和映射,在考虑语义层面上对语料库内容进行扩展,扩充语料库。文本相似度算法还将所表述相同意义的调控本体知识进行融合,消除内容歧义、结构冗余的调控知识,为了增强调度本体知识融合准确率,相似度算法中加入了归一化和规则算法修饰。
步骤二、根据调度专业实体语料库和业务整体操作意图生成调度专业事件语料库。
调度专业事件语料库生成主要通过两方面构建,一方面将基于深度学习框架网络提取出调度专业实体动词和名词进行顺序组合,生成所需要的调度操作短句或者长句,另一方面通过调度员结合业务整体操作意图和设定槽位(槽位所要操作对象的具体名称),通过规则(这里的规则指槽位和其他短语的连接或者位置关系)填写槽位生成操作短句或者长句。
实施例2
本发明还提供了一种电网调度领域专业语料库生成系统,包括:
调度专业实体语料库生成模块,用于对调控知识进行抽取,对抽取后的调控知识进行融合生成调度专业实体语料库;
调度专业事件语料库生成模块,用于根据调度专业实体语料库和业务整体操作意图生成调度专业事件语料库。
调度专业实体语料库生成调控领域所需要的各种类别实体名词和操作短语,调度专业事件语料库生成调控领域的操作业务的事件意图语句,可能是调度指令短句或者长句,最终生成“通用词汇语料集+电网调控专业语料集”的调度领域专业语料库。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
机译: 语料库,特别是专业语料库的方法和大型句法分析系统。
机译: 语料库,特别是专业语料库的方法和大型句法分析系统
机译: 用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法,该方法具有用于生成视频信号的装置,该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率,每个帧图像由多个扫描线组成,扫描线由多个像素组成,图像中的每个像素由彩色数字分量组成(该方法包括确定功能的步骤);基于彩色数字(b)的三个分量中的至少一个的亮度像素,基于两个像素之间的亮度差异,针对当前图像表的扫描线中的至少大部分像素,确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素,以及至少(c)比较决策参数与