首页> 中国专利> 结合RPA与AI的软件界面元素的匹配方法及装置

结合RPA与AI的软件界面元素的匹配方法及装置

摘要

本公开提供一种结合RPA与AI的软件界面元素的匹配方法及装置。本实施例提供的软件界面元素的匹配方法,包括通过采用OCR技术提取当前软件界面中的界面元素;将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;根据所述分布信息,执行对所述目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

著录项

  • 公开/公告号CN112231033A

    专利类型发明专利

  • 公开/公告日2021-01-15

    原文格式PDF

  • 申请/专利号CN202011126599.5

  • 发明设计人 张小勇;罗亮;褚瑞;李玮;

    申请日2020-10-20

  • 分类号G06F9/451(20180101);

  • 代理机构11201 北京清亦华知识产权代理事务所(普通合伙);

  • 代理人张大威

  • 地址 100080 北京市海淀区丹棱路3号中国电子大厦19层1902

  • 入库时间 2023-06-19 09:35:27

说明书

技术领域

本公开涉及自动化技术领域,具体涉及RPA(Robotic Process Automation,机器人流程自动化)、AI(Artificial Intelligence,人工智能),尤其涉及一种结合RPA与AI的软件界面元素的匹配方法及装置。

背景技术

在机器人流程自动化(Robotic Process Automation,RPA)领域,为了实现流程的自动化,软件机器人需要经常访问软件界面上的控件元素(简称界面元素),并针对这些界面元素进行操作,以执行相应的操作任务。

人工智能(Artificial Intelligence,简称AI)是研究、开发用于模拟、延伸和扩展人智能的理论、方法、技术及应用系统的一门新技术科学。人工智能领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

现有技术中,为了保证自动化流程的准确性,软件机器人在运行流程时,需要精准地匹配目标元素的位置并对其进行自动化操作。在远程桌面或虚拟机等应用场景,一般是通过计算机视觉的技术检测界面元素,并提取其特征属性作为在流程运行时界面元素的匹配依据。

然而,这种匹配方式并不稳定,很容易导致目标元素匹配错误或匹配失败,使得自动化流程的准确度低下。

发明内容

本公开提供一种结合RPA与AI的软件界面元素的匹配方法及装置,可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

第一方面,本公开提供一种结合RPA与AI的软件界面元素的匹配方法,包括:

采用光学字符识别(Optical Character Recognition,OCR)技术提取当前软件界面中的界面元素;

将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;

根据所述分布信息,执行对所述目标元素的访问操作。

在一种可能的设计中,所述采用OCR技术提取当前软件界面中的界面元素,包括:

截取当前软件界面的界面图像;

通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述界面图像中提取出所有界面元素。

在一种可能的设计中,将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息,包括:

根据第一锚点元素对应的类别信息、位置信息、文本信息,从所述当前软件界面中的查找与所述第一锚点元素匹配的第二锚点元素;

根据所述目标元素与所述第一锚点元素之间的位置关系,以及所述第二锚点元素在所述当前软件界面中的位置,确定所述目标元素在当前软件界面上的分布信息;所述分布信息包括:目标元素的至少一个形状点的坐标信息、目标元素的尺寸信息;其中,所述形状点用于界定所述目标元素包含的区域。

在一种可能的设计中,在将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配之前,还包括:

截取模板软件界面的界面图像;

通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述模板软件界面的界面图像中提取出所有界面元素作为候选元素;

从所述候选元素中选取目标元素,以及与所述目标元素关联的第一锚点元素;其中,所述第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;

根据所述目标元素和所述第一锚点元素,生成所述目标元素的特征信息;所述目标元素的特征信息包括:所述目标元素与所述第一锚点元素之间的位置关系,以及所述第一锚点元素对应的类别信息、位置信息、文本信息。

在一种可能的设计中,在根据所述分布信息,执行对所述目标元素的访问操作之前,还包括:

将所述分布信息对应的区域和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;

若所述重叠阈值大于预设值,则执行对目标元素的访问。

在一种可能的设计中,还包括:

若所述重叠阈值不大于预设值,则确定所述目标元素无效,反馈匹配失败提示信息。

第二方面,本公开还提供一种结合RPA与AI的软件界面元素的匹配装置,包括:

提取模块,用于采用光学字符识别(Optical Character Recognition,OCR)技术提取当前软件界面中的界面元素;

匹配模块,用于将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;

执行模块,用于根据所述分布信息,执行对所述目标元素的访问操作。

在一种可能的设计中,所述提取模块,具体用于:

截取当前软件界面的界面图像;

通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述界面图像中提取出所有界面元素。

在一种可能的设计中,所述匹配模块,具体用于:

根据第一锚点元素对应的类别信息、位置信息、文本信息,从所述当前软件界面中的查找与所述第一锚点元素匹配的第二锚点元素;

根据所述目标元素与所述第一锚点元素之间的位置关系,以及所述第二锚点元素在所述当前软件界面中的位置,确定所述目标元素在当前软件界面上的分布信息;所述分布信息包括:目标元素的至少一个形状点的坐标信息、目标元素的尺寸信息;其中,所述形状点用于界定所述目标元素包含的区域。

在一种可能的设计中,还包括:获取模块,用于在将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配之前,截取模板软件界面的界面图像;

通过光学字符识别OCR技术,或者预先训练的深度学习模型,从所述模板软件界面的界面图像中提取出所有界面元素作为候选元素;

从所述候选元素中选取目标元素,以及与所述目标元素关联的第一锚点元素;其中,所述第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;

根据所述目标元素和所述第一锚点元素,生成所述目标元素的特征信息;所述目标元素的特征信息包括:所述目标元素与所述第一锚点元素之间的位置关系,以及所述第一锚点元素对应的类别信息、位置信息、文本信息。

在一种可能的设计中,还包括:重叠度判断模块,用于:

将所述分布信息对应的区域和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;

若所述重叠阈值大于预设值,则执行对目标元素的访问。

在一种可能的设计中,还包括:

反馈模块,用于在所述重叠阈值不大于预设值时,确定所述目标元素无效,反馈匹配失败提示信息。

第三方面,本公开还提供一种电子设备,包括:

处理器;以及,

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任意一种结合RPA与AI的软件界面元素的匹配方法。

第四方面,本公开实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意一种结合RPA与AI的软件界面元素的匹配方法。

本公开提供一种结合RPA与AI的软件界面元素的匹配方法及装置,通过采用OCR技术提取当前软件界面中的界面元素;将目标元素的特征信息与所述当前软件界面中的界面元素进行匹配,得到所述目标元素在当前软件界面上的分布信息;根据所述分布信息,执行对所述目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

附图说明

为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的应用场景图;

图2为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的流程示意图;

图3为本公开根据另一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的流程示意图;

图4为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配装置的结构示意图;

图5为本公开根据另一示例实施例示出的结合RPA与AI的软件界面元素的匹配装置的结构示意图;

图6为本公开根据一示例实施例示出的电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在机器人流程自动化(Robotic Process Automation,RPA)领域,为了实现流程的自动化,软件机器人需要经常访问软件界面上的控件元素(简称界面元素),并针对这些界面元素进行操作,以执行相应的操作任务。现有技术中,为了保证自动化流程的准确性,软件机器人在运行流程时,需要精准地匹配目标元素的位置并对其进行自动化操作。在远程桌面或虚拟机等应用场景,一般是通过计算机视觉的技术检测界面元素,并提取其特征属性作为在流程运行时界面元素的匹配依据。然而,这种匹配方式并不稳定,很容易导致目标元素匹配错误或匹配失败,使得自动化流程的准确度低下。

针对上述技术问题,本公开提供一种结合RPA与AI的软件界面元素的匹配方法及装置,可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。图1为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的应用场景图,如图1所示,软件界面中的界面元素主要包括文本、图标与控件。一般情况下,控件元素都会存在一个文本元素(Label)对其进行标识,如:按钮按件里面一般存在一段简单的文本标识该按钮的功能(如:“确定”或“取消”等);输入框按件的左侧或上侧一般也会存在一段简单的文本标识该输入框的功能(如:“用户名”或“密码”等);因此,在对界面元素进行匹配查找时,可以充分地利用这些作为标识用的Label信息进行辅助。这些Label信息即本公开中所说的“锚点”。下面对“锚点”作更一般的定义与说明。“锚点”可理解为参照点,类似路标,形态稳定不变(位置可以变动),很容易被辨识,且是全局唯一的。在这里,“锚点”可以是图标,也可以是一段文本。因此,对文本元素,通过光学字符识别OCR技术进行检测,检测出界面中每一段文本的位置及其文字内容;针对图标与控件元素,可以通过基于深度学习目标检测算法(如SSD\Faster R-CNN等)检测出界面中图标与控件元素所在的位置及类别。

然后,软件机器人可以根据第一锚点元素对应的类别信息、位置信息、文本信息,从当前软件界面中的查找与第一锚点元素匹配的第二锚点元素;根据目标元素与第一锚点元素之间的位置关系,以及第二锚点元素在当前软件界面中的位置,确定目标元素在当前软件界面上的分布信息。第一锚点元素是指模板软件界面的锚点,第二锚点元素是指当前软件界面的锚点,锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素。若锚点元素为图标,则采用模板匹配的方式进行匹配查找;若锚点元素为文本,则采用字符串匹配的方式进行匹配查找。因此,可以在当前软件界面中的查找与第一锚点元素匹配的第二锚点元素。然后,结合模板软件界面中目标元素与第一锚点元素之间的位置关系,以及第二锚点元素在当前软件界面中的位置,确定目标元素在当前软件界面上的分布信息,从而可以确定目标元素的区域范围,作为候选区域。界面元素的分布信息可以用至少一个形状点的坐标信息、目标元素的尺寸信息来描述,形状点可以是界面元素的顶点或者是界面元素的中心点。矩形界面元素的分布信息可以用四个顶点来描述,而圆形界面元素的分布信息可以用中心点来描述。例如圆形的界面元素(圆形按钮),知道圆心位置和圆的半径,即可确定界面元素的区域。根据锚点区域对应的坐标信息与界面元素的对应的坐标信息之间的坐标换算关系,可以很快确定界面元素形状点的坐标,进而确定界面元素所在的位置坐标和尺寸大小等信息。

最后,在获取到目标元素的分布信息之后,可以对目标元素进行访问,例如对目标元素的拾取与模拟操作。在一种可能的实施方式中,在根据分布信息,执行对目标元素的访问操作之前,还包括:将分布信息对应的区域内的目标元素和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;若重叠阈值大于预设值,则确定目标元素有效。若重叠阈值不大于预设值,则确定目标元素无效,反馈匹配失败提示信息。

应用上述方法可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

图2为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的流程示意图,如图2所示,本实施例提供的方法可以包括:

步骤101、采用光学字符识别(Optical Character Recognition,OCR)技术提取当前软件界面中的界面元素。

本实施例中,软件机器人可以截取当前软件界面的界面图像。然后,通过光学字符识别OCR技术,或者预先训练的深度学习模型,从界面图像中提取出所有界面元素。

具体地,软件界面中的界面元素主要包括文本、图标与控件。一般情况下,控件元素都会存在一个文本元素(Label)对其进行标识,如:按钮按件里面一般存在一段简单的文本标识该按钮的功能(如:“确定”或“取消”等);输入框按件的左侧或上侧一般也会存在一段简单的文本标识该输入框的功能(如:“用户名”或“密码”等);因此,在对界面元素进行匹配查找时,可以充分地利用这些作为标识用的Label信息进行辅助。这些Label信息即本公开中所说的“锚点”。下面对“锚点”作更一般的定义与说明。“锚点”可理解为参照点,类似路标,形态稳定不变(位置可以变动),很容易被辨识,且是全局唯一的。在这里,“锚点”可以是图标,也可以是一段文本。因此,对文本元素,通过光学字符识别OCR技术进行检测,检测出界面中每一段文本的位置及其文字内容;针对图标与控件元素,可以通过基于深度学习目标检测算法(如SSD\Faster R-CNN等)检测出界面中图标与控件元素所在的位置及类别。

步骤102、将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息。

本实施例中,软件机器人可以根据第一锚点元素对应的类别信息、位置信息、文本信息,从当前软件界面中的查找与第一锚点元素匹配的第二锚点元素;根据目标元素与第一锚点元素之间的位置关系,以及第二锚点元素在当前软件界面中的位置,确定目标元素在当前软件界面上的分布信息;分布信息包括:目标元素的至少一个形状点的坐标信息、目标元素的尺寸信息;其中,形状点用于界定目标元素包含的区域。

具体地,第一锚点元素是指模板软件界面的锚点,第二锚点元素是指当前软件界面的锚点,锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素。若锚点元素为图标,则采用模板匹配的方式进行匹配查找;若锚点元素为文本,则采用字符串匹配的方式进行匹配查找。因此,可以在当前软件界面中的查找与第一锚点元素匹配的第二锚点元素。然后,结合模板软件界面中目标元素与第一锚点元素之间的位置关系,以及第二锚点元素在当前软件界面中的位置,确定目标元素在当前软件界面上的分布信息,从而可以确定目标元素的区域范围,作为候选区域。界面元素的分布信息可以用至少一个形状点的坐标信息、目标元素的尺寸信息来描述,形状点可以是界面元素的顶点或者是界面元素的中心点。矩形界面元素的分布信息可以用四个顶点来描述,而圆形界面元素的分布信息可以用中心点来描述。例如圆形的界面元素(圆形按钮),知道圆心位置和圆的半径,即可确定界面元素的区域。根据锚点区域对应的坐标信息与界面元素的对应的坐标信息之间的坐标换算关系,可以很快确定界面元素形状点的坐标,进而确定界面元素所在的位置坐标和尺寸大小等信息。

步骤103、根据分布信息,执行对目标元素的访问操作。

本实施例中,在获取到目标元素的分布信息之后,可以对目标元素进行访问,例如对目标元素的拾取与模拟操作。

在一种可能的实施方式中,在根据分布信息,执行对目标元素的访问操作之前,还包括:将分布信息对应的区域和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;若重叠阈值大于预设值,则执行对目标元素的访问。

具体地,将得到的候选区域与步骤101中解析出的界面元素做重叠度检测IOU(Intersection over Union)。若IOU结果大于设定的阀值,则认为该候选区域有效。

在另一种可能的实施方式中,若重叠阈值不大于预设值,则确定候选区域无效,反馈匹配失败提示信息。

在一种可能的实施方式中,当存在多个锚点元素,且基于每个锚点元素确定的候选区域不同时,将得到的候选区域与步骤101中解析出的界面元素做重叠度检测IOU,确定IOU结果大于设定阈值的候选区域,对IOU结果大于设定阈值的候选区域匹配的界面元素执行访问操作。

在一种可能的实施方式中,当存在多个锚点元素,且基于每个锚点元素确定的候选区域不同时,将得到的候选区域与步骤101中解析出的界面元素做重叠度检测IOU,确定与各候选区域的综合匹配度最高的界面元素,执行对该界面元素的访问操作。其中,界面元素与各候选区域的综合匹配度,可以是界面元素与各候选区域的匹配度之和,也可以通过其他预设方式,确定综合匹配度,本申请不限于此。

具体地,软件机器人还可以在匹配失败时,向用户以提示信息的方式进行反馈。其中,匹配失败是指分布信息对应的区域内的目标元素和当前软件界面中的界面元素的重叠阈值不大于预设值。

本实施例,通过提取当前软件界面中的界面元素;将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

图3为本公开根据另一示例实施例示出的结合RPA与AI的软件界面元素的匹配方法的流程示意图,如图3所示,本实施例提供的方法可以包括:

步骤201、获取模板软件界面第一锚点元素和目标元素的特征信息。

本实施例中,可以截取模板软件界面的界面图像;通过光学字符识别OCR技术,或者预先训练的深度学习模型,从模板软件界面的界面图像中提取出所有界面元素作为候选元素;从候选元素中选取目标元素,以及与目标元素关联的第一锚点元素;其中,第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;根据目标元素和第一锚点元素,生成目标元素的特征信息;目标元素的特征信息包括:目标元素与第一锚点元素之间的位置关系,以及第一锚点元素对应的类别信息、位置信息、文本信息。

具体地,还可以截取模板软件界面的界面图像。针对文本元素,通过OCR技术进行检测,检测出界面中每一段文本的位置及其文字内容;针对图标与控件元素,可以通过基于深度学习目标检测算法(如SSD\Faster R-CNN等)检测出界面中图标与控件元素所在的位置及类别。将提取出的所有界面元素作为候选元素,指定待操作的目标元素以及辅助该目标元素查找的锚点元素。以邮箱登陆界面为例,输入框控件即为待操作的目标元素,而用户名或密码等文本即可选为锚点元素。根据目标元素与锚点元素等信息,生成特征信息并保存至RPA流程源码中,特征信息主要包括目标元素的类别、位置;锚点元素的类别、位置及文本内容等信息。在匹配时,可以进行锚点元素的匹配,然后通过匹配到的锚点元素确定目标元素在当前软件界面上的位置。具体匹配的实施方式,此处不再赘述。

步骤202、采用OCR技术提取当前软件界面中的界面元素。

步骤203、将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息。

步骤204、根据分布信息,执行对目标元素的访问操作。

本实施例中,步骤202~步骤204的具体实现过程和技术原理请参见图2所示的方法中步骤101~步骤103中的相关描述,此处不再赘述。

本实施例,通过提取当前软件界面中的界面元素;将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

另外,本实施还可以截取模板软件界面的界面图像;通过光学字符识别OCR技术,或者预先训练的深度学习模型,从模板软件界面的界面图像中提取出所有界面元素作为候选元素;从候选元素中选取目标元素,以及与目标元素关联的第一锚点元素;其中,第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;根据目标元素和第一锚点元素,生成目标元素的特征信息;目标元素的特征信息包括:目标元素与第一锚点元素之间的位置关系,以及第一锚点元素对应的类别信息、位置信息、文本信息。

图4为本公开根据一示例实施例示出的结合RPA与AI的软件界面元素的匹配装置的结构示意图。如图4所示,本实施例的结合RPA与AI的软件界面元素的匹配装置可以包括:

提取模块31,用于采用光学字符识别(Optical Character Recognition,OCR)技术提取当前软件界面中的界面元素;

匹配模块32,用于将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息;

执行模块33,用于根据分布信息,执行对目标元素的访问操作。

在一种可能的设计中,提取模块31,具体用于:

截取当前软件界面的界面图像;

通过光学字符识别OCR技术,或者预先训练的深度学习模型,从界面图像中提取出所有界面元素。

在一种可能的设计中,匹配模块32,具体用于:

根据第一锚点元素对应的类别信息、位置信息、文本信息,从当前软件界面中的查找与第一锚点元素匹配的第二锚点元素;

根据目标元素与第一锚点元素之间的位置关系,以及第二锚点元素在当前软件界面中的位置,确定目标元素在当前软件界面上的分布信息;分布信息包括:目标元素的至少一个形状点的坐标信息、目标元素的尺寸信息;其中,形状点用于界定目标元素包含的区域。

本实施例提供的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本实施例,通过提取当前软件界面中的界面元素;将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

在图4所示实施例的基础上,图5为本公开根据另一示例实施例示出的结合RPA与AI的软件界面元素的匹配装置的结构示意图,如图5所示,本实施例提供的结合RPA与AI的软件界面元素的匹配装置,还包括:

获取模块34,用于在将目标元素的特征信息与当前软件界面中的界面元素进行匹配之前,截取模板软件界面的界面图像;

通过光学字符识别OCR技术,或者预先训练的深度学习模型,从模板软件界面的界面图像中提取出所有界面元素作为候选元素;

从候选元素中选取目标元素,以及与目标元素关联的第一锚点元素;其中,第一锚点元素包括:形态不变的图标元素、文本元素、按键元素中的任一或任多项元素;

根据目标元素和第一锚点元素,生成目标元素的特征信息;目标元素的特征信息包括:目标元素与第一锚点元素之间的位置关系,以及第一锚点元素对应的类别信息、位置信息、文本信息。

在一种可能的设计中,还包括:重叠度判断模块35,用于:

将分布信息对应的区域和当前软件界面中的界面元素进行重叠度检测,得到重叠阈值;

若重叠阈值大于预设值,则执行对目标元素的访问。

在一种可能的设计中,还包括:

反馈模块36,用于在重叠阈值不大于预设值时,确定目标元素无效,反馈匹配失败提示信息。

本实施例提供的装置,可以用于执行图2、图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本实施例,通过提取当前软件界面中的界面元素;将目标元素的特征信息与当前软件界面中的界面元素进行匹配,得到目标元素在当前软件界面上的分布信息;根据分布信息,执行对目标元素的访问操作。从而可以提升机器人流程自动化过程中对软件界面上的界面元素的匹配准确度,实现方式简单,效果稳定可靠。

图6为本公开根据一示例实施例示出的电子设备的结构示意图。如图6所示,本实施例提供的一种电子设备40,包括:

处理器401;以及,

存储器402,用于存储处理器的可执行指令,该存储器还可以是flash(闪存);

其中,处理器401配置为经由执行可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地,存储器402既可以是独立的,也可以跟处理器401集成在一起。

当存储器402是独立于处理器401之外的器件时,电子设备40,还可以包括:

总线403,用于连接处理器401以及存储器402。

本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子设备执行上述的各种实施方式提供的方法。

本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。

最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号