首页> 中国专利> 结合RPA与AI的文献检索方法、装置、设备及存储介质

结合RPA与AI的文献检索方法、装置、设备及存储介质

摘要

本公开提供一种结合RPA与AI的文献检索方法、装置、设备及存储介质。本实施例提供的文献检索方法,获取自然语言描述的检索条件;对所述检索条件进行分析,得到至少一个检索单元;根据所述检索单元对网站中的文献进行检索,得到检索结果。从而可以支持自动化检索,提高检索效率和检索结果的准确率。

著录项

说明书

技术领域

本公开涉及大数据处理技术领域,具体涉及RPA(Robotic Process Automation,机器人流程自动化)技术、AI(Artificial Intelligence,人工智能)技术,尤其涉及一种结合RPA与AI的文献检索方法、装置、设备及存储介质。

背景技术

机器人流程自动化(Robotic Process Automation,简称:RPA)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。

人工智能(Artificial Intelligence,简称AI)是研究、开发用于模拟、延伸和扩展人智能的理论、方法、技术及应用系统的一门新技术科学。人工智能领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

现有技术中,信息部门根据各方业务部门需求检索文献时,一般是采用人工方式判断检索条件。如果检索条件中包含网站定位信息,则直接通过浏览器打开相应的网站进行检索;如果检索条件中不包含网站信息或者仅包含模糊条件,则需要逐个打开各网站检索,然后综合选择最优匹配结果。但是,当并发大量文献检索业务需求时,这种检索方式的检索效率低下,需要耗费大量的人工成本。

发明内容

本公开提供一种结合RPA与AI的文件检索方法、装置、设备及存储介质,可以支持自动化检索,提高检索效率和检索结果的准确率。

第一方面,本公开提供一种结合RPA与AI的文献检索方法,包括:

获取自然语言描述的检索条件;

对所述检索条件进行分析,得到至少一个检索单元;

根据所述检索单元对网站中的文献进行检索,得到检索结果。

在一种可能的设计中,所述获取自然语言描述的检索条件,包括:

接收用户终端通过对话机器人或H5表单上传的检索条件。

在一种可能的设计中,所述对所述检索条件进行分析,得到至少一个检索单元,包括:

通过自然语言处理技术(Natural Language Processing,简称NLP)对所述检索条件进行分解,得到至少一个检索单元;所述检索单元包括:作者、标题、DOI、期刊、PMID、模糊检索关键字、格式、数量、结果发送邮箱中的任一项或者多项。

在一种可能的设计中,所述根据所述检索单元对网站中的文献进行检索,得到检索结果,包括:

若所述检索单元中包含有网站定位信息,则根据所述网站定位信息,确定目标网站;

基于所述检索单元对应的信息,依次从各个目标网站中搜索与所述检索单元匹配的检索结果;

若所述检索单元中不包含网站定位信息,则基于所述检索单元对应的信息,从全网中搜索与所述检索单元匹配的检索结果。

在一种可能的设计中,基于所述检索单元对应的信息,依次从各个目标网站中搜索与所述检索单元匹配的检索结果,包括:

将检索单元作为检索任务依次存入任务队列,按照检索任务的先后顺序打开所述目标网站,输入所述检测单元对应的信息,得到与所述检索单元匹配的检索结果。

在一种可能的设计中,当所述检索结果的数量大于1时,所述方法还包括:

将类别为标题、检索关键字以外的至少一个所述检索单元作为影响因素;

根据所述影响因素的优先级或者权重,通过AI排序模型对所述检索结果进行综合排序,返回排序后的检索结果。

在一种可能的设计中,还包括:

将所述检索结果发送到用户指定的文件夹和/或邮箱。

第二方面,本公开还提供一种结合RPA与AI的文献检索装置,包括:

获取模块,用于获取自然语言描述的检索条件;

分析模块,用于对所述检索条件进行分析,得到至少一个检索单元;

检索模块,用于根据所述检索单元对网站中的文献进行检索,得到检索结果。

在一种可能的设计中,所述获取模块,具体用于:

接收用户终端通过对话机器人或H5表单上传的检索条件。

在一种可能的设计中,所述分析模块,具体用于:

通过自然语言处理技术(Natural Language Processing,简称NLP)对所述检索条件进行分解,得到至少一个检索单元;所述检索单元包括:作者、标题、DOI、期刊、PMID、模糊检索关键字、格式、数量、结果发送邮箱中的任一项或者多项。

在一种可能的设计中,所述检索模块,具体用于:

若所述检索单元中包含有网站定位信息,则根据所述网站定位信息,确定目标网站;

基于所述检索单元对应的信息,依次从各个目标网站中搜索与所述检索单元匹配的检索结果;

若所述检索单元中不包含网站定位信息,则基于所述检索单元对应的信息,从全网中搜索与所述检索单元匹配的检索结果。

在一种可能的设计中,所述检索模块,具体用于:

将检索单元作为检索任务依次存入任务队列,按照检索任务的先后顺序打开所述目标网站,输入所述检测单元对应的信息,得到与所述检索单元匹配的检索结果。

在一种可能的设计中,还包括:排序模块,用于当所述检索结果的数量大于1时,将类别为标题、检索关键字以外的至少一个所述检索单元作为影响因素;

根据所述影响因素的优先级或者权重,通过AI排序模型对所述检索结果进行综合排序,返回排序后的检索结果。

在一种可能的设计中,还包括:

发送模块,用于将所述检索结果发送到用户指定的文件夹和/或邮箱。

第三方面,本公开还提供一种结合RPA与AI的电子设备,包括:

处理器;以及,

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任意一种结合RPA与AI的文献检索方法。

第四方面,本公开实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任意一种结合RPA与AI的文献检索方法。

本公开提供一种结合RPA与AI的文献检索方法、装置、设备及存储介质,通过获取自然语言描述的检索条件;对所述检索条件进行分析,得到至少一个检索单元;根据所述检索单元对网站中的文献进行检索,得到检索结果。从而可以支持自动化检索,提高检索效率和检索结果的准确率。

附图说明

为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本公开根据一示例实施例示出的结合RPA与AI的文件检索方法的应用场景图;

图2为本公开根据一示例实施例示出的结合RPA与AI的文献检索方法的流程示意图;

图3为本公开根据另一示例实施例示出的结合RPA与AI的文献检索方法的流程示意图;

图4为本公开根据一示例实施例示出的结合RPA与AI的文献检索装置的结构示意图;

图5为本公开根据另一示例实施例示出的结合RPA与AI的文献检索装置的结构示意图;

图6为本公开根据一示例实施例示出的结合RPA与AI的电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中,信息部门根据各方业务部门需求检索文献时,一般是采用人工方式判断检索条件。如果检索条件中包含网站定位信息,则直接通过浏览器打开相应的网站进行检索;如果检索条件中不包含网站信息或者仅包含模糊条件,则需要逐个打开各网站检索,然后综合选择最优匹配结果。但是,当并发大量文献检索业务需求时,这种检索方式的检索效率低下,需要耗费大量的人工成本。

针对上述技术问题,本公开提供一种结合RPA与AI的文件检索方法、装置、设备及存储介质,可以支持自动化检索,提高检索效率和检索结果的准确率。图1为本公开根据一示例实施例示出的结合RPA与AI的文件检索方法的应用场景图,如图1所示,搜索引擎或者服务器可以获取自然语言描述的检索条件,然后对检索条件进行分解,得到至少一个检索单元。其中,检索单元可以是作者、标题、DOI、期刊、PMID、模糊检索关键字、格式、数量、结果发送邮箱中的任一项或者多项。若检索单元中包含有网站定位信息,则搜索引擎或者服务器根据网站定位信息,确定目标网站;基于检索单元对应的信息,依次从各个目标网站中搜索与检索单元匹配的检索结果。若检索单元中不包含网站定位信息,则搜索引擎或者服务器基于检索单元对应的信息,从全网中搜索与检索单元匹配的检索结果。举例而言,“帮我找一下2009年以后的关于安维汀治疗乳腺癌的ASCO文献,要中山医院发表的PPT格式文献”这条检索条件,可以通过NLP技术对该检索条件进行词法分析和句法分析,以提取检索关键词进而生成不同的检索单元,比如,这条自然语言可以被分解为“2009年以后”、“安维汀治疗乳腺癌”、“ASCO”、“中山医院”、“PPT”等5个检索单元。其中,“2009年以后”是对文献时限的要求,“安维汀治疗乳腺癌”是对文献主题关键字的要求、“ASCO”是对检索网站的要求、“中山医院”是对文献作者单位的要求、“PPT”是对文献格式的要求。这些检索单元构成了搜索引擎或者服务器的全部检索因素。因此,搜索引擎或者服务器会打开ASCO网站,输入框中输入“安维汀治疗乳腺癌”这个关键字,得到多个检索结果。同时,会获取多个检索结果中的多个文献及文献对应的标题、发表日期、文献格式、作者信息等信息。因此,可以继续将发表时间与检索单元信息中的“2009年以后”、作者信息与检索单元信息中的“中山医院”、文献格式与检索单元信息中的“PPT”进行匹配,返回最终的检索结果。同时,检索单元之间也可以有权重或者优先级区分,例如在检索时,标题和关键字是最重要的检索依据。在上述例子中,首先可以“安维汀治疗乳腺癌”这个关键字进行检索。当有多个检索结果时,可以将发表时间要求、作者信息要求、文献格式要求作为附加信息进行检索或者排序。例如,当全部符合条件的文献排在第一位,将仅文献格式不符合要求的排在第二位等等。还可以在获取到多个检索结果之后,获取多个检索结果中的多个文献及文献对应的标题、发表日期、文献格式等信息,并返回给排序模型。排序模型会比较“标题/关键字”“日期”“文献格式”等,找出最符合所有检索单元的top1或topn项。

应用上述方法可以支持自动化检索,提高检索效率和检索结果的准确率。

图2为本公开根据一示例实施例示出的结合RPA与AI的文献检索方法的流程示意图,如图2所示,本实施例提供的方法可以包括:

步骤101、获取自然语言描述的检索条件。

本实施例中,可以接收用户终端通过对话机器人或H5表单上传的检索条件。

具体地,RPA系统可自动启动检索业务APP,然后输入登录账号和密码,以登录业务APP。在成功登录后,用户可以通过业务APP端嵌入的Chatbot对话机器人或H5表单上传用自然语言描述的检索需求。搜索引擎或者服务器获取该检索需求,作为进行文献检索的条件。例如“帮我找一下2009年以后的关于安维汀治疗乳腺癌的ASCO文献,要中山医院发表的PPT格式文献”这句自然语言描述的检索需求,即是搜索引擎或者服务器获取到的全部检索条件。

步骤102、对检索条件进行分析,得到至少一个检索单元。

本实施例中,可以通过自然语言处理(Natural Language Processing,简称NLP)技术对检索条件进行分解,得到至少一个检索单元;检索单元包括:作者、标题、DOI、期刊、PMID、模糊检索关键字、格式、数量、结果发送邮箱中的任一项或者多项。

具体地,在文献检索过程中,标题、DOI、期刊、PMID、模糊检索关键字、格式都是文献的重要字段。DOI的全称是“digital object identifier”,数字对象唯一标识,被喻为“互联网上的条形码”、“科技论文的身份证”,通过它可以方便、可靠地链接到论文全文。DOI代码具有唯一性,这种特性保证了在网络环境下对数字化对象的准确提取,有效地避免重复。PMID(PubMed唯一标识码,PubMed Unique Identifier),用于为PubMed搜索引擎中收录的生命科学和医学等领域的文献编号。一条由自然语言描述的检索条件可以被分解为N个检索单元。例如,“帮我找一下2009年以后的关于安维汀治疗乳腺癌的ASCO文献,要中山医院发表的PPT格式文献”这条检索条件,这条自然语言被分解为“2009年以后”、“安维汀治疗乳腺癌”、“ASCO”、“中山医院”、“PPT”等5个检索单元。“2009年以后”是对文献时限的要求,“安维汀治疗乳腺癌”是对文献主题关键字的要求、“ASCO”是对检索网站的要求、“中山医院”是对文献作者单位的要求、“PPT”是对文献格式的要求。这些检索单元构成了搜索引擎或者服务器的全部检索因素。

步骤103、根据检索单元对网站中的文献进行检索,得到检索结果。

本实施例中,若检索单元中包含有网站定位信息,则根据网站定位信息,确定目标网站;基于检索单元对应的信息,依次从各个目标网站中搜索与检索单元匹配的检索结果;若检索单元中不包含网站定位信息,则基于检索单元对应的信息,从全网中搜索与检索单元匹配的检索结果。

具体地,如果N个检索单元中有一个单元含有网站定位信息,即是指向某个网站的,例如:DOI、PMID等,则直接通过浏览器打开目标网站,在检索框中输入其他检索单元信息,例如文献标题或关键字进行文献检索。若检索单元中不包含网站定位信息,则根据检索单元信息从全网中进行检索。需要说明的是,并非每个检索单元都可以输入检索框,比如作者或日期单元作为检索条件的话,很难快速获得符合文献标题或检索关键字的结果。反之,通过文献标题或关键字检索出来一篇文献后,可以顺便获取该文献的作者或日期等字段,与原检索单元中的作者或日期单元进行比较,以确认检索结果的合理性。

可选地,基于检索单元对应的信息,依次从各个目标网站中搜索与检索单元匹配的检索结果,包括:将检索单元作为检索任务依次存入任务队列,按照检索任务的先后顺序打开目标网站,输入检测单元对应的信息,得到与检索单元匹配的检索结果。

具体地,以“帮我找一下2009年以后的关于安维汀治疗乳腺癌的ASCO文献,要中山医院发表的PPT格式文献”这个检索条件为例,在S102中被分解为“2009年以后”、“安维汀治疗乳腺癌”、“ASCO”、“中山医院”、“PPT”等5个检索单元,其中“ASCO”单元用于定位网站,属于定位网站信息。因此,会打开ASCO网站,输入框中输入“安维汀治疗乳腺癌”这个关键字,得到多个检索结果。同时,会获取多个检索结果中的多个文献及文献对应的标题、发表日期、文献格式、作者信息等信息。因此,可以继续将发表时间与检索单元信息中的“2009年以后”、作者信息与检索单元信息中的“中山医院”、文献格式与检索单元信息中的“PPT”进行匹配,返回最终的检索结果。

可选地,当检索结果的数量大于1时,方法还包括:将类别为标题、检索关键字以外的至少一个检索单元作为影响因素;根据影响因素的优先级或者权重,通过AI排序模型对检索结果进行综合排序,返回排序后的检索结果。

具体地,检索单元之间也可以有权重或者优先级区分,例如在检索时,标题和关键字是最重要的检索依据。在上述例子中,首先可以“安维汀治疗乳腺癌”这个关键字进行检索。当有多个检索结果时,可以将发表时间要求、作者信息要求、文献格式要求作为附加信息进行检索或者排序。例如,当全部符合条件的文献排在第一位,将仅文献格式不符合要求的排在第二位等等。还可以在获取到多个检索结果之后,获取多个检索结果中的多个文献及文献对应的标题、发表日期、文献格式等信息,并返回给排序模型。排序模型会比较“标题/关键字”“日期”“文献格式”等,找出最符合所有检索单元的top1或topn项。

需要说明的是,搜索引擎或者服务器也支持多任务并行处理,即可以对多条检索条件进行检索,也可以对一条检索条件的多种检索单元的信息进行组合进行检索,还可以进行全匹配检索或模糊检索,返回一个或者多个检索结果。

在一种实施方式中,本发明实施例通过机器人流程自动化(Robotic ProcessAutomation,RPA)机器人执行。本发明实施例中的任务队列,为RPA机器人的任务队列。

本实施例,通过获取自然语言描述的检索条件;采用NLP技术对检索条件进行分析,得到至少一个检索单元;根据检索单元对网站中的文献进行检索,得到检索结果。从而可以支持自动化检索,提高检索效率和检索结果的准确率。

图3为本公开根据另一示例实施例示出的结合RPA与AI的文献检索方法的流程示意图,如图3所示,本实施例提供的方法可以包括:

步骤201、获取自然语言描述的检索条件。

步骤202、采用NLP技术对检索条件进行分析,得到至少一个检索单元。

步骤203、根据检索单元对网站中的文献进行检索,得到检索结果。

本实施例中,步骤201~步骤203的具体实现过程和技术原理请参见图2所示的方法中步骤101~步骤103中的相关描述,此处不再赘述。

步骤204、将检索结果发送到用户指定的文件夹和/或邮箱。

本实施例中,用户还可以设置指定文件夹或者邮箱,用于接收检索结果。在搜索引擎或者服务器获得检索结果之后,可以将检索结果发送到用户指定文件夹或者邮箱。

需要说明的是,本实施例不限定指定文件夹或邮箱的设定方式,可以是在用户端上进行手工设置,也可以在输入检索单元时,通过自然语言输入。例如,用户在“帮我找一下2009年以后的关于安维汀治疗乳腺癌的ASCO文献,要中山医院发表的PPT格式文献,保存到C盘的检索文献目录下”,搜索引擎或者服务器在S202步骤对检索条件进行分解时,会得到“C盘的检索文献”的信息。在S204步骤中,就可以将检索结果发送到“C:\检索文献”进行保存。

本实施例,通过获取自然语言描述的检索条件;采用NLP技术对检索条件进行分析,得到至少一个检索单元;根据检索单元对网站中的文献进行检索,得到检索结果。从而可以支持自动化检索,提高检索效率和检索结果的准确率。

另外,本实施例还可以将检索结果发送到用户指定的文件夹和/或邮箱。从而可以支持自动化检索,提高检索效率和检索结果的准确率。

图4为本公开根据一示例实施例示出的结合RPA与AI的文献检索装置的结构示意图。如图4所示,本实施例的结合RPA与AI的文献检索装置可以包括:

获取模块31,用于获取自然语言描述的检索条件;

分析模块32,用于对检索条件进行分析,得到至少一个检索单元;

检索模块33,用于根据检索单元对网站中的文献进行检索,得到检索结果。

在一种可能的设计中,获取模块31,具体用于:

接收用户终端通过对话机器人或H5表单上传的检索条件。

在一种可能的设计中,分析模块32,具体用于:

通过自然语言处理技术对检索条件进行分解,得到至少一个检索单元;检索单元包括:作者、标题、DOI、期刊、PMID、模糊检索关键字、格式、数量、结果发送邮箱中的任一项或者多项。

在一种可能的设计中,检索模块33,具体用于:

若检索单元中包含有网站定位信息,则根据网站定位信息,确定目标网站;

基于检索单元对应的信息,依次从各个目标网站中搜索与检索单元匹配的检索结果;

若检索单元中不包含网站定位信息,则基于检索单元对应的信息,从全网中搜索与检索单元匹配的检索结果。

在一种可能的设计中,检索模块33,具体用于:

将检索单元作为检索任务依次存入任务队列,按照检索任务的先后顺序打开目标网站,输入检测单元对应的信息,得到与检索单元匹配的检索结果。

本实施例提供的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本实施例,通过获取自然语言描述的检索条件;采用NLP技术对检索条件进行分析,得到至少一个检索单元;根据检索单元对网站中的文献进行检索,得到检索结果。从而可以支持自动化检索,提高检索效率和检索结果的准确率。

在图4所示实施例的基础上,图5为本公开根据另一示例实施例示出的结合RPA与AI的文献检索装置的结构示意图,如图5所示,本实施例提供的结合RPA与AI的文献检索装置,还包括:

排序模块34,用于当检索结果的数量大于1时,将类别为标题、检索关键字以外的至少一个检索单元作为影响因素;

根据影响因素的优先级或者权重,通过AI排序模型对检索结果进行综合排序,返回排序后的检索结果。

在一种可能的设计中,还包括:

发送模块35,用于将检索结果发送到用户指定的文件夹和/或邮箱。

本实施例提供的装置,可以用于执行图2、图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本实施例,通过获取自然语言描述的检索条件;采用NLP技术对检索条件进行分析,得到至少一个检索单元;根据检索单元对网站中的文献进行检索,得到检索结果。从而可以支持自动化检索,提高检索效率和检索结果的准确率。

另外,本实施例还可以将检索结果发送到用户指定的文件夹和/或邮箱。从而可以支持自动化检索,提高检索效率和检索结果的准确率。

图6为本公开根据一示例实施例示出的结合RPA与AI的电子设备的结构示意图。如图6所示,本实施例提供的一种结合RPA与AI的电子设备40,包括:

处理器401;以及,

存储器402,用于存储处理器的可执行指令,该存储器还可以是flash(闪存);

其中,处理器401配置为经由执行可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地,存储器402既可以是独立的,也可以跟处理器401集成在一起。

当存储器402是独立于处理器401之外的器件时,电子设备40,还可以包括:

总线403,用于连接处理器401以及存储器402。

本实施例还提供一种可读存储介质,可读存储介质中存储有计算机程序,当电子设备的至少一个处理器执行该计算机程序时,电子设备执行上述的各种实施方式提供的结合RPA与AI的文献检索方法。

本实施例还提供一种程序产品,该程序产品包括计算机程序,该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的结合RPA与AI的文献检索方法。

最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号