首页> 中国专利> 一种领域专家精准匹配推荐系统及方法

一种领域专家精准匹配推荐系统及方法

摘要

本申请公开了一种领域专家精准匹配推荐系统及方法,系统包括:领域专家数据采集模块、数据存储模块、专家匹配规则模块、数据更新模块、专家筛选匹配模块、更新匹配规则模块、专家推荐排序模块、展示结果模块;方法包括:对领域专家的历史数据进行采集;保存采集到的领域专家的数据;采用缓存技术保存专家匹配规则;判断传递过来的数据是否合格;通过正则表达式匹配的模式,检查一个专家的相关内容是否含有某种子字符串或者从某个字符串中取出符合某个条件的子字符串,根据不同搜索规则,制定对应的解析方法;按照预先准备好的专家画像,将所述解析后的数据序列填充领域对应的排序因子;显示所述检索结果。本申请能够准确地返回用户指定领域的专家信息,节省了用户的检索时间成本。

著录项

  • 公开/公告号CN112861010A

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利号CN202110230178.5

  • 发明设计人 智强;姚兰;

    申请日2021-03-02

  • 分类号G06F16/9535(20190101);G06F16/9538(20190101);G06F16/957(20190101);

  • 代理机构11794 北京知汇林知识产权代理事务所(普通合伙);

  • 代理人董涛

  • 地址 100084 北京市海淀区逸成东苑5号楼3单元5层504室

  • 入库时间 2023-06-19 11:08:20

说明书

技术领域

本发明属于互联网应用技术领域,具体涉及一种领域专家精准匹配推荐系统及方法。

背景技术

目前,在全球化和信息化的互联网大背景下,互联网产业迅速发展。自互联网广泛应用,市场日趋成熟以来,产品提供的存储内容整理,用户的行为数据采集,已然成为各行业各种应用的最基础功能。面对互联网日益更新,不断加强的技术和大量涌入的技术从业人员,这也促成了国内外的各大搜索应用平台的发展和升级。

搜索服务,有两个共性问题需要解决,第一,匹配质量需要提升。我们很多时候在百度上检索固定领域专家,会有很多非领域专家的信息,包括有些无关内容。一般我们匹配完毕,结果会返回很多的内容,我们还要进行过滤,有时候很难直接确定结果。另外,单一的搜索平台,内容复杂,综合内容也较多,需要用户人工筛选,还有不少重要的2度关联内容,无法检索出来。因此,在匹配推荐算法日益精进的局面下,搜索精度,也是尤为重要的。单独针对各领域专家,单对专家的搜索,是非常重要的,也是非常突出的。

互联网的普及带来信息的极速增长,用户需要花费大量的时间才能获取需要的信息,信息的快速增长就对信息的使用效率起了降低的反作用。也就是我们时常说的信息超载问题。这是目前市面上的匹配搜索产品存在的共性问题。在信息过载的同时就存在信息实时更新的相关问题,更新效率低和信息更新多,会带来影响匹配结果及推荐结果优先排序过慢的问题。

在领域专家的匹配过程中,我们很难将专家的领域,进行细分归纳,相对于信息过载的问题,专家的细分问题,恰恰是,相关的搜索数据过于少。用户行为整理不到位。大多数都来自于论文搜索,专利搜索的数据。因为细分问题,精准匹配时,难度就相对较大。效率与成熟的用户行为匹配推荐相比,效率就会略低。

我们各领域的行业专家,所在的机构,由于数据采集来自不同的平台,那么数据的规则性较差,整理匹配推荐的结果,非常容易就结果重复,机构对应的地域确认,整合推荐也就非常的困难。

各领域的技术分词,对专业要求相较于生活类等其它常见类目来说,是难度相当大的。每个领域都是有自己的专有名词,那么在名词的归类和分词过程中,现有的技术的区分,就存在模糊的问题。

综上所述,针对各领域专家无法精确匹配以及搜索效率受到影响的问题,尚未提出有效解决方案。

发明内容

为解决现有技术中的不足,本申请提出一种领域专家精准匹配推荐系统及方法,用来解决各领域专家无法精确匹配以及搜索效率受到影响的问题。

一方面,本申请提出一种领域专家精准匹配推荐系统,包括:

领域专家数据采集模块、数据存储模块、专家匹配规则模块、数据更新模块、专家筛选匹配模块、更新匹配规则模块、专家推荐排序模块、展示结果模块;

所述领域专家数据采集模块与所述数据存储模块相连接,所述数据存储模块分别与所述专家匹配规则模块以及所述数据更新模块相连接,所述专家匹配规则模块分别与所述专家筛选匹配模块、所述数据更新模块以及所述更新匹配规则模块相连接,所述专家筛选匹配模块分别与所述更新匹配规则模块以及所述专家推荐排序模块相连接,所述专家推荐排序模块与所述展示结果模块相连接;

所述领域专家数据采集模块,用于对领域专家的历史数据进行采集,并将采集到的数据发送到所述数据存储模块;

所述数据存储模块,用于保存所述领域专家数据采集模块采集到的领域专家的数据,并根据所述专家匹配规则模块的需要,发送给所述专家匹配规则模块;

所述专家匹配规则模块,用于采用缓存技术保存专家匹配规则,根据用户手动输入的专家关键词,利用所述专家关键词在搜索引擎进行搜索,搜索到的数据流直接进行序列化,并保存序列化后的专家匹配规则,当调用专家匹配规则时,从所述数据存储模块中调用所需数据,并将调用的所需数据传递给所述数据更新模块,并将所述数据更新模块检查合格的数据传递到所述专家筛选匹配模块中;

所述数据更新模块,用于判断传递过来的数据是否合格,如果数据合格则通知所述专家匹配规则模块所述传递过来的数据合格,如果数据不合格,则通知所述数据存储模块,所述传递过来的数据不合格,需要进行修正。

所述专家筛选匹配模块,用于接收所述专家匹配规则模块传递过来的数据,通过正则表达式匹配的模式,检查一个专家的相关内容是否含有某种子字符串或者从某个串中取出符合某个条件的子字符串,根据不同搜索规则,制定对应的解析方法,将解析后的数据序列传递给所述专家推荐排序模块;

所述更新匹配规则模块,用于更新匹配规则,并将更新后的匹配规则传递给所述所述专家匹配规则模块;

所述专家推荐排序模块,用于接收所述专家筛选匹配模块传递过来的解析后的数据序列,按照预先准备好的专家画像,将所述解析后的数据序列填充领域对应的排序因子,将填充后的专家画像作为检索结果,返回给所述展示结果模块;

所述展示结果模块,用于显示所述检索结果。

所述展示结果模块与所述应用模块相连接,所述应用模块用于对用户手动输入的专家关键词检索匹配条件进行传输,并对所述检索结果进行输出,展示给用户。

所述用户手动输入的专家关键词包括:姓名、领域、内容、所在机构;所述所在机构包括:国内外各大高校、行政机构。

所述缓存技术,采用Redis的开源应用,并使用Mysql数据库和JDK自身虚拟机缓存;

所述专家筛选匹配模块,具有数据清洗功能,所述数据清洗包括:无意义的转义字符,标记符号、空行、回车。

所述领域对应的排序因子包括:专家机构排名、来源网站排名、研究领域论文被引数量、专家的科研成果数量、专家h因子。

另一方面,本申请提出一种领域专家精准匹配推荐方法,采用所述领域专家精准匹配推荐系统实现,包括如下步骤:

对领域专家的历史数据进行采集,并将采集到的数据发送到所述数据存储模块;

保存所述领域专家数据采集模块采集到的领域专家的数据,并根据所述专家匹配规则模块的需要,发送给所述专家匹配规则模块;

采用缓存技术保存专家匹配规则,根据用户手动输入的专家关键词,利用所述专家关键词在搜索引擎进行搜索,搜索到的数据流直接进行序列化,并保存序列化后的专家匹配规则,当调用专家匹配规则时,从所述数据存储模块中调用所需数据,并将调用的所需数据传递给所述数据更新模块,并将所述数据更新模块检查合格的数据传递到所述专家筛选匹配模块中;

判断传递过来的数据是否合格,如果数据合格则通知所述专家匹配规则模块所述传递过来的数据合格,如果数据不合格,则通知所述数据存储模块,所述传递过来的数据不合格,需要进行修正。

接收所述专家匹配规则模块传递过来的数据,通过正则表达式匹配的模式,检查一个专家的相关内容是否含有某种子字符串或者从某个字符串中取出符合某个条件的子字符串,根据不同搜索规则,制定对应的解析方法,将解析后的数据序列传递给所述专家推荐排序模块;

接收所述专家筛选匹配模块传递过来的解析后的数据序列,按照预先准备好的专家画像,将所述解析后的数据序列填充领域对应的排序因子,将填充后的专家画像作为检索结果,返回给所述展示结果模块;

显示所述检索结果。

所述搜索根据用户检索的条件颗粒度,包括精确,指定标签模糊,全内容匹配;所述条件颗粒度,提供各种选项,包括:默认系统推荐、姓名、机构、地域、领域、标签、专利、论文、项目、荣誉、H因子范围。

所述专家匹配规则,为数据D、数据D1、数据D2,数据D3、数据D4,数据D5的一种或者多种的组成的矩阵组合,所述数据D包括:垂直地域;所述数据D1包括:专家地域;所述数据D2包括:专家h因子、专家g因子;所述数据D3包括:专家论文数、专利数、成果数;所述数据D4包括:关键词、标题、内容;所述数据D5包括:特殊人才标记。

所述检索结果,若匹配的专家数量较少,则由JDk提供的STREAM流模式来处理,若匹配的专家数量较多,则利用数据库的索引排序字段进行ORDER排序。

本申请所达到的有益效果:

1、本申请中,通过设计解决了普遍的搜索引擎,一般方法是将专家数据集中存在数据库中进行搜索,但是这种方法需要占用较多的CPU运行资源,也需要在数据维护成本和用户体验之间进行取舍的问题,能准确的返回用户指定领域的专家信息,无需在搜索引擎中进行2次人为筛选确认,节省了用户的检索时间成本。

2、本申请中,通过设计能整合专家所在领域的技术词汇数据,避免搜索词搜索不到对应领域专家的问题。

3、本申请中,通过设计专家排序,可以为匹配结果负责,推荐到能够真正解决问题,对单个领域有影响力的专家。数据缓存的简化方式,也节省了大量的数据归纳和曝光的维护成本。

附图说明

图1为本申请实施例的一种领域专家精准匹配推荐系统原理框图;

图2为本申请实施例的一种领域专家精准匹配推荐方法流程图;

图3为本申请实施例的垂直地域举例示意图;

其中,1-领域专家数据采集模块、2-数据存储模块、3-专家匹配规则模块、4-数据更新模块、5-专家筛选匹配模块、6-更新匹配规则模块、7-专家推荐排序模块、8-展示结果模块,9-应用模块。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。

一方面,本申请提出一种领域专家精准匹配推荐系统,如图1所示,包括:

领域专家数据采集模块1、数据存储模块2、专家匹配规则模块3、数据更新模块4、专家筛选匹配模块5、更新匹配规则模块6、专家推荐排序模块7、展示结果模块8;

所述领域专家数据采集模块1与所述数据存储模块2相连接,所述数据存储模块2分别与所述专家匹配规则模块3以及所述数据更新模块4相连接,所述专家匹配规则模块3分别与所述专家筛选匹配模块5、所述数据更新模块4以及所述更新匹配规则模块6相连接,所述专家筛选匹配模块5分别与所述更新匹配规则模块6以及所述专家推荐排序模块7相连接,所述专家推荐排序模块7与所述展示结果模块8相连接;

所述领域专家数据采集模块1,用于对领域专家的历史数据进行采集,并将采集到的数据发送到所述数据存储模块2;

所述数据存储模块2,用于保存所述领域专家数据采集模块1采集到的领域专家的数据,并根据所述专家匹配规则模块的需要,发送给所述专家匹配规则模块3;

所述专家匹配规则模块3,用于采用缓存技术保存专家匹配规则,根据用户手动输入的专家关键词,利用所述专家关键词在搜索引擎进行搜索,搜索到的数据流直接进行序列化,并保存序列化后的专家匹配规则,当调用专家匹配规则时,从所述数据存储模块2中调用所需数据,并将调用的所需数据传递给所述数据更新模块4,并将所述数据更新模块4检查合格的数据传递到所述专家筛选匹配模块5中;所述缓存技术,当第一用户检索专家A时,其检索结果保存在所述专家匹配规则模块中,当所述专家匹配规则模块中缓存还保留专家A的检索结果时,此时第二用户检索专家A,系统直接从所述专家匹配规则模块调取专家A的检索结果,这便节省了很多检索时间;所述专家匹配规则模块满足先进先出原则,当所述专家匹配规则模块的缓存中已经不存在专家A的检索结果时,此时若第三用户仍然检索专家A,则系统需要重新进行检索,不会在所述专家匹配规则模块中直接调取检索结果。

所述数据更新模块6,用于判断传递过来的数据是否合格,如果数据合格则通知所述专家匹配规则模块3所述传递过来的数据合格,如果数据不合格,则通知所述数据存储模块,所述传递过来的数据不合格,需要进行修正。

所述专家筛选匹配模块5,用于接收所述专家匹配规则模块传递过来的数据,通过正则表达式匹配的模式,检查一个专家的相关内容是否含有某种子字符串或者从某个串中取出符合某个条件的子字符串,根据不同搜索规则,制定对应的解析方法,将解析后的数据序列传递给所述专家推荐排序模块7;

所述更新匹配规则模块6,用于更新匹配规则,并将更新后的匹配规则传递给所述所述专家匹配规则模块5;

所述专家推荐排序模块7,用于接收所述专家筛选匹配模块传递过来的解析后的数据序列,按照预先准备好的专家画像,将所述解析后的数据序列填充领域对应的排序因子,将填充后的专家画像作为检索结果,返回给所述展示结果模块;

所述展示结果模块8,用于显示所述检索结果。

所述展示结果模块8与所述应用模块9相连接,所述应用模块9用于对用户手动输入的专家关键词检索匹配条件进行传输,并对所述检索结果进行输出,展示给用户。

所述用户手动输入的专家关键词包括:,姓名、领域、内容、所在机构;所述所在机构包括:国内外各大高校、行政机构。

所述缓存技术,采用Redis的开源应用,并使用Mysql数据库和JDK自身虚拟机缓存;

所述专家筛选匹配模块,具有数据清洗功能,所述数据清洗包括:无意义的转义字符,标记符号、空行、回车。

所述领域对应的排序因子包括:专家机构排名、来源网站排名、研究领域论文被引数量、专家的科研成果数量、专家h因子。

组成用户交互模块,领域专家数据采集1与应用模块9,其作用在于,用于对用户的输入的检索匹配条件进行传输,对后台的处理结果进行输出展示给用户,数据存储模块2起作用在,用于根据用户输入的专家检索条件进行存储,在不同的领域专家匹配规则中更新领域专家的检索条件,并返回给用户交互模块供用户进一步选择,专家匹配规则模块3起作用在于,用于根据用户选择好的检索专家的关键信息,在多个分组栏目中进行选择,专家匹配规则与数据更新模块4起作用在于,用于对用户检索专家的机器学习,做到自动更新匹配规则,专家匹配规则模块3获取的匹配条件数据进行降噪处理,对数据的无意义转义字符、标记符号等匹配规则进行清洗,专家筛选匹配模块5起作用在于,用于将专家匹配规则模块3过滤后的匹配规则,与数据存储模块2的缓存设计进行数据交换,如果已有检索,就可以直接读取,否则进行数据排队处理,处理过程也包含简化匹配检索的技术。更新匹配规则模块6其作用在,用于对新匹配的数据,进行缓存更新。专家推荐排序模块7,将更新匹配规则模块6中匹配到的家列表,进行序列化处理,针对不同的领域及专家的重要指标和影响因子h,将结构化的数据填充到专家画像的画布中,最终形成专家的画像,将结果返回给用户与应用模块9结合。

另一方面,本申请提出一种领域专家精准匹配推荐方法,采用所述领域专家精准匹配推荐系统实现,如图2所示,包括如下步骤:

步骤1:对领域专家的历史数据进行采集,并将采集到的数据发送到所述数据存储模块;

步骤2:保存所述领域专家数据采集模块采集到的领域专家的数据,并根据所述专家匹配规则模块的需要,发送给所述专家匹配规则模块;

步骤3:采用缓存技术保存专家匹配规则,根据用户手动输入的专家关键词,利用所述专家关键词在搜索引擎进行搜索,搜索到的数据流直接进行序列化,并保存序列化后的专家匹配规则,当调用专家匹配规则时,从所述数据存储模块中调用所需数据,并将调用的所需数据传递给所述数据更新模块,并将所述数据更新模块检查合格的数据传递到所述专家筛选匹配模块中;

步骤4:判断传递过来的数据是否合格,如果数据合格则通知所述专家匹配规则模块所述传递过来的数据合格,如果数据不合格,则通知所述数据存储模块,所述传递过来的数据不合格,需要进行修正。

步骤5:接收所述专家匹配规则模块传递过来的数据,通过正则表达式匹配的模式,检查一个专家的相关内容是否含有某种子字符串或者从某个字符串中取出符合某个条件的子字符串,根据不同搜索规则,制定对应的解析方法,将解析后的数据序列传递给所述专家推荐排序模块;

步骤6:接收所述专家筛选匹配模块传递过来的解析后的数据序列,按照预先准备好的专家画像,将所述解析后的数据序列填充领域对应的排序因子,将填充后的专家画像作为检索结果,返回给所述展示结果模块;

步骤7:显示所述检索结果。

所述搜索根据用户检索的条件颗粒度,包括精确,指定标签模糊,全内容匹配。所述条件颗粒度,提供各种选项,包括:默认系统推荐、姓名、机构、地域、领域、标签、专利、论文、项目、荣誉、H因子范围。

所述精确,即精确检索,准确检索用户输入的内容,其检索结果必须与用户输入内容及字数完全一致。

所述指定标签模糊,只要有一个标签与用户检索想匹配即为检索结果。

所述全内容匹配,其检索范围更大,包括领域专家数据采集模块中该专家论文的内容以及摘要的内容,通常检索时间要更长些。

部署WEB服务器,收集信息,这里通过专业技术进行专家数据爬取和清洗。通过专家检索平台PC端、手机端进行数据匹配,默认返回领域专家等应用,包括用户的以往匹配检索历史的规则收集。匹配规模和领域专家的数量,进行归纳用户的匹配模型,匹配检索系数S级权重分析。根据用户检索的条件颗粒度、分为精确S1,指定标签模糊S2,全内容匹配S3三级系数。

所述专家匹配规则,为数据D、数据D1、数据D2,数据D3、数据D4,数据D5的一种或者多种的组成的矩阵组合,所述数据D包括:垂直领域;所述数据D1包括:专家地域;所述数据D2包括:专家h因子、专家g因子;所述数据D3包括:专家论文数、专利数、成果数;所述数据D4包括:关键词、标题、内容;所述数据D5包括:特殊人才标记。

通过不同的专家对应的垂直领域D,专家地域D1,专家h因子、g因子D2,专家论文数、专利数、成果数D3,关键词、标题、内容D4,特殊人才标记D5,配合步骤1中的检索权重,进行批量处理数据,包括对以往数据的有效性结果分析,使用。筛选后的垂直领域D,专家地域D1,垂直地域如图2所示,每个机构对应的地域优先级都有所不同,专家h因子、g因子D2,专家论文数、专利数、成果数D3,关键词、标题、内容D4,特殊人才标记D5,按比不同的搜索匹配内容例进入分析模型。经过匹配规则的整理,才能进入下一个匹配阶段,并且进行匹配规则的数据更新。

领域专家的匹配,使用权重S作为基础积数,数据D、D1、D2,D4,D5,按照顺序进行匹配整理数据。以专家地域整理为例,source表示来源,org表示机构,包含二级甚至不规范的机构,由A组矩阵,B组矩阵,得到融合的C组矩阵,从而衍生褚D等,匹配规则矩阵。

匹配或根据定时任务整理的推荐结果,会有排序分析,除了机器分析,还有人工标记的功能,可以维护专家的优先级排列,针对返回结果。如果匹配的专家数量较少,则由JDk提供的STREAM流模式来处理,如果数据较多,则利用数据库的索引排序字段进行ORDER排序。排序的结果,会通过网络传输,利用http,post的请求方式,回传数据给多媒体设备。

此系统及方法,含有机器学习智能化整理匹配规则,应用第三方缓存工具进行缓存,快速匹配结果,并支持定时更新,领域专家的结果进行优先级排序,正序、倒序、进行展示,将有效数据包装成可追溯的领域专家画像,提供给应用平台进行展示,并且支持结合第三方推送通道进行推荐功能,高耦合的配合平台的其他系统工作。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号