公开/公告号CN115114426A
专利类型发明专利
公开/公告日2022-09-27
原文格式PDF
申请/专利权人 同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司;
申请/专利号CN202210856262.2
申请日2022-07-14
分类号G06F16/335(2019.01);G06F16/33(2019.01);G06F16/31(2019.01);G06F16/36(2019.01);
代理机构北京天奇智新知识产权代理有限公司 11340;
代理人陈新胜
地址 100192 北京市海淀区西小口路66号东升科技园北领地A2楼
入库时间 2023-06-19 17:09:24
法律状态公告日
法律状态信息
法律状态
2022-10-18
实质审查的生效 IPC(主分类):G06F16/335 专利申请号:2022108562622 申请日:20220714
实质审查的生效
2022-09-27
公开
发明专利申请公布
技术领域
本发明涉及自然语言处理领域和计算机信息处理技术领域,尤其涉及一种基于专家信息和评标文件以及改进的关键词打分算法的评审专家推荐方法。
背景技术
项目招投标过程中,在开标前需要由招标人在专家库中抽取专家组成评标委员会。对于一般招标项目,通常可以采取随机抽取的方式确定。对于特殊招标项目,由于其专业要求较高,技术要求复杂,需要由招标人在相关专业的专家名单中选择合适的专家。
在这个过程中首先要求招标人熟悉当前项目,明确当前项目涉及的内容所属专业,然后进行选择。目前在各类评标项目的专家选择阶段,大多数的政府部门,科技单位、企业等仍然采用人工选择的方式。这种人工选择的方式往往存在很大的弊端,有时各类机构的评标立项活动会集中在某一个时间段内同时进行,这种时候需要选拔的专家数量较多,同时需要考虑每个项目的专家分配情况,会造成大量的人力资源消耗,也会出现分配不合理的现象。而在人工遴选评标专家时,首先需要评标人对待评审的评标项目进行分析,确定评标项目所涉及的专业,再从相应的专业中分析专家的研究方向与项目涉及的方向是否相吻合,进而确定评标专家。通常专家往往具备多个研究方向,单纯的依靠人工进行所有科研项目的分析,无法保证遴选人员对评标项目所涉及领域具有正确的判断,因而将导致所邀请的评审专家研究领域与待评审的评标项目领域不匹配的问题。这在一定程度上会对项目评审结果造成不良影响。因此,为提升科研项目的评审质量,针对领域科研项目评审专家的推荐具有重要的研究意义。
目前,推荐算法主要应用于电商、新闻、音乐等领域,针对评标文件评审专家的推荐算法的研究较少。现有关于评标专家的推荐方法大多围绕专家的评标地域、专家基本信息等实现专家推荐。针对具体项目的评标方法较少。现有评标专家推荐方法并没有兼容专家的学术信息,且上述的推荐方法并没有考虑专家与评标项目的适配度。本发明采用自然语言处理技术利用专家评标经理信息、专家学术信息,评标文件等内容设计一套基于关键词的评审专家推送方法。首先使用一套关键词库提取备选关键词保证信息维度的一致性,其次补充专家的学术数据,基于关键词的专家推荐方法能够综合考虑专家信息的维度并弥补当前评标专家推荐方法适配度较低的问题。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于关键词打分的评审专家推荐方法。
本发明的目的通过以下的技术方案来实现:
一种基于关键词打分的评审专家推荐方法,包括:,
基于关键词打分的评审专家推荐方法,其特征在于,
A根据评论专家库中的专家信息补充专家学术信息并处理;
B根据专家的基本信息及专家学术数据构建专业词汇词典;
C根据专业词汇词典提取专家备选关键词和项目备选关键词;
D确定专家关键词及项目关键词,并通过关键词的匹配,推荐合适的专家。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该方法首先实用一套关键词库提取备选关键词保证信息维度的一致性,其次补充专家的学术数据,基于关键词的专家推荐方法能够综合考虑专家信息的维度并弥补当前评标专家推荐方法适配度较低的问题。
附图说明
图1是基于关键词打分的评审专家推荐方法流程图;
图2是基于关键词的专家推荐流程图;
图3是专业词汇词典构建流程图;
图4是专业词汇词典构建结果图;
图5是专家关键词提取结果图;
图6是项目关键词提取结果图;
图7是基于关键词的专家推荐结果图;
图8是基于关键词相似匹配的专家推荐结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1和图2所示,为基于关键词打分的评审专家推荐方法,包括
步骤10根据评论专家库中的专家信息补充专家学术信息并处理;
步骤20根据专家的基本信息及专家学术数据构建专业词汇词典;
步骤30根据专业词汇词典提取专家备选关键词和项目备选关键词;
步骤40确定专家关键词及项目关键词,并通过关键词的匹配,推荐合适的专家。
上述步骤10具体包括:
1、专家学术数据补充及预处理:
针对专家数据的补充主要有以下几步:
(1)首先根据专家姓名及单位等基本信息从知网数据源中匹配相关专家,对于匹配到多个基本信息一致的专家,采用人工的方式对专家进行审核。
(2)补充专家库基本信息:研究领域、研究方向、专家学科、专家关键词等。
(3)补充专家学术信息:专利数据名称、专利数据摘要、专利数据关键词、学位数据名称、学位数据摘要、学位数据关键词、期刊数据名称、期刊数据摘要、期刊数据关键词、会议数据名称、会议数据摘要、报纸数据名称等。
针对专家数据处理的补充主要有以下几步:
(1)去除各字段中的特殊的字符、连接符等;将字段中的繁体转换成中文简体。
(2)由于专家源信息及知网匹配的多个字段信息中存在相同类型的数据。需要对不同类型的数据按数据类别进行合并。合并后得类别有:研究领域、学术数据、评审品目、项目数据、专业、知网关键词。
(3)根据专家数据的完整度实现专家评级。
2、项目数据预处理
采用评标文件提取项目信息,主要有以下几个步骤:
(1)评标文件碎片化存储,提取文件中的篇章及字符。
(2)评标文件较多的章节并不是介绍项目信息,而是界定整个评标流程包括合同说明等,这会导致使用整个评标文件去提取关键词不准确,因此需要首先提取项目招标公告章节。
上述步骤20具体包括:利用补充后的专家信息采用新词发现算法经人工及规则筛选后构建专业词汇词典,并将专业词典存入数据库中,词典构建流程如图3所示。
评标专家库中往往包含专家的评审品目,专家的评标经历、成果业绩等等信息,结合知网数据库,我们还能得到专家以往发表期刊文献的数据,这些数据中通常涉及较多的领域词汇,这些领域词汇往往不常见,利用新词发现算法可以筛选出此类词汇。对于给定的专家数据,采用基于凝固度及自由度的新词发现算法得到备选专业词汇经过人工及规则筛选得到专业词汇词典(构建结果及存储如图4所示)。
基于凝固度与自由度的新词发现是经典的新词发现算法,凝固度就是一个字组合片段里面字与字之间的紧密程度。比如“琉璃”、“榴莲”这样的词的凝固度就非常高,而“买单”、“组合”这样的词的凝固度就比较低。自由度就是一个字组合片段能独立自由运用的程度。比如“巧克力”里面的“巧克”的凝固度就很高,和“巧克力”一样高,但是它自由运用的程度几乎为零,所以“巧克”不能单独成词。通过凝固度与自由度的计算,通过阈值选择可以得到特殊文本中常见分词工具得不到的新词。
首先利用N-gram得到原文本中的所有可能成词的字组合,并统计词频。
计算凝固度词汇的凝固程度,凝固度越大,其组成一个新词的可能性也就越大。其中,I(x,y)代表由字x及字y组成的新词凝固度,P(x,y)代表字x及字y联合出现的概率。
计算左右熵,左右熵值越大,说明该词的周边词越丰富,意味着词的自由程度越大,其成为一个独立的词的可能性也就越大。其中,EL代表左熵,ER代表右熵,P(W
上述步骤30具体包括:
1、基于TF-IDF的关键词打分模型
TF-IDF:词频-逆文件频率,是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF(Term Frequency,词频)表示词条在文本中出现的频率。其中n
IDF(Inverse Document Frequency,逆文件频率)表示关键词的普遍程度。如果包含某词条的文档越少,则该词条IDF越大,则说明该词条具有很好的类别区分能力。其中,|D|代表文本总数量,d
TF-IDF倾向于过滤掉常见的词语,保留重要的词语,表达为:
TF-IDF=TF*IDF (6)
2、基于专家关键词的打分模型改进
由于专家信息分为多个不同类型,根据实际的需求一些类别的信息在数据获取过程中可能较为困难,会存在信息不全面,信息有误等情况。且在提取专家关键词时,我们更倾向于提取有关专家的研究领域、研究方向等更具领域代表性的关键词。
因此,在为专家关键词进行打分时,通过专家信息分配权重的方式对打分模型进行改进。
首先根据信息类型配置初始权重,在初始权重基础上,针对不同的词进行调整,调整原则如下:
(1)某字段某关键词在大多数人的该字段均有出现则在初始权重基础上适当惩罚。
(2)某字段某关键词仅在某个人的该字段出现则在初始权重基础上适当奖励。
表达为如下公式,其中W′
TF-IDF=TF*IDF*w
其中W′
3、基于项目关键词的打分模型改进
基于项目关键词的打分模型,尽管一定程度上缩小了提取项目关键词的范围,但仍然存在比如:“合同条款”“投标文件”“投标人”等词,且这种词出现的次数非常多,且这种词在该项目中出现次数几乎大多数评标文件中相对都会较多的出现尽管在打分时尽量避免此类词出现的次数的影响,但由于词出现次数太多,分值仍然相对较高。因此考虑对打分模型进行改进,弱化TF值影响,强化IDF值影响。
改进后的TF值即NTF表达为公式9,其中n
改进后的IDF值即NIDF表达为公式10,其中,|D|代表文本总数量,d
改进后的TF-IDF值表打为:
TF-IDF=NTF*NIDF。 (11)
上述步骤40具体包括
1、基于关键词权值的专家推荐
由于专家关键词及项目关键词的打分模型改进方式不同,两种方法计算出的关键词打分值分布区间有所不同,因此在匹配专家时,需要对专家及项目关键词重新分配权重。由于在关键词提取时已经对关键词进行排序,并选择了前N个关键词,那么关键词的顺序已经表达了关键词对专家及项目的重要程度。因此,我们根据关键词的位置为关键词重新分配权重,分配方式如下,其中k代表关键词的数量,i代表关键词的位置,w
在专家推荐时,根据匹配到的关键词及关键词在项目和专家中的全职,推荐匹配数量越多,且关键词权值越高的专家。推荐值具体表达如下,其中k表示关键词,k
最后依据关键词推荐值,选择前N个专家进行推荐。
2、基于关键词相似匹配的专家推荐
为了更好地满足评标人对于专家推荐的需求,本发明还设计了一种基于关键词相似匹配的专家推荐方法。评标人可以根据自身的需求,选择1至n个关键词,采用基于字符串的相似匹配,返回不同关键词所匹配的专家。
基于字符串的相似匹配采用基于编辑距离的文本相似度,通俗来讲,编辑距离Edit Distance(ED),是指将一个字符串转化为另一个字符串所需的最少操作数。操作通常包含增加、删除和修改。假设有两个字符串A、B,其长度分别为L
增加操作:
d
删除操作:
d
修改操作:
取这三个中的最小的一个即为最小编辑距离。所以可以得到一个状态转移方程,ED
最小编辑距离计算相似度如下,其中similarity代表字符串A和B的相似度,ED
上述关键词的提取,首先使用N-gram方法对专家不同维度的信息进行分词,保留不同维度中出现在专业词汇词典中的词,配置初始权重信息并使用改进的专家关键词打分模型对保留的词进行打分选择前30个作为专家关键词。
初始权重配置原则如下:
研究领域、学术数据>评审品目>项目数据、专业>知网关键词
专家关键词提取结果采用mysql数据库存储,具体结果即存储方式如图5所示。
上述项目关键词的提取,首先提取评标文件中的招标公告章节,然后招标公告章节的文字使用n-gram进行分词保留出现在专业词汇词典中的所有词。使用改进的项目关键词打分模型进行打分。采用mysql数据库存储,具体结果及存储方式如图6所示。
上述专家推荐是基于项目关键词提取结果及专家关键词提取结果得到的,可以首先根据关键词采用基于关键词权值的方法从匹配广度上推荐一批专家。专家匹配结果(如图7所示)。
根据接口返回项目关键词,客户可以选择关键词,针对不同的关键词采用相似匹配的方式各返回一批匹配上的专家。基于关键词相似匹配的结果如图8所示。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
机译: 基于打分参考产生打分推荐的方法和系统
机译: 基于打分参考产生打分推荐的方法和系统
机译: 基于内容的流入关键词和相关关键词的内容推荐方法和装置