首页> 中国专利> 基于多维特征均衡的电子政务项目评价专家组推荐方法

基于多维特征均衡的电子政务项目评价专家组推荐方法

摘要

电子政务项目具有更多的行政管理内涵,这使得电子政务项目评价专家组的知识结构对于项目管理具有十分重要的作用。基于认知科学理论和心理学理论,专家个体的多种特征差异是导致认知差异和情感极性差异的根本原因。专家组作为均衡这种差异的群体决策方法,其是否更加有效的问题实际应建立在专家组多种特征均衡的组成方法之上。据此,刻画专家特征、实现基于特征均衡的专家组推荐方法对于电子政务项目评价的一致性并提升项目评价总体水平具有重要的基础价值。本成果用于项目评价前的专家抽取阶段,可以大幅度提升专家组与被评项目间的符合性、多维特征均衡性,进而提升项目评价的结果一致性水平。

著录项

  • 公开/公告号CN113254642A

    专利类型发明专利

  • 公开/公告日2021-08-13

    原文格式PDF

  • 申请/专利权人 华斌;吴诺;贺欣;

    申请/专利号CN202110589302.7

  • 发明设计人 华斌;吴诺;贺欣;

    申请日2021-05-28

  • 分类号G06F16/35(20190101);G06F16/36(20190101);G06F40/211(20200101);G06F40/295(20200101);G06F40/30(20200101);

  • 代理机构

  • 代理人

  • 地址 300222 天津市河西区珠江道25号

  • 入库时间 2023-06-19 12:13:22

说明书

1、技术领域

计算机科学与技术(人工智能、知识工程)、科学技术管理与情报学、知识计量学、知识管理、文本处理技术

2、背景技术

(1)科学技术管理与情报学

科学学的研究更加注重对于专家研究专长与所评价项目的一致性、专家阅历与权威性等要素,目的是尽可能实现同行评价,解决复杂的知识边界带来的认知差异问题。情报学的研究侧重具有特定知识类型的专家发现方法,是科学学研究的方法论之一。

科学技术管理中,元评价理论针对专家评价问题提供了理解专家评价质量偏差的方法。元评价指标主要包括偏差系数、变异系数等基于评分数据构建的客观指标。

(2)知识计量学

知识计量学是专家专长识别的基础理论,知识计量学中定义了知识元作为知识计量的基本单位。专家意见作为一个知识单元,是由不同的知识元按照不同结构组成的类比基础。科技文献实际上就是不同的知识单元,在科技文献中可以通过文本挖掘技术获取知识元。

在评价目标导向的专家特征定义基础上,以电子政务项目评审过程中累积的专家意见作为主要元评价的数据源,利用知识挖掘、知识计量的基本方法实现对专家多维特征的刻画,进而完成基于多维特征均衡的专家组推荐方法具有问题针对性与合理性。

(3)知识管理

以电子政务项目评审专家具备时间连续性的项目评价打分表与专家意见短文本为数据源,对专家意见进行文本挖掘,完成知识获取。以同时刻形成的专家组综合打分与专家组意见文本作为类比依据评价专家的水平等。包含以下内容:

①建立项目知识概念树:项目知识概念树实际上是一种针对评价目标的、具有标准概念的分层知识表示方法。项目知识概念树的作用在这里是支持对专家评审意见实体进行分层语义识别,可以支持基于SAO结构的依存句法分析对专家意见文本进行结构化处理后,实现基于概念树的SAO结构语义映射,从而实现对专家意见文本中的实体进行不同概念层次的语义识别。

②建立电子政务项目知识本体:项目知识本体可以比较完整地表示项目背景知识,也是知识融合的语义规范。电子政务项目知识本体的概念与概念间的关系来自于电子政务项目管理的相关标准与规定。

③意见挖掘技术:意见挖掘是专家意见文本中知识获取的有效手段。短文本意见挖掘的难点在于短文本中对意见元素的表达具有形式多样或非显式的方式,在中文语境中则更加难以理解。自动化的短文本理解需要依赖额外的知识,这些知识可以帮助机器充分挖掘短文本中词与词之间的联系,如语义相关性。

④知识聚合技术:从知识管理视角看,专家组的知识结构可以用组内多位专家的知识结构聚合来进行刻画。专家组的情感极性、评价经验则可以通过科学计量来呈现,进而可以计算专家组的多维特征。

(4)文本处理技术

常规文本处理技术:包括项目评价指标打分表的整理,利用电子政务项目的标准与管理规范训练项目的概念词库,辅之以同义词、近义词构成的基础词库。利用开源工具Hanlp对专家意见文本进行分句、分词、词性标注、去除无意义的停用词,利用依存句法分析识别语句SAO(主谓宾)结构,进行多主语或多宾语的意见句拆分,将包含多评价对象的复杂句细化为多个只包含唯一评价对象的SAO结构简单句等。

(5)情感分析技术

利用深度学习模型对专家意见语句进行情感倾向判定,利用RNN、LSTM、BIRNN、BILSTM四种分类器进行情感分类对比,得到最优的语义确定、情感倾向确定的意见集。

3、发明内容

本成果采用在评价目标导向的专家特征定义基础上,以电子政务项目评审过程中累积的专家意见作为主要元评价内容,利用知识挖掘、知识计量的基本方法可以实现对专家的针对性多维特征刻画,进而完成基于多维特征均衡的专家组推荐。具体步骤与方法分别描述如下:

(1)知识补充与知识表示

为实现专家意见中的知识元获取与分类,定义微观层的项目知识概念树层次化地表达项目概念知识与概念间的语义层次;在宏观层引入领域知识本体表示项目知识,支持知识扩充与关联、知识变换以实现隐性知识发现;从而支撑知识元获取与分类的目标。构成概念树与本体的知识均来自国家标准及对电子政务项目的相关管理政策。

(2)基于分层语义识别的知识获取

专家意见知识获取旨在获取专家意见中的知识元,为专家知识结构刻画、情感极性分析提供基础。该策略分别在词汇层(分词和词性标注)、句法层(命名实体识别和语法分析)、语义层(语义识别)进行知识挖掘与获取。

针对评审意见的短文本特征,在语法分析基础上对专家意见进行SAO(subject-action-object)提取以实现结构化知识的获取,再以概念树支撑分层语义识别,挖掘出专家意见评价特征,利用深度学习模型构建情感分类器获得情感极性。该部分具体包括如下内容:

①命名实体识别

通过投票法集成HMM、CRF、BILSTM、BILSTM-CRF四种命名实体识别方法在政务职能实体抽取中得到较好的结果。在此以专家评审意见文本为数据,首先利用开源工具Hanlp对专家意见文本初步分句、分词、词性标注、去除停用词,然后将其分词特征Xi、词性特性POSi融入命名实体标注以提高集成模型效果。在抽取的同时形成领域实体词库。

②内在语义分析与结构化知识获取

利用依存句法分析,对多主语或多宾语并列的意见句进行拆分,抽取到细粒度的SAO结构化知识,将其作为基础语义单元来表示专家意见,主语S和宾语O主要表示被评价对象,一般为名词、动名词等,这些词或词组所组成的主语或宾语与项目概念语义紧密相关。

③评价特征分层语义识别

SAO结构化后的评审意见需要针对主语和宾语进行评价特征分层语义识别,得到针对性强的细粒度评价特征。由于不同专家在概念表达上存在差异,采用精准匹配和基于文本最大相似度的模糊匹配方法综合实现基于概念树的概念语义映射,以得到较好的分层语义识别效果,其方法如下:

1)精准匹配方法

对于SAO结构文本SAO

2)模糊匹配方法

在意见文本结构化形成过程中,为不破坏专家意见完整性,保留形容词、副词、介词、连词等修饰性词语。但在利用文本相似度计算的模糊匹配中,必须利用分词并通过词性筛选去除修饰性词语以提高准确性,保留主要词语集合S

因此,将概念集合C中的概念c

其中sim(s

④非结构化知识获取定义

由于短文本中存在语言书写的不规范问题,部分意见的语法分析效果不佳,必然导致SAO结构化知识抽取错误而无法识别文本中的内在语义关系。总结意见中出现的三种主要问题并自定义相关规则以再定位知识,如表1所示。

表1 专家意见非SAO结构化知识语义分析

(3)专家多维特征选取与计算

专家特征选取具有明确的目标约束性--电子政务项目评价知识约束。专家基于自身知识结构对项目做出评价,本质上是一种评价主体和客体间的知识交换活动。电子政务项目作为政务职能建设的信息化工程,对专家知识结构的广度有更多要求。据此,以领域概念树与领域知识本体为参考,定义专家知识结构四个构成元素以进行的知识分类,如表2所示。

表2 专家知识结构定义表

借鉴元评价理论与客观元评价指标的基本理论,定义知识水平、评审深刻性、情感风格、领域专长为专家多维特征刻画指标。这一定义综合考虑了专家知识能力和影响专家评审的心理因素以及相关信息的可获取性。专家特征的内在逻辑解释见表3。

表3 专家多维特征评价指标

①知识水平

依据表2中知识水平定义,该指标测度设计具体如公式(3-5):

其中

Level

②评审深刻性

本文认为专家越具有深刻性的评价意见,越能掌握电子政务项目建设时所用信息的本质知识。因此,提出基于领域概念树语义层次性的专家评审深刻性指标及其测度方法,以刻画专家知识深度。

专家评审深刻性度量从几下方面刻画意见所描述的信息:

专家意见中所涉及的电子政务领域特征词汇量如同意见长度一样,如果词汇量大,则意见内容可能较为丰富和深刻,专家知识广度与深度较大。

某些特征词出现的频次比较高,则该特征所涉及的概念较为明确,针对性较强。

特征词分布于概念树的层次、分布路径和集中度(节点的出度)决定了所评审特征语义内容的具体、明确程度,所涉及的知识结构元素具有针对性、突出性,或知识构成有侧重点。

其中RF

定义1:专家评审意见中属于知识结构t元素的评价特征k的频数如公式(6)所示:

定义2:评价特征c的集中度为评价特征c的下位词c-son在评价意见中出现的次数与下位词集合元素的数量之比。因此,给出专家意见中评价特征k的集中度如公式(7)所示:

定义3:评审深刻性为意见中所有评价特征词汇在领域特征概念树中出现的次数、集中度所反映出来的深刻性之和。计算公式(8)如下:

设定两种偏差权重α

③情感风格

专家情感通过评价意见传递,依据表2中情感风格定义,专家意见总情感强度REmo的计算如公式(9)所示,其中K是专家已审项目的所有意见总数,sk表示专家意见k的情感强度。本成果以柱状图可视化专家评审情感风格。

④领域专长

本成果选用LDA方法,以所有评审项目题目、摘要作为数据源,对专家评审进行内容主题分析,以此反映专家所涉及的项目领域。主要步骤如下:1)进行数据清洗、去除标点符号、数字,过滤停用词;去除常用的软件描述用词以提升LDA对于政务、项目功能、职能的主题表征度(如:模块、业务、平台、系统等);完成词袋构建。2)利用困惑度对数据集确定主题个数提升模型效果,同时利用LDA模型获得存有主题与词以及文档与主题之间关系的矩阵。3)通过对该矩阵数据进行解析,获得每个主题下词的分布情况,以及每个文档所属主题的情况,最后统计每位专家各已审项目所属主题的概率,分析专家的过往评审内容主题。

(4)多维特征均衡的专家组推荐方法

基于多维特征均衡的专家组推荐方法以专家组间多维特征的计量结果为依据,目标是实现不同专家组间的评价一致性。在随机、公平抽取的基础上,推荐方法不仅要满足候选专家组的领域专长与待审项目内容具有更好的贴近度;且候选专家组的知识广度与深度不低于专家库全部专家知识结构配置平均水平。

①领域相关性评估

通过LDA模型获取待评审项目的主题概率,并与专家领域计算主题相似度可以得到专家与待评审项目领域相关度

②知识均衡随机抽取

专家组间的知识水平均衡实际上是通过各个组内专家的知识互补才能实现。为此,首先计算专家库各知识结构的知识水平与评审深刻性均值,记为

4、附图说明

图1:电子政务项目专家评审意见表:显示了本成果的数据源;

图2:电子政务项目领域知识概念树示意图:显示了本成果创建的电子政务领域概念树(部分);

图3:电子政务项目领域知识本体图:显示了本成果创建的电子政务项目领域知识本体;

图4:成果实现框架图:显示了本成果实现的完整过程;

图5:专家知识水平与评审深刻性特征刻画结果图:显示了单个专家的特征刻画结果;

图6:专家情感风格计量结果图:显示了多专家意见中的情感风格;

图7:专家领域专长可视化结果图:显示了单个专家的评价领域经历;

图8:本成果方法与随机抽取方法结果对比图:显示了两种方法的结果对比。

5、具体实施方式

本成果的实施目的是实现基于多维特征均衡的电子政务项目专家组推荐方法,利用天津市2017年--2018年214个省级电子政务项目专家组评审意见作为数据源,并以专家库中具有长期评价经历的50个专家进行了特征刻画与基于3位、5位专家的专家组推荐实验。该方法用于项目评价前的专家抽取阶段,通过本成果的方法,专家组抽取结果的知识计量结果有效证明了其优于随机抽取专家的方法。可以大幅度提升专家组与被评项目间的符合性、多维特征均衡性,进而提升项目评价的结果一致性水平。

本成果领域本体基于Cypher语言存储在Neo4j中;实验基于Python语言,利用开源工具Hanlp提供的pyhanlp包、Google开源深度学习框架Tensorflow及其高级API——keras等在Windows环境下实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号