首页> 中国专利> 提案评分的方法、装置、计算机设备和存储介质

提案评分的方法、装置、计算机设备和存储介质

摘要

本申请涉及一种提案评分的方法、装置、计算机设备和存储介质。所述方法包括:建立综合数据库,综合数据库包括:历史文件库、法律文件库及历史提案库;获取待评分提案,根据历史文件库与待评分提案的标题的相似度,得到第一评分维度;根据法律文件库与待评分提案的正文的引用关系,得到第二评分维度;根据历史提案库与待评分提案的正文的相似度,得到第三评分维度;建立评分标准库;评分标准库包括:评分选择区域和评分设置区域;以可视化方式显示评分标准库,并且根据评分选择区域中选定的评分维度,自适应输出提案评分模型,并获得待评分提案的评分和评级。本方法提高了提案评分的准确率与效率。

著录项

  • 公开/公告号CN113326355A

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 湖南正宇软件技术开发有限公司;

    申请/专利号CN202110864352.1

  • 发明设计人 刘跃华;徐艺;刘坤朋;

    申请日2021-07-29

  • 分类号G06F16/33(20190101);G06F16/338(20190101);G06F16/35(20190101);G06F40/216(20200101);G06F40/289(20200101);G06Q10/06(20120101);

  • 代理机构43225 长沙国科天河知识产权代理有限公司;

  • 代理人徐志宏

  • 地址 410000 湖南省长沙市长沙高新开发区尖山路39号长沙中电软件园一期5栋701

  • 入库时间 2023-06-19 12:24:27

说明书

技术领域

本申请涉及计算机技术领域,特别是涉及提案评分的方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展,传统人工作业逐渐被计算机给替代,在会议开展时,参与人员一般而言会提交大量的提案,这些提案代表了人员的心声,也反应了人员对热点话题、机构制度的发声最直观的方式。提案提交后,提案的审查人员会挑选出里面的优秀提案,交由重要领导专职办理。

传统技术中,是依靠审查人员丰富的经验,来判断该提案是否属于要重点办理的提案,从而筛选出优秀提案。

然而,因为并没有评分规则,所以筛选出的优秀提案主观性比较强,准确率并不高,且人工筛选费时费力,效率很低。

发明内容

基于此,有必要针对上述技术问题,提供一种提案评分的方法、装置、计算机设备和存储介质,能够提高筛选优秀提案准确率与效率。

一种提案评分的方法,所述方法包括:

建立综合数据库,所述综合数据库包括:历史文件库、法律文件库及历史提案库;所述历史文件库包括历史文件,所述历史文件是从机构服务器中提取得到的,包括工作重点以及热点话题;所述法律文件库包括法律文本;所述历史提案库包括历年的提案;

获取待评分提案,根据所述历史文件库与所述待评分提案的标题的相似度,得到第一分析结果,根据所述第一分析结果得到第一评分维度;

根据所述法律文件库与所述待评分提案的正文的引用关系,得到第二分析结果,根据所述第二分析结果得到第二评分维度;

根据所述历史提案库与所述待评分提案的正文的相似度,得到第三分析结果,根据所述第三分析结果得到第三评分维度;

建立评分标准库;所述评分标准库包括:评分选择区域和评分设置区域;所述评分选择区域的数据包括:第一评分维度、第二评分维度以及第三评分维度;所述评分设置区域中设置预设格式的维度填写表单;所述维度填写表单用于接收输入的评分维度数据,并且在接收到确认指令后将所述维度填写表单中的内容标准化后输入至所述评分选择区域;

以可视化方式显示所述评分标准库,并且根据所述评分选择区域中选定的评分维度,自适应输出用于提案评分的提案评分模型;

根据所述提案评分模型获得待评分提案的评分和评级。

在其中一个实施例中,根据所述评分选择区域中选定的评分维度,自适应输出用于提案评分的提案评分模型包括:

获取通过可视化方式选定的评分维度对应的重要度比值,并判断选定的评分维度是否属于标志维度,根据所述重要度比值和所述选定的评分维度是否属于标志维度,输出用于提案评分的提案评分模型;所述提案评分模型用于输出提案的评分和评级;

当选定的评分维度属于标志维度时,并且选定的评分维度的评分达到设定值,直接输出对应的评级;

当选定的评分维度不属于标志维度,或选定的评分维度属于标志维度且选定的评分维度的评分小于设定值时,根据选定的评分维度的所述重要度比值,计算评分,根据评分确定并输出对应的评级。

在其中一个实施例中,根据所述历史文件库与所述待评分提案的标题的相似度,得到第一分析结果包括:

根据余弦相似度算法,对每个所述历史文件进行相似度分析,得到优选库;

根据K均值聚类算法,对所述优选库的每个历史文件进行聚类,得到簇类;

计算每个所述簇类的历史文件数量,得到热点簇;

对所述热点簇的每个历史文件提取关键词,计算每个历史文件的关键词次数,并按所述关键词次数对每个关键词进行排序,得到热点簇的主题词;

对所述主题词进行组合,得到热门话题;

根据预先设置的分词库,对所述待评分提案的标题进行分词,得到标题单词集;

根据TF-IDF算法,计算所述标题单词集中每个单词的权重,得到优选集;

根据余弦相似度算法,将所述优选集与所述热门话题进行相似度分析,得到第一分析结果。

在其中一个实施例中,根据所述历史文件库与所述待评分提案的标题的相似度,得到第一分析结果包括:

对所述历史文件提取关键词并计算每个所述关键词的权重,按照权重从大到小的顺序对每个所述关键词进行排序,取权重靠前的关键词为热点词;

对每个所述热点词建立索引,根据所述热点词出现在所述历史文件的数量作为所述索引的索引值;

获取所述索引值的预期值,根据所述索引值达到预期值的索引确定热门话题;

根据预先设置的分词库,对所述待评分提案的标题进行分词,得到标题单词集;

根据TF-IDF算法,计算标题单词集中每个单词的权重,得到优选集;

根据余弦相似度算法,将优选集与热门话题进行相似度分析,得到第一分析结果。

在其中一个实施例中,根据所述法律文件库与所述待评分提案的正文的引用关系,得到第二分析结果包括:

根据所述法律文件库中的法律文本分别构建关键词匹配模板和标记符匹配模板;所述关键词匹配模板和标记符匹配模板中均包括待填充内容;

将所述关键词匹配模板和所述标记符匹配模板进行拼接,得到引用关系匹配模板;

根据所述引用关系匹配模板匹配待分析提案,得到待填充内容中对应的文本内容;

根据所述法律文件库,对所述文本内容进行匹配,得到引用词和引用频次;根据所述历史文件库,对所述待评分提案进行匹配,得到引用次数;

根据引用词和引用频次,得到第一得分;

根据引用次数,对所述待评分提案与历史文件库进行热力值分析,得到第二得分;

根据第一得分与第二得分,得到第二分析结果。

在其中一个实施例中,根据所述历史提案库与所述待评分提案的正文的相似度,得到第三分析结果包括:

根据预先设置的分词库,对历史提案库中的每篇提案进行分词,得到提案库单词集;

根据TF-IDF算法,计算提案库单词集中每个单词的权重,得到关键集;

根据预先设置的分词库,对待评分提案进行分词,得到提案单词集;

根据TF-IDF算法,计算提案单词集中每个单词的权重,得到重点集;

根据余弦相似度算法,将重点集与关键集进行相似度分析,得到第三分析结果。

在其中一个实施例中,所述评分选择区域还包括:第四评分维度;

对所述待评分提案进行论点论据充分度分析,得到第四分析结果,根据所述第四分析结果得到第四评分维度;

对所述待评分提案进行论点论据充分度分析,得到第四分析结果包括:

根据预先设置的特征词集,对待评分提案进行特征词识别,得到出现所述特征词的每个段落的字数;所述特征词是可以表征待提取提案的论点论据的逻辑词;

根据相关段落的字数,得到第四分析结果。

一种提案评分模型的装置,所述装置包括:

准备模块,用于建立综合数据库,所述综合数据库包括:历史文件库、法律文件库及历史提案库;所述历史文件库包括历史文件,所述历史文件是从机构服务器中提取得到的,包括工作重点以及热点话题;所述法律文件库包括法律文本;所述历史提案库包括历年的提案;

第一分析模块,用于获取待评分提案,根据所述历史文件库与所述待评分提案的标题的相似度,得到第一分析结果,根据所述第一分析结果得到第一评分维度;

第二分析模块,用于根据所述法律文件库与所述待评分提案的正文的引用关系,得到第二分析结果,根据所述第二分析结果得到第二评分维度;

第三分析模块,用于根据所述历史提案库与所述待评分提案的正文的相似度,得到第三分析结果,根据所述第三分析结果得到第三评分维度;

评分标准库建立模块,用于建立评分标准库;所述评分标准库包括:评分选择区域和评分设置区域;所述评分选择区域的数据包括:第一评分维度、第二评分维度以及第三评分维度;所述评分设置区域中设置预设格式的维度填写表单;所述维度填写表单用于接收输入的评分维度数据,并且在接收到确认指令后将所述维度填写表单中的内容标准化后输入至所述评分选择区域;

提案评分模型建立模块,用于以可视化方式显示所述评分标准库,并且根据所述评分选择区域中选定的评分维度,自适应输出用于提案评分的提案评分模型;

输出模块,用于根据所述提案评分模型获得待评分提案的评分和评级。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

建立综合数据库,所述综合数据库包括:历史文件库、法律文件库及历史提案库;所述历史文件库包括历史文件,所述历史文件是从机构服务器中提取得到的,包括工作重点以及热点话题;所述法律文件库包括法律文本;所述历史提案库包括历年的提案;

获取待评分提案,根据所述历史文件库与所述待评分提案的标题的相似度,得到第一分析结果,根据所述第一分析结果得到第一评分维度;

根据所述法律文件库与所述待评分提案的正文的引用关系,得到第二分析结果,根据所述第二分析结果得到第二评分维度;

根据所述历史提案库与所述待评分提案的正文的相似度,得到第三分析结果,根据所述第三分析结果得到第三评分维度;

建立评分标准库;所述评分标准库包括:评分选择区域和评分设置区域;所述评分选择区域的数据包括:第一评分维度、第二评分维度以及第三评分维度;所述评分设置区域中设置预设格式的维度填写表单;所述维度填写表单用于接收输入的评分维度数据,并且在接收到确认指令后将所述维度填写表单中的内容标准化后输入至所述评分选择区域;

以可视化方式显示所述评分标准库,并且根据所述评分选择区域中选定的评分维度,自适应输出用于提案评分的提案评分模型;

根据所述提案评分模型获得待评分提案的评分和评级。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

建立综合数据库,所述综合数据库包括:历史文件库、法律文件库及历史提案库;所述历史文件库包括历史文件,所述历史文件是从机构服务器中提取得到的,包括工作重点以及热点话题;所述法律文件库包括法律文本;所述历史提案库包括历年的提案;

获取待评分提案,根据所述历史文件库与所述待评分提案的标题的相似度,得到第一分析结果,根据所述第一分析结果得到第一评分维度;

根据所述法律文件库与所述待评分提案的正文的引用关系,得到第二分析结果,根据所述第二分析结果得到第二评分维度;

根据所述历史提案库与所述待评分提案的正文的相似度,得到第三分析结果,根据所述第三分析结果得到第三评分维度;

建立评分标准库;所述评分标准库包括:评分选择区域和评分设置区域;所述评分选择区域的数据包括:第一评分维度、第二评分维度以及第三评分维度;所述评分设置区域中设置预设格式的维度填写表单;所述维度填写表单用于接收输入的评分维度数据,并且在接收到确认指令后将所述维度填写表单中的内容标准化后输入至所述评分选择区域;

以可视化方式显示所述评分标准库,并且根据所述评分选择区域中选定的评分维度,自适应输出用于提案评分的提案评分模型;

根据所述提案评分模型获得待评分提案的评分和评级。

上述提案评分的方法、装置、计算机设备和存储介质,建立历史文件库、法律文件库以及历史提案库,三个文件库独立存储与管理,从提案领域中的多个维度进行数据挖掘,保证数据匹配的数据源的全面性和客观性。针对历史文件库,提取提案文本中最能反映文本内容的标题进行分析,得到第一评分维度;针对法律文件库,提取提案文本中最能反映文本法律倾向的法律引用关系进行分析,得到第二评分维度;针对历史提案库,提取提案文本中最能反映文本事件的正文进行分析,得到第三评分维度。通过建立不同的文件数据库,一方面提取提案文本中不同层次的特征进行匹配,提高了评分的客观性和准确率,另一方面,通过文件库进行匹配,提高了提案评分的效率。本申请还建立了评分标准库,并在评分标准库中分别设立了静态的评分选择区域和动态的评分设置区域,静态的评分选择区域包括上述三个评分维度,支持用户的选择和维护,动态的评分设置区域支持用户的自定义,解决了当不同时间段或地区等对评分维度的需求有改变时,原来的评分维度不适应的问题,且评分标准库是可视化的,可以在用户操作之后自适应输出对应的提案评分模型,通过评分标准库和提案评分模型的建立,一方面简单直观,方便操作,提高了提案评分的效率,另一方面提供了可以按需变化评分维度的空间,使得评分更具针对性,提高了评分的准确性。

附图说明

图1为一个实施例中提案评分的方法的应用场景图;

图2为一个实施例中提案评分的方法的流程示意图;

图3为一个实施例中提案评分的装置的结构框图;

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的提案评分模型的建立方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是各类门户网站、工作系统后台对应的服务器等。

在一个实施例中,如图2所示,提供了一种提案评分的方法,以该方法应用于图1中的终端为例进行说明,包括:

步骤202,建立综合数据库。

综合数据库包括:历史文件库、法律文件库及历史提案库;历史文件库包括历史文件,历史文件是从机构服务器中提取得到的,包括工作重点以及热点话题;法律文件库包括法律文本;历史提案库包括历年的提案。

历史文件可以是包含工作报告、热点话题、机构制度等的文件。历史文件反映了机构的工作重心,对提案的提出具有导向作用。

法律文本是按照立法程序制定的具有很强法律效力但法律效力低于宪法的规范性文件。

步骤204,获取待评分提案,根据历史文件库与待评分提案的标题的相似度,得到第一分析结果,根据第一分析结果得到第一评分维度。

第一分析结果是通过历史文件库与待评分提案标题的相似度分析得到的相似度的映射值。例如:相似度为60%,映射值为60。

第一评分维度可以是:将映射值作为第一评分维度的评分。

第一评分维度也可以是:

映射值的范围是>50,得分35;

映射值的范围是[20,50),得分30;

映射值的范围是[10,20),得分20;

映射值的范围是[5,10),得分10;

映射值的范围是<5,得分0。

此外,也可以根据具体的情形,选择其他合适的第一评分维度。

步骤206,根据法律文件库与待评分提案的正文的引用关系,得到第二分析结果,根据第二分析结果得到第二评分维度。

第二分析结果是通过法律文件库与待评分提案的正文的引用关系分析得到的法律文件的引用数量。

第二评分维度可以是:将法律文件的引用数量作为第二评分维度的评分。

此外,也可以根据具体的情形,选择其他合适的第二评分维度。

步骤208,根据历史提案库与待评分提案的正文的相似度,得到第三分析结果,根据第三分析结果得到第三评分维度。

第三分析结果是通过历史提案库与待评分提案的正文的相似度分析得到的相似提案的数量。

第三评分维度可以是:将相似提案的数量作为第三评分维度的评分。

第三评分维度也可以是:

相似提案的数量是0,得分10;

相似提案的数量的范围是[1,5],得分5;

相似提案的数量的范围是>5,得分0。

此外,也可以根据具体的情形,选择其他合适的第三评分维度。

步骤210,建立评分标准库。

评分标准库包括:评分选择区域和评分设置区域;评分选择区域的数据包括:第一评分维度、第二评分维度以及第三评分维度;评分设置区域中设置预设格式的维度填写表单;维度填写表单用于接收输入的评分维度数据,并且在接收到确认指令后将维度填写表单中的内容标准化后输入至评分选择区域。

评分标准库是对待评分提案进行评分的标准的集合,包括评分选择区域和评分设置区域。

评分选择区域是一个静态的评分标准区,包括第一评分维度、第二评分维度以及第三评分维度。第一评分维度、第二评分维度以及第三评分维度分别表征了待评分提案在标题热力度、法律支持度、命题新颖度的表现,可以据此对待评分提案分别进行评分,进而得到总评分和“优秀”“合格”“不合格”的级别评定,从而完成优秀提案的筛选。

评分设置区域是一个动态的评分标准区,用户可以在评分设置区域的维度填写表单中输入想要的评分维度数据。

维度填写表单是一个结构化的表单,包含了维度名称、维度定义、评分方法等项目以及对应的空格,用户可以在空格中填写相关的信息。维度填写表单与第一评分维度、第二评分维度以及第三评分维度使用相同的标准,因此可以在接收确认指令后转换为评分选择区域的评分维度。

确认指令是指用户进行确认操作,在可视化页面点击确认按钮,则用户输入的信息转换为评分选择区域的评分维度。

步骤212,以可视化方式显示评分标准库,并且根据评分选择区域中选定的评分维度,自适应输出用于提案评分的提案评分模型。

该方法可以应用于图1中的终端,终端可以是电脑的桌面。不同的用户可能选择了不同的评分维度,或者同一用户也可能根据不同的需求选择了不同的评分维度,即当输入不同时,可以相应地输出不同的提案评分模型。

步骤214,根据提案评分模型获得待评分提案的评分和评级。

当用户选择了需要的评分维度,提案评分模型即建立完成,输入待评分提案,就可以得到相应的评分和评级。评分包括各个评分维度的得分及总评分。

上述提案评分的方法、装置、计算机设备和存储介质,建立历史文件库、法律文件库以及历史提案库,三个文件库独立存储与管理,从提案领域中的多个维度进行数据挖掘,保证数据匹配的数据源的全面性和客观性。针对历史文件库,提取提案文本中最能反映文本内容的标题进行分析,得到第一评分维度;针对法律文件库,提取提案文本中最能反映文本法律倾向的法律引用关系进行分析,得到第二评分维度;针对历史提案库,提取提案文本中最能反映文本事件的正文进行分析,得到第三评分维度。通过建立不同的文件数据库,一方面提取提案文本中不同层次的特征进行匹配,提高了评分的客观性和准确率,另一方面,通过文件库进行匹配,提高了提案评分的效率。本申请还建立了评分标准库,并在评分标准库中分别设立了静态的评分选择区域和动态的评分设置区域,静态的评分选择区域包括上述三个评分维度,支持用户的选择和维护,动态的评分设置区域支持用户的自定义,解决了当不同时间段或地区等对评分维度的需求有改变时,原来的评分维度不适应的问题,且评分标准库是可视化的,可以在用户操作之后自适应输出对应的提案评分模型,通过评分标准库和提案评分模型的建立,一方面简单直观,方便操作,提高了提案评分的效率,另一方面提供了可以按需变化评分维度的空间,使得评分更具针对性,提高了评分的准确性。

应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,根据评分选择区域中选定的评分维度,自适应输出用于提案评分的提案评分模型包括:获取通过可视化方式选定的评分维度对应的重要度比值,并判断选定的评分维度是否属于标志维度,根据重要度比值和选定的评分维度是否属于标志维度,输出用于提案评分的提案评分模型;提案评分模型用于输出提案的评分和评级;当选定的评分维度属于标志维度时,并且选定的评分维度的评分达到设定值,直接输出对应的评级;当选定的评分维度不属于标志维度,或选定的评分维度属于标志维度且选定的评分维度的评分小于设定值时,根据选定的评分维度的重要度比值,计算评分,根据评分确定并输出对应的评级。

用户可以根据自己的需求设定选定的评分维度对应的重要度比值,例如,当该地区更关注当年的热点时,第一评分维度可以设定最高的重要度比值,当该年度更关注法律的普及时,第二评分维度可以设定最高的重要度比值。也可以根据重要性来设定重要度比值,重要性可以根据与提案审查人员的交流总结得到,具体是:标题热力度>法律支持度>命题新颖度。

用户可以判断选定的评分维度是否属于标志维度,且当某一评分维度属于标志维度时,可以给定一个设定值。例如,当第一评分维度属于标志维度,设定值为80,即当对待评分提案进行评分时,如果第一评分维度的评分为80,则可以直接得到该待评分提案的评级为优秀,而不必对其他的评分维度进行评分并得到总评分。标志维度可以有一个,也可以有多个。不同标志维度的设定值可以相同,也可以不同。

当选定的评分维度、重要度比值和选定的评分维度是否属于标志维度中的任一项没有设置时,可以按照初始设置输出用于提案评分的提案评分模型。

初始设置包括:

选定的评分维度包括评分选择区域中的所有评分维度;设评分维度为n个,重要度比值分别为

例如,评分选择区域包括:第一评分维度、第二评分维度和第三评分维度,则初始设置为:选定的评分维度为第一评分维度、第二评分维度和第三评分维度;其对应的重要度比值分别为:1、2/3和1/3;均不属于标志维度。

初始设置支持修改和保存。

在本实施例中,按照初始设置的提案评分模型得到总评分和评级具体为:

式中,

即:

原始设置:总评分>80则评级为优秀,总评分在50到80之间(含)为合格,总评分<50为不合格。

原始设置支持修改和保存。

在一个实施例中,根据历史文件库与待评分提案的标题的相似度,得到第一分析结果包括:根据余弦相似度算法,对每个历史文件进行相似度分析,得到优选库;根据K均值聚类算法,对优选库的每个历史文件进行聚类,得到簇类;计算每个簇类的历史文件数量,得到热点簇;对热点簇的每个历史文件提取关键词,计算每个历史文件的关键词次数,并按关键词次数对每个关键词进行排序,得到热点簇的主题词;对主题词进行组合,得到热门话题;根据预先设置的分词库,对待评分提案的标题进行分词,得到标题单词集;根据TF-IDF算法,计算标题单词集中每个单词的权重,得到优选集;根据余弦相似度算法,将优选集与热门话题进行相似度分析,得到第一分析结果。

余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。

将每个历史文件都作为一个个体,优选库是通过将一个个体与其他个体之间的相似度按照从大到小的顺序进行排序且位置靠前的几个个体,即剔除相似度很低的个体,例如,选择前20个历史文件作为优选库,也可以选择前50个历史文件作为优选库,具体可以根据实际需求设置,在此不再赘述。优选库的设置是为了进行聚类前的个体筛选,由于传统的聚类算法会把所有数据考虑进去,这样会有一些与其他样本差距很大的个体会对簇类的中心点形成很大的干扰。而我们分析时对于这样的个体是可以完全舍弃,以免影响分析过程。所以在聚类之前,先计算每个历史文件之间的相似度,对于与其他历史文件相似度都很低的历史文件,直接排除出去。

K均值聚类算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。

热点簇是通过将每个簇类的历史文件数量按照从大到小的顺序进行排序且位置靠前的几个簇类。热点簇的主题词是通过将每个历史文件的关键词次数按照从大到小的顺序进行排序且位置靠前的几个关键词。组合是指对热点簇的主题词进行随机组合,热门话题是指热点簇主题词的组合。例如,热点簇1的主题词是A、C、E、G和I,热点簇2的主题词是A、D、E、F和H,则热门话题是ACE、ADE和ACDE等。热门话题是对历史文件库进行筛选得到的,是对历史文件的归类和提炼。

分词库是为中文分词提供依据的词集,依据该词集可以对任意文件进行中文分词。标题单词集是通过对待评分提案的标题进行分词得到,是一系列与待评分提案的主要内容相关的词。TF-IDF算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。优选集是通过将标题单词集中每个单词的权重按照从大到小的顺序进行排序且位置靠前的几个单词,例如,选择前3个词作为优选集,也可以选择前5个词作为优选集,具体可以根据实际需求设置,在此不再赘述。

第一分析结果是指,当优选集中的每个单词与热门话题的相似度在70%以上时,将该热门话题的主题词数量作为热力值,该热力值越大,说明标题越热门。

在一个实施例中,根据历史文件库与待评分提案的标题的相似度,得到第一分析结果包括:对历史文件提取关键词并计算每个关键词的权重,按照权重从大到小的顺序对每个所述关键词进行排序,取权重靠前的关键词为热点词;对每个热点词建立索引,根据热点词出现在历史文件的数量作为索引的索引值;获取索引值的预期值,根据索引值达到预期值的索引确定热门话题;根据预先设置的分词库,对待评分提案的标题进行分词,得到标题单词集;根据TF-IDF算法,计算标题单词集中每个单词的权重,得到优选集;根据余弦相似度算法,将优选集与热门话题进行相似度分析,得到第一分析结果。

例如:有4个历史文件,取权重前6的关键词,得到的热点词分别是:学校、教育、营养、老师、学生、体育。

以doc表示历史文件,则:

doc1:学校、教育、营养、老师

doc2:学校、教育、体育

doc3:学校、教育、老师

doc4:教育、体育、学生,老师

建立索引后得到如下结构:

学校:doc1,doc2,doc3

教育:doc1,doc2,doc3,doc4

营养:doc1

老师:doc1,doc3,doc4

学生:doc4

体育:doc3,doc4

相应的,索引值分别是:

学校:3

教育:4

营养:1

老师:3

学生:1

体育:2

索引值的预期值为3,则热门话题为学校、教育和老师的组合。

在一个实施例中,根据所述法律文件库与所述待评分提案的正文的引用关系,得到第二分析结果包括:根据法律文件库中的法律文本分别构建关键词匹配模板和标记符匹配模板;关键词匹配模板和标记符匹配模板中均包括待填充内容;将关键词匹配模板和标记符匹配模板进行拼接,得到引用关系匹配模板;根据引用关系匹配模板匹配待分析提案,得到待填充内容中对应的文本内容;根据法律文件库,对文本内容进行匹配,得到引用词和引用频次;根据历史文件库,对待评分提案进行匹配,得到引用次数;根据引用词和引用频次,得到第一得分;根据引用次数,对待评分提案与历史文件库进行热力值分析,得到第二得分;根据第一得分与第二得分,得到第二分析结果。

关键词匹配模板是指法律文本中带有指向性的一系列词,如“第一条”“第一款”;标记符匹配模板是指法律文本中可能指示条款的符号,如书名号、双引号;引用关系匹配模板是指将关键词匹配模板与标记符匹配模板拼接后得到的匹配模板;待填充内容中对应的文本内容是指经过引用关系匹配模板匹配后得到的有可能是待评分提案引用的法律。

引用词和引用频次是指待提取提案中引用的法律文件及其次数;引用次数是指待提取提案引用的法律文件在历史文件库中出现的次数,如果历史文件库中出现的次数比较多,说明该法律文件被转载、报告、解读的次数比较多,则认为比较热门。

第一得分是指法律文件引用频次,该引用频次可以表征法律的支持度,引用频次越多,法律支持度越大,说明待提取提案有法律的支持,符合机构的发展期望,有可能是优秀提案,对其进行分析,可以为优秀提案的判断增加评判标准。具体的:

法律文件引用频次的范围是[2,5],第一得分20;

法律文件引用频次是1,第一得分15;

法律文件引用频次是0,第一得分0。

第一得分也可以使用其他方式设定。

第二得分是指法律文件引用次数,该引用次数可以表征法律的热门程度,引用次数越多,法律越热门,说明待提取提案紧跟机构走向,有可能是优秀提案,对其进行分析,可以为优秀提案的判断增加评判标准。具体的:

法律文件引用次数的范围是>20,第二得分25;

法律文件引用次数的范围是[10,20),第二得分20;

法律文件引用次数的范围是[5,10),第二得分15;

法律文件引用次数的范围是[1,5),第二得分10。

第二得分也可以使用其他方式设定。

第二分析结果是指法律文件引用频次和法律文件引用次数的叠加,当第一得分是有引用的情况下,才需对待提取提案进行第二得分判断,如果没有引用,第二得分为0。

在一个实施例中,根据历史提案库与待评分提案的正文的相似度,得到第三分析结果包括:根据预先设置的分词库,对历史提案库中的每篇提案进行分词,得到提案库单词集;根据TF-IDF算法,计算提案库单词集中每个单词的权重,得到关键集;根据预先设置的分词库,对待评分提案进行分词,得到提案单词集;根据TF-IDF算法,计算提案单词集中每个单词的权重,得到重点集;根据余弦相似度算法,将重点集与关键集进行相似度分析,得到第三分析结果。

提案库单词集是通过对提案库中每篇提案进行分词得到的一系列词。关键集是通过将提案库单词集中的每个单词的权重按照从大到小的顺序进行排序且位置靠前的几个单词,例如,取前20个词作为关键集。提案单词集是通过对待评分提案的内容进行分词得到的一系列词。重点集是通过将提案单词集中的每个单词的权重按照从大到小的顺序进行排序且位置靠前的几个单词。第三分析结果是指,重点集中权重0.05以上的词与关键集进行相似度分析且相似度为40%以上的提案数量。

在一个实施例中,所述评分选择区域还包括:第四评分维度;对待评分提案进行论点论据充分度分析,得到第四分析结果,根据第四分析结果得到第四评分维度;对待评分提案进行论点论据充分度分析,得到第四分析结果包括:根据预先设置的特征词集,对待评分提案进行特征词识别,得到出现特征词的每个段落的字数;特征词是可以表征待提取提案的论点论据的逻辑词;根据相关段落的字数,得到第四分析结果。

论点论据充分度是指,待提取提案的论点是否提出了解决办法,论据是否充分,如果论点和论据充分,说明待提取提案有可行的价值,有可能是优秀提案,对其进行论点论据充分度的分析,可以为优秀提案的判断增加评判标准。特征词可以是:“第一”“第二”“首先”“然后”等词。

第四分析结果是指:出现特征词的每个段落的字数之和。

第四评分维度可以是:

字数的范围是[500,1000),得分10;

字数的范围是[200,500),得分5;

字数的范围是[0,200),得分0。

此外,也可以根据具体的情形,选择其他合适的第四评分维度。

在一个实施例中,如图3所示,提供了一种提案评分的装置,包括:准备模块302、第一分析模块304、第二分析模块306、第三分析模块308、评分标准库建立模块310、提案评分模型建立模块312和输出模块314,其中:

准备模块302,用于建立综合数据库,所述综合数据库包括:历史文件库、法律文件库及历史提案库;所述历史文件库包括历史文件,所述历史文件是从机构服务器中提取得到的,包括工作重点以及热点话题;所述法律文件库包括法律文本;所述历史提案库包括历年的提案。

第一分析模块304,用于获取待评分提案,根据所述历史文件库与所述待评分提案的标题的相似度,得到第一分析结果,根据所述第一分析结果得到第一评分维度。

第二分析模块306,用于根据所述法律文件库与所述待评分提案的正文的引用关系,得到第二分析结果,根据所述第二分析结果得到第二评分维度。

第三分析模块308,用于根据所述历史提案库与所述待评分提案的正文的相似度,得到第三分析结果,根据所述第三分析结果得到第三评分维度。

评分标准库建立模块310,用于建立评分标准库;所述评分标准库包括:评分选择区域和评分设置区域;所述评分选择区域的数据包括:第一评分维度、第二评分维度以及第三评分维度;所述评分设置区域中设置预设格式的维度填写表单;所述维度填写表单用于接收输入的评分维度数据,并且在接收到确认指令后将所述维度填写表单中的内容标准化后输入至所述评分选择区域。

提案评分模型建立模块312,用于以可视化方式显示所述评分标准库,并且根据所述评分选择区域中选定的评分维度,自适应输出用于提案评分的提案评分模型。

输出模块314,用于根据所述提案评分模型获得待评分提案的评分和评级。

在一个实施例中,提案评分模型建立模块312还用于根据所述评分选择区域中选定的评分维度,自适应输出用于提案评分的提案评分模型包括:获取通过可视化方式选定的评分维度对应的重要度比值,并判断选定的评分维度是否属于标志维度,根据所述重要度比值和所述选定的评分维度是否属于标志维度,输出用于提案评分的提案评分模型;所述提案评分模型用于输出提案的评分和评级;当选定的评分维度属于标志维度时,并且选定的评分维度的评分达到设定值,直接输出对应的评级;当选定的评分维度不属于标志维度,或选定的评分维度属于标志维度且选定的评分维度的评分小于设定值时,根据选定的评分维度的所述重要度比值,计算评分,根据评分确定并输出对应的评级。

在一个实施例中,第一分析模块304还用于根据所述历史文件库与所述待评分提案的标题的相似度,得到第一分析结果包括:根据余弦相似度算法,对每个所述历史文件进行相似度分析,得到优选库;根据K均值聚类算法,对所述优选库的每个历史文件进行聚类,得到簇类;计算每个所述簇类的历史文件数量,得到热点簇;对所述热点簇的每个历史文件提取关键词,计算每个历史文件的关键词次数,并按所述关键词次数对每个关键词进行排序,得到热点簇的主题词;对所述主题词进行组合,得到热门话题;根据预先设置的分词库,对所述待评分提案的标题进行分词,得到标题单词集;根据TF-IDF算法,计算所述标题单词集中每个单词的权重,得到优选集;根据余弦相似度算法,将所述优选集与所述热门话题进行相似度分析,得到第一分析结果。

在一个实施例中,第一分析模块304还用于根据所述历史文件库与所述待评分提案的标题的相似度,得到第一分析结果包括:对所述历史文件提取关键词并计算每个所述关键词的权重,按照权重从大到小的顺序对每个所述关键词进行排序,取权重靠前的关键词为热点词;对每个所述热点词建立索引,根据所述热点词出现在所述历史文件的数量作为所述索引的索引值;获取所述索引值的预期值,根据所述索引值达到预期值的索引确定热门话题;根据预先设置的分词库,对所述待评分提案的标题进行分词,得到标题单词集;根据TF-IDF算法,计算标题单词集中每个单词的权重,得到优选集;根据余弦相似度算法,将优选集与热门话题进行相似度分析,得到第一分析结果。

在一个实施例中,第二分析模块306还用于根据所述法律文件库与所述待评分提案的正文的引用关系,得到第二分析结果包括:根据所述法律文件库中的法律文本分别构建关键词匹配模板和标记符匹配模板;所述关键词匹配模板和标记符匹配模板中均包括待填充内容;将所述关键词匹配模板和所述标记符匹配模板进行拼接,得到引用关系匹配模板;根据所述引用关系匹配模板匹配待分析提案,得到待填充内容中对应的文本内容;根据所述法律文件库,对所述文本内容进行匹配,得到引用词和引用频次;根据所述历史文件库,对所述待评分提案进行匹配,得到引用次数;根据引用词和引用频次,得到第一得分;根据引用次数,对所述待评分提案与历史文件库进行热力值分析,得到第二得分;根据第一得分与第二得分,得到第二分析结果。

在一个实施例中,第三分析模块308还用于根据所述历史提案库与所述待评分提案的正文的相似度,得到第三分析结果包括:根据预先设置的分词库,对历史提案库中的每篇提案进行分词,得到提案库单词集;根据TF-IDF算法,计算提案库单词集中每个单词的权重,得到关键集;根据预先设置的分词库,对待评分提案进行分词,得到提案单词集;根据TF-IDF算法,计算提案单词集中每个单词的权重,得到重点集;根据余弦相似度算法,将重点集与关键集进行相似度分析,得到第三分析结果。

在一个实施例中,评分标准库建立模块310还用于所述评分选择区域还包括:第四评分维度;对所述待评分提案进行论点论据充分度分析,得到第四分析结果,根据所述第四分析结果得到第四评分维度;对所述待评分提案进行论点论据充分度分析,得到第四分析结果包括:根据预先设置的特征词集,对待评分提案进行特征词识别,得到出现所述特征词的每个段落的字数;所述特征词是可以表征待提取提案的论点论据的逻辑词;根据相关段落的字数,得到第四分析结果。

关于提案评分的装置的具体限定可以参见上文中对于提案评分的方法的限定,在此不再赘述。上述提案评分的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提案评分的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号