首页> 中国专利> 一种排名趋势和排名稳定性的影响因素的快速查找方法

一种排名趋势和排名稳定性的影响因素的快速查找方法

摘要

本发明公开了一种排名趋势和排名稳定性的影响因素的快速查找方法,包括以下步骤:步骤1:获取并筛选排名数据得到时序排名集合;步骤2:对经过步骤1处理的时序排名集合根据排名趋势进行聚类;步骤3:把步骤2的聚类信息进行存储,索引结构为聚类ID,所述聚类ID包含排名对象信息,排名标准信息,排名时间信息以及排名对象的排名信息;步骤4:将步骤3的聚类分别进行可视化得到对应的第一可视化图像,第一可视化图像展示排名趋势和该聚类中所有排名对象的总排名稳定性;步骤5:根据需求在步骤4的第一可视化图像中选择所需排名趋势和稳定性的图像;本发明可以从复杂的排名数据中快速得到所需排名趋势和稳定性高的排名对象。

著录项

  • 公开/公告号CN107315773A

    专利类型发明专利

  • 公开/公告日2017-11-03

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201710386196.6

  • 发明设计人 陈为;郭方舟;韩东明;

    申请日2017-05-26

  • 分类号

  • 代理机构杭州天勤知识产权代理有限公司;

  • 代理人徐敏

  • 地址 310013 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 03:38:37

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-10-18

    授权

    授权

  • 2017-11-28

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170526

    实质审查的生效

  • 2017-11-03

    公开

    公开

说明书

技术领域

本发明涉及信息快速提取技术领域,特别涉及一种排名趋势和排名稳定性的影响因素的快速查找方法。

背景技术

社会媒体,互联网,机构统计等产生了大量的排名集合数据。排名集合数据给人类带来丰富的信息时,同时也蕴含着巨大的挑战,在网站排名,导师排名,任务排名等多个任务和需求中,如何从庞大的时序排名集合数据快速选取到符合用户需求的实例排名,成为了互联网领域,统计领域的热门课题。

目前对于某个实例的排名来说,可以由有不同的机构给出,也可以对于此实例不同的方面进行排名评估,也可以根据不同的规则来排名,这些所组成的实例的排名,叫做排名的集合。加入了时间参数之后,比如 2008-2017年历年的排名等,即为时序排名集合。

但是由于机构不同、规则不同,无法对排序进行有效的归类,也无法直观地向需求者展示。特别是现有技术中通常只有对高排名的对象进行选择和分析,但是却无法有效找出具有所需排名变化趋向的对象。

发明内容

本发明提供了一种排名趋势和排名稳定性的影响因素的快速查找方法,可以快速选取所需特征的排名信息,特别是可以快速得到排名趋势信息。

一种排名趋势和排名稳定性的影响因素的快速查找方法,包括以下步骤:

步骤1:获取并筛选排名数据得到时序排名集合;

步骤2:对经过步骤1处理的时序排名集合根据排名趋势进行聚类;

步骤3:把步骤2的聚类信息进行存储,索引结构为聚类ID,所述聚类ID包含排名对象信息,排名标准信息,排名时间信息以及排名对象在所述排名标准和所述排名时间上的排名信息;

步骤4:将步骤3的聚类分别进行可视化得到对应的第一可视化图像,第一可视化图像展示排名趋势和该聚类中所有排名对象的总排名稳定性;

步骤5:根据需求在步骤4的第一可视化图像中选择所需排名趋势和稳定性的图像,得到对应排名趋势的聚类;

步骤6:所述第一可视化图像进行进一步可视化展开得到第二可视化图像,第二可视化图像包括标记出该聚类中所有排名对象信息的时间范围,在每一个时间上,展现该时间对应的每一个排名对象的综合排名;第二可视化图像中每个排名对象用图像表示,圆形的填充色代表排名稳定性;

同时,第二可视化图像还包括用第一统计图表示对于选中的聚类中所有排名对象在不同的排名标准给出的排名的统计情况,对于第一统计图中的每个代表统计的排名区间的小图形,各排名区间的等距分布,相邻排名区间为连续的排名。

本发明通过将排名数据进行聚类,得到可视化的结果,从而可以快速选取所需排名趋势和稳定性的对象。可以应用在导师或教授排名,学校排名等各类排名系统中,从而可以快速选取得到所需排名趋势和稳定性的导师,而现有技术中,只有单一标准下的导师排名,而通过本方法可以选取到排名不高但是排名趋势较优秀的导师,例如最几年一直保持排名上升且稳定性较好的导师。

其中排名标准包括几类,可以代表机构(例如某家公司对其的排名),角度(例如从学术角度,从影响力角度等),或排名方式(例如权重的不同,计算公式的不同)。

同时,本发明可以在第二可视化图像的第一统计图中,当部分排名标准有了不正常的排名区间,例如区别于大部分其他的排名区间,即找出所选的聚类中对排名造成不同影响的排名标准,进而可以选择去除某些不正常的数据,从而更好地帮助用户选择所需的排名对象。

为了减少无用的数据,聚类前,对于筛选后的排名数据进行处理,包括将排名标准较少的导师数据删除,对于数据上的错误进行更正。

优选的,步骤1中,获取并筛选时序排名集合的具体步骤如下:将排名数据整理为时序排名集合,时序排名集合数据为:在t时间上,则有时序排名数据:M是时序排名集合数据中的排名对象的数量,m代表任一一个排名对象;对于任何一个排名集合数据N代表了排名标准的数量,n代表任一一个排名标准;为时序排名集合数据的排名对象m的排名集合,此时时序排名集合数据表示为

每一层数据结构都赋予了语义,在操作时,是排名对象m所有时间上的排名集合,是指导师m在t时刻的排名集合,是排名对象m 在t时刻下排名标准n的排名,Rt是t时刻所有导师的排名集合。

例如下表就表示了某导师的排名数据:

某导师的排名数据2011年2012年2013年……某公司对其的排名31223……学术排名51013……影响力排名71620……X公式下的排名4810………………………………

聚类的目的是可以让排名趋势相近的导师划分在同一个聚类中(例如都是一直上升,或者都是先上升后下降),在寻找符合特定排名的导师的时候可以缩小范围。优选的,步骤2中,采用动态时间规整算法进行聚类。

用动态时间规整(DTW)算法时,可以比较趋势的相似性,而不是简单的把距离相减,对于动态时间规整(DTW)算法,定义了一种距离衡量标准,对于任一一对i,j为任一两个不同的排名对象,计算距离其中t1,t2属于各自集合的时间序列,所以在t1,t2上两个集合的距离表示为DTW是比较两个时间序列的相似性,每个时间序列上有多个排名集合,需要定义两个不属于同一时间序列的两个集合的距离的衡量标准也就是D。然后基于DTW算出的相似性,规定聚类的数量(就是聚成几类),用层次聚类方法进行聚类。

为了更多地展示聚类中的信息,给使用者更多的选择,优选的,步骤 4中,第一可视化图像包括:用图形大小代表聚类中的排名对象的数量,图形中心用统计图表对该聚类的排名趋势进行表示,图形填充颜色代表稳定性,稳定性越好颜色越深。

用图形代表聚类,可以用圆,三角形,长方形等数学图形,优选的,其中,图形为圆形,半径代表排名对象的数量;第二统计图表采用折线图。

优选的,对于每一个排名区间通过第三统计图的方式查看统计排名标准出现的次数。进而在发现不正常的排名区间时既可以得到不正常的排名标准。

为了得到所需的排名趋势,在第一统计图中选择去除掉某一个排名标准(不正常的排名标准)给出的排名数据,用动画过渡的形式(形式可以选择)刷新排名结果,排名对象的排名刷新前后改变区间时,会在过渡时用高亮提示,对于升高和下降的排名对象的高亮颜色进行区分,看去除掉此排名标准后排名对象的排名的变化情况。并在某一个地方显示被去除的排名标准,可以进行复原此排名标准数据的操作,并进行动画过渡。同时用另一种图形代表每一个排名对象,根据这些排名对象在这个时间上的平均排名,把他们分布在第一统计图中每个小图形表示的排名区间中。对于相邻时间上的同一个排名对象进行连接,用来观察每一个排名对象的平均排名随着时间的变化情况。

为了更好地展示每一个排名对象的变化趋势,优选的,第二可视化图像中对于相邻时间上的同一个排名对象通过线条进行连接。

要连接的两侧图形过多的时候,线的交叉会增多,如果采用实心线条会十分杂乱,看不出两个相邻时间上排名对象的总和排名的变化情况。优选的,所述线条为热力图线条,热力图线条的颜色代表在前时间的排名对象的排名稳定性。即方差越大,稳定性越差,此时所生成的热力图线条的颜色更淡,宽度更大。这样对于此相邻时间内所有的热力图线条来说,可以展现整体的排名趋势,同时尽可能让稳定性差的排名对象所带来的,对于排名趋势的影响变小。

优选的,对第二可视化图像可以进一步展开得到第三可视化图像,展开方式如下:对第二可视化图像任一时间的排名对象进行部分框选,框选后在所有时间上都只会保留框选的排名对象。

本发明的有益效果:

本发明的排名趋势和排名稳定性的影响因素的快速查找方法,可以从复杂的排名数据中快速得到所需排名趋势的排名对象以及该排名对象的稳定性,同时还可以快速找出影响因素,可以有效帮助用户快速找到适合自己的导师或学校。

附图说明

图1本实施例的方法中第一可视化图像的示意图。

图2为本实施例的方法中第二可视化图像的示意图。

图3是第二可视化图像进一步框选后得到的第三可视化图像的示意图。

具体实施方式

下面通过实施例结合附图详细描述本发明,本实施例的排名对象是导师,本实施实例的排名趋势和排名稳定性的影响因素的快速查找方法,包括数据处理部分和系统操作部分,具体包括以下步骤:

数据处理部分:

步骤1:筛选数据,获取导师排名数据,数据必须包括,在不同排名标准中对于导师在不同时间的排名,其中排名标准包括代表机构(例如某家公司对其的排名),角度(例如从学术角度,从影响力角度等),或排名方式(例如权重的不同,计算公式的不同)。此种形式数据为时序排名集合数据,形式如下,时序排名集合数据为:对于为在t时间上,则有时序排名数据M是时序排名集合数据的人数,m代表第几个人,对于任何一个排名集合数据N代表了排名标准的数量,n代表第几个排名标准;为时序排名集合数据的排名对象m的排名集合,此时时序排名集合数据为具体的时序排名集合数据例如下表:

某导师的排名数据2011年2012年2013年……某公司对其的排名31223……学术排名51013……影响力排名71620……X公式下的排名4810………………………………

对于筛选后的导师排名数据进行处理,包括将排名标准较少的导师数据删除,对于数据上的错误进行更正。

步骤2:对于处理好的导师排名数据进行聚类,目的是可以让排名趋势相近的导师划分在同一个聚类中,例如都是一直上升,或者都是先上升后下降,在寻找符合特定排名的导师的时候可以缩小范围。用动态时间规整(DTW)算法可以比较趋势的相似性,而不是简单的把距离相减。对于动态时间规整(DTW)算法,我们定义了一种距离衡量标准,对于每一对我们计算距离其中t1,t2属于各自集合的时间序列。所以在t1,t2上两个集合的距离表示为

步骤3:把得到的多个聚类信息进行存储,索引结构为,聚类ID,包含的导师信息,排名标准的信息,时间信息,导师在此排名标准下此时间上的排名。

系统操作部分:

步骤4:将步骤3得到的多个聚类进行可视化,其中排名随着时间逐渐增长的导师排名聚类的第一可视化图像如图1所示。

用图形代表聚类,用圆形代表聚类,对半径编码导师数量,易于和其他聚类比较,不会像其他多边形一样有歧义。在图形中间用折线表示趋势时,可以让折线处于正中间,折线图为第二统计图。

每年排名都很稳定的导师,排名稳定意味着,不同排名标准下的排名稳定性都比较高,导师的排名也更加准确。圆形内的填充颜色的深浅代表稳定性,每个聚类下所有导师在不同时间、不同排名标准给出的排名的方差的总和作为该聚类的稳定性,方差越小,颜色越深,也意味着排名的稳定性越好。

步骤5:从聚类中选取符合用户需求的聚类,对于选择排名随着时间逐渐增长的导师,可以选择,导师数量多(更大的图形),图形中心的统计图中趋势上升更明显的一个或多个聚类进行下一步操作。因为聚类的导师数量多,同时总体导师的平均排名情况随着时间而上升,更容易在后面的操作中找到特定的导师。

在步骤4中,可以对如图1所示的聚类进行进一步的可视化的展示得到第二可视化图像,如图2所示,标记出聚类中所有导师数据的时间范围,在每一个时间上,展现其时间对应的导师数据;

另外,在每个时间的上,用第一统计图去表示在该聚类中所有导师在 不同的排名标准给出的排名的总体的统计情况,展现其时间对应的导师数 据,对于统计图中的每个小图形,代表统计的排名区间,排名区间的统计 范围一样,相邻排名区间为连续的排名,例如第一个排名区间是1-50,第 二个排名区间为51-100。对于每一个排名区间,可以进行点击操作后,通 过第三统计图的方式查看哪些排名标准给导师的排名在此区间,并统计这 些排名标准出现的次数,本实施例中,第三统计图为圆饼图。在第一统计 图中可选择去除掉某一个排名标准给出的排名数据,用动画过渡的形式刷 新排名结果,导师排名刷新前后改变区间时,会在过渡时用高亮提示,对 于升高和下降的导师的高亮颜色进行区分,看去除掉此排名标准后导师排 名的变化情况。并在某一个地方显示被去除的排名标准,可以进行复原此 排名标准数据的操作,并进行动画过渡。同时用另一种图形代表每一个导 师,根据这些导师在这个时间上的平均排名,把他们分布在第一统计图中 每个小图形表示的排名区间中。对于相邻时间上的同一个导师进行连接, 用来观察每一个导师的平均排名随着时间的变化情况。

第一统计图可以用直方图,折线图,散点图等。用直方图可以满足多个需求,此时小图形即为矩形线框3,每个矩形线框3可以明确的表示排名区间,也可以容纳下代表导师的图形。折线图和散点图或者把矩形换成椭圆形,都难以区分不同排名区间下的导师。

用图形代表此时间上的导师,可以用圆形,正方形,三角形等。本实施例中,用圆形1代表每一个导师,当导师数量很多时,用圆形可以节省面积,不会造成边的重叠现象,同时彼此之间有空隙,减少误选操作。

圆形内的填充颜色的深浅代表此时间下某导师由不同排名标准给出的排名的方差,方差越小,颜色越深,也意味着排名的稳定性越好。

图形的位置代表了导师在此时间上的平均排名,分布在统计图中对应的排名区间代表的矩形线框3。

每个相邻时间下对同一个导师的图形进行连接。显示此导师相邻时间内平均排名的变化情况。可以用热力图,直线,曲线等方式,本实施例中,用热力图线条2进行连接,在生成热力图的时候,对于相邻时间的两个导师图形,时间在前的导师图形颜色越浅,即方差越大,稳定性越差,此时所生成的热力图线条的颜色更淡,宽度更大。这样对于此相邻时间内所有的热力图线条来说,可以展现整体的排名趋势,同时尽可能让稳定性差的导师所带来的,对于排名趋势的影响变小。从而使直线和曲线会有重叠现象,用热力图可以避免突兀的交叉和难以区分的重叠现象,热力图的颜色深浅代表了此区域的交叉和重叠的多少,可以看出相邻时间上导师的平均排名变化情况。

对于统计图中的每一个矩形线框,代表统计的排名区间,排名区间的统计范围一样,相邻排名区间为连续的排名,图2中,可以设定第一个排名区间是1~50,第二个排名区间为51~100。同时用圆形代表每一个导师,根据这些导师在这个时间上的平均排名,把他们分布在统计图中每个小图形表示的排名区间中。对于相邻时间上的同一个导师进行连接,用来观察每一个导师的平均排名随着时间的变化情况。

另外,本实施例还可以对图2这一类的第二可视化图像进行进一步展开,框选方式如下:

对每个统计图中的排名区间进行框选,同时也框选得到了排名区间内的包含的导师,框选后在所有时间上只会保留和框选得到的导师一样的导师图形,同时包含导师图形的统计图中的矩形线框。

可以对多个时间上的导师排名区间进行框选,从最后一年往前,依次选取越来越低的排名区间,并且可以对已选取排名区间进行调整,框选后的趋势效果如图3所示,从而得到所需趋势的导师。

在步骤4进行上述操作后,进而可以在步骤5中对聚类展开的图形做进一步的分析。

另外当鼠标移动到某个代表导师的图形上时,会用线串联每一个时间上的属于此导师的图形,可以观察到这个导师在每一年中平均排名的变化,同时显示此时间上导师的具体排名信息。每一个导师图形的颜色深浅,表明了此导师在这一年的排名稳定程度,通过比较每条连线上的导师图形颜色深浅,来确定哪些导师的总体排名稳定程度更好。点击此图形,会显示此代表的导师所有时间上由不同排名标准给出的排名信息。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号