首页> 中国专利> 专利信息数据处理分析平台

专利信息数据处理分析平台

摘要

本发明公开了专利信息数据处理分析平台,涉及数据处理平台技术领域。平台包括数据导入模块、数据预处理模块和数据分析模块;数据导入模块用于处理专利数据来源问题,数据预处理模块用于处理导入数据的清洗问题,导入的数据经过预处理后,由用户选择需要计算的指标的数据范围、时间跨度、时间窗口,以及专利数据的区域层次,数据分析模块计算相应的网络指标。本发明是为用户量身打造的平台,满足用户在处理分析专利数据时面对无数据可用、无专业的数据处理方法等难题。平台设计灵活,方便用户操作,数据处理结果可视化,并可通过图表等多种形式向用户展示。

著录项

  • 公开/公告号CN113268516A

    专利类型发明专利

  • 公开/公告日2021-08-17

    原文格式PDF

  • 申请/专利权人 西安循数信息科技有限公司;

    申请/专利号CN202110614186.X

  • 发明设计人 孙笑明;熊旺;王雅兰;马浩智;

    申请日2021-06-02

  • 分类号G06F16/2457(20190101);G06F16/248(20190101);G06F16/28(20190101);G06F16/215(20190101);

  • 代理机构61223 西安铭泽知识产权代理事务所(普通合伙);

  • 代理人张举

  • 地址 710065 陕西省西安市雁塔区雁翔路99号西安交大博源科技广场C座414

  • 入库时间 2023-06-19 12:14:58

说明书

技术领域

本发明涉及数据处理平台技术领域,特别是涉及专利信息数据处理分析平台。

背景技术

随着专利我国专利数量的日渐增多,越来越多的个人和公司逐渐产生了专利管理的需求。但是经过对市场上众多用户实际需要的调查,目前的专利信息数据处理分析平台仍然存在这诸多漏洞,存在用户在处理分析专利数据时无数据可用、无专业的数据处理方法等问题。

发明内容

本发明提供的专利信息数据处理分析平台,可以解决现有技术中存在的问题。

本发明提供了专利信息数据处理分析平台,包括数据导入模块、数据分析模块和数据展示模块;所述数据导入模块用于处理专利数据来源问题,导入的数据包括专利数据库中的数据和用户自行导入的专利数据,从专利数据库中导入的数据已经按照要求进行清洗,可直接使用;而用户自行导入的专利数据需要按照一定规则进行清洗;

所述数据预处理模块用于处理导入数据的清洗问题,对数据的清洗内容包括:特殊字符清洗、公司关系清洗、发明人姓名清洗;

所述数据分析模块用于根据用户选择的数据范围、时间跨度、时间窗口,以及专利数据的区域层次,计算预处理后的数据对应的网络指标;所述数据分析模块计算网络指标的方法为:

选择区域层次;

选择时间窗口大小以及时间窗口是否折叠,按照时间窗口大小与时间窗口是否折叠从数据库中提取符合条件的数据;

根据提取的数据生成网络;

根据选择的网络计算网络指标并保存;

所述数据展示模块用于对所述数据分析模块的分析结果展示,提供网络指标结果的下载与导出,并提供指标结果的可视化图形与对应的分析参考报告。

优选地,所述区域层次包括整体层次和个体层次,如果用户选择整体层次,则需要在前端页面选择区域或者指定分析的专利数据;如果用户选择个体层次,则需要在前端页面选择需要分析的公司;同时也支持用户根据区域选择分析的层次,如果是整体层次则根据公司地址过滤在该区域内的所有的公司,如果是个体层次则同样分析在该区域内指定公司的专利数据。

优选地,供用户选择的网络包括:公司合作网络、发明人合作网络、发明人知识网络和专利引证关系网络。

优选地,所述发明人合作网络的网络指标计算方法为:

生成发明人对应专利数量、前向应用数量与被授权的年数、第一个专利到end_year的时间间隔;

统计专利数量,统计前向引用/授权时间;

计算截止到t年,发明人自申请到第一个专利的年数,进而计算创造力指数;

获取关键发明人,关键发明人是指创造力指数大于均值一个标准差的发明人,获取关键发明人对应所有的合作者名单;

计算关键发明人结构洞系数与中心性;

获取关键发明人中的联系人;

计算关键发明人联系人的知识深度与宽度,计算关键发明人自我中心网络中的平均关系强度。

优选地,对于三个专利构成的发明人合作网络,三个专利分别为专利1、2和3,专利1的发明人有A、B、C和D,专利2的发明人有B、D和E,专利3的发明人有C和E;

由于专利1的发明人共同申请一个专利,所以存在合作关系,因此专利1的发明人之间两两之间都会有连接存在,同样专利2和3的发明人之间也是如此,通过这种方式构建发明人合作网络;

对于个体的自我中心网络的构建,先选定某一个发明E,找到与E有合作关系的所有发明人B、D和C,从整体网络中将发明人B、D和C的关系提取出来加入到发明人E的个体网络中,就形成了发明人E的自我中心网络。

优选地,需要计算的网络指标包括中心性、结构洞系数,所述中心性是衡量节点在网络中的影响力指标,所述中心性采用度数中心性、中间中心性和接近中心性三种测算方法;

所述度数中心性分为两类:绝对度数中心性和相对度数中心性,节点的绝对度数中心性表示与这个节点直接连接的其他节点的数量,节点的相对度数中心性是节点的绝对度数中心性与网络中节点的最大可能度数之比,节点的绝对度数中心性计算公式为:

其中,a

所述中间中心性用来表示节点V

其中,n

所述接近中心性用来描述网络中某个节点不受其他节点控制的程度,通过网络中一个节点与网络中所有其他节点的最短距离之和来测算一个节点的接近中心性,计算公式为:

其中,d

所述结构洞系数表示网络中两个节点之间非冗余的联系,网络的结构洞系数计算公式为:

其中,V是发明人合作网络中所有发明人的集合,σ(s,t)表示从发明人s出发到发明人t的最短路径,σ(s,t|v)表示经过发明人v的从发明人s出发到发明人t的最短路径。

优选地,从专利数据库中导入的数据已经按照要求进行清洗,直接使用;而用户自行导入的专利数据需要按照一定规则进行清洗。

优选地,还包括登录模块,所述登录模块和权限管理模块,所述登录模块用于提供用户注册和用户登录功能,对于第一次登录的用户,用户需要在登录模块的界面上输入信息注册新的账号,对于之前已注册过的用户,只需输入登录的账号即可;所述权限管理模块用于根据用户的付费程度提供相应的系统功能;还用于处理平台的权限分配、用户管理,其中权限分配包括角色管理、页面管理、按钮管理。

优选地,还包括数据搜索模块,所述数据搜索模块根据用户自身需要进行多条件数据筛选,对于筛选的结果可导出和下载数据。

优选地,还包括日志处理模块,所述日志处理模块用于记录平台的操作日志与数据访问日志,方便后续的问题排查与系统分析。

本发明中的专利信息数据处理分析平台,调查市场上众多用户的实际需要,分析当前市场在数据处理分析平台存在的漏洞,为用户量身打造信息数据处理分析平台,满足用户在处理分析专利数据时面对无数据可用、无专业的数据处理方法等难题。平台设计灵活,方便用户操作,数据处理结果可视化,并可通过图表等多种形式向用户展示。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明中平台的功能模块图;

图2为网络指标的计算流程;

图3为区域层次的示意图;

图4为时间窗口移动示意图;

图5为常见评价指标;

图6为网络生成构建示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参照图1,本发明提供了专利信息数据处理分析平台,该平台主要包括登录模块、数据搜索模块、数据导入模块、数据预处理模块、数据分析模块、数据展示模块、用户管理模块、权限管理模块和日志处理模块。本发明的平台采用mvvc前后端分离模式,将数据层、服务层、展示层抽离出来,展示层与服务层前后端交互使用restful接口形式的json数据。服务层根据各个模块的功能独立开发并进行解耦,模块间通过接口进行调用,方便后续的更新迭代。数据层使用mysql数据库,将常用数据如权限信息、服务层信息加入redis缓存加快页面响应速度。

所述登录模块用于提供用户注册和用户登录功能。对于第一次登录的用户,用户需要在登录模块的界面上输入手机号、邮箱等信息注册新的账号。而对于之前已注册过的用户,只需输入之前登录的账号即可,无需再次注册,即可立即享受服务。用户通过登录模块登录平台之后,可以看到对于该平台简述的主页,在主页可以展示平台功能大概介绍,方便用户可以快速了解平台的功能模块,可根据自身的实际需要快速找寻功能模块,方便用户操作浏览。

本发明的平台集成了全球多个国家的专利数据,涉及制造业、通信行业、医疗行业等多个行业,海量数据可满足用户的多方面需要。用户可根据自身需要通过数据搜索模块进行多条件数据筛选,对于筛选的结果可导出和下载数据。

所述数据导入模块主要处理专利数据来源问题,导入的数据支持两种数据源,包括专利数据库中的数据和用户自行导入的专利数据,该模块下专利数据库中的数据是已经按照要求清洗过后的数据,因此可以直接使用。而对用户自行导入的专利数据会按照一定规则进行校验,不符合规则的数据会提示用户数据无法导入的原因,不会导入到数据库中。用户可根据提示信息重新整理数据,方便之后的数据处理分析。

由于专利数据容量大、相似度高,所以在数据在分析之前都需要进行预处理,防止数据重复计算。所述数据预处理模块主要处理导入数据的清洗问题,该模块中分为3个清洗步骤,用户可以自由选择搭配需要的清洗步骤,包括:特殊字符清洗、公司关系清洗、发明人姓名清洗。由于用户在之后的数据处理过程中的要求不同,可根据自身需要选择的清洗步骤,提高数据分析处理的准确度。

数据分析不能一概而论,而是要具体分析用户的需要,分门别类的处理数据,提高数据分析的精准度。所述数据分析模块主要处理指标计算问题,用户可以选择需要计算的指标的数据范围、时间跨度、时间窗口,以及专利数据的区域层次(如图3所示):整体层次、个体层次,进而计算不同的网络指标,如图2所示。可选择的数据层次中每种层次下都包含不同的数据处理分析指标,针对用户的个性化需要,不同层次下数据处理的方式也不尽相同。

数据在经过复杂的算法处理后,所述数据展示模块通过图表相结合的方式展现公司、高校的专利情况、创新产出情况,方便衡量公司未来的商业价值、创新价值。用户可直接导出数据展示的图表,方便在其他地方展示和使用数据分析结果。

用户在注册账号后,后台可以看到所有用户的信息,所述用户管理模块严格管理用户身份信息,确保其不会泄露。其中,对于平台进行恶意操作的用户将由用户管理模块进行封号,恶意操作包括窃取平台的数据、数据处理方法等。

所述权限管理模块用于根据用户的付费程度提供相应的系统功能。若用户现有的付费功能不能满足使用,用户可继续付费使用其他功能,所述权限管理模块即对权限进行修改。同时,所述权限管理模块还用于处理平台的权限分配、用户管理,其中权限分配又可以细化为角色管理、页面管理、按钮管理,该模块下可以新增/修改/删除用户和权限。

所述日志处理模块主要用于记录平台的操作日志与数据访问日志,方便后续的问题排查与系统分析。

所述数据分析模块是基于现有社会网络的计算要求设计的。数据在经过前期的数据导入和数据预处理的过程后,需要对数据建立相应的网络,分析和计算网络指标。但是由于网络计算繁杂,涉及众多专业的数据处理方法,人工自行处理很容易出现计算步骤错误、步骤遗漏等各种问题。经过对多位专家的咨询,结合指标计算的实际需求,设计的数据分析模块具有计算指标选择和网络指标计算两大功能。

经过数据导入和预处理的专利数据可以进行数据分析阶段。数据分析可以分为4个步骤:

选择区域层次;

选择时间窗口大小以及时间窗口是否折叠,按照时间窗口大小与时间窗口是否折叠从数据库中提取符合条件的数据;

根据提取的数据生成网络;

根据选择的网络计算网络指标并保存。

用户根据需求选择专利数据的区域层次,其中的整体层次包括公司合作网络和公司知识网络,个体层次中包括发明人合作网络、发明人知识网络和专利引证关系网络。如果用户选择整体层次,则需要在前端页面选择区域或者指定分析的专利数据。用户如果选择个体层次,则需要在前端页面选择需要分析的公司。同时也支持用户根据区域选择分析的层次,如果是整体层次则根据公司地址过滤在该区域内的所有的公司,如果是个体层次则同样分析在该区域内指定公司的专利数据。用户在确定好区域层次后,需要选择时间窗口大小以及时间窗口是否折叠。时间窗口是指专利申请时间的跨度范围,时间窗口是否折叠是指时间窗口的移动过程是按照最大窗口长度还是按照单位年份。

图4为时间窗口移动的过程,其中不折叠是折叠的一种特殊情况,其移动步长为时间窗口的大小。

在根据提取的数据生成网络时,常见的网络包括:公司合作网络、发明人合作网络、发明人知识网络和专利引证关系网络,如图5所示。

从节点属性出发,主要包括中心性、结构洞系数等网络指标。中心性是衡量节点在网络中的影响力指标。在发明人合作网络中,中心性可以用来描述发明人在公司内部的重要程度。按照测算方法的不同,中心性可以采用度数中心性、中间中心性和接近中心性三种测算方法:

(1)度数中心性

度数中心性分为两类:绝对度数中心性和相对度数中心性。节点的绝对度数中心性是表示与这个节点直接连接的其他节点的数量。在发明人合作网络中,发明人的绝对度数中心性是指与该发明人有直接合作关系的其他发明人的数量。节点的相对度数中心性是节点的绝对度数中心性与网络中节点的最大可能度数之比。在发明人合作网络中,发明人的相对度数中心性表示与该发明人有直接合作关系的其他发明人的数量与其最大可能合作关系的比率。度数中心性较高的发明人通常在公司中扮演非常重要的角色,并占据相对重要的位置。节点的绝对度数中心性的测算指标计算公式为:

其中,a

(2)中间中心性

中间中心性是用来表示节点V

其中,n

(3)接近中心性

接近中心性是用来描述网络中某个节点不受其他节点控制的程度。在发明人合作网络中,接近中心性是用来表示某个发明人在网络中获取信息和向其他发明人传递信息的能力,很大程度上是由该发明人和其他发明人之间的最短路径决定。接近中心性主要考虑发明人之间互相合作沟通的独立性,当一位发明人与其他发明人之间的最短路径越小时,这位发明人的接近中心性更高,发明人越处于网络中合作交流的中心位置,更加容易和其他发明人产生合作关系,此时发明人在合作网络中便占据一个比较重要的地位。通过网络中一个发明人与网络中所有其他发明人的最短距离之和来测算一个发明人的接近中心性,测量指标计算公式为:

其中,d

(4)结构洞系数

结构洞是表示发明人合作网络中两位发明人之间非冗余的联系。一般在计算发明人的结构洞系数时使用Freeman的中间中心性指标。鉴于占据结构洞位置的中间人往往处于比较重要的地位,因此Freeman使用中间中心性指标作为结构洞系数,测量在发明人合作网络中发明人对资源的控制程度。标准化的中间中心性指标的取值介于0和1之间,其值越大,说明对应的节点越具有中间人的特性,结构洞越多,越居于整体网的核心位置。整体网的结构洞系数测度指标计算公式为:

其中,V是发明人合作网络中所有发明人的集合,σ(s,t)表示从发明人s出发到发明人t的最短路径,σ(s,t|v)表示经过发明人v的从发明人s出发到发明人t的最短路径。

所述发明人合作网络的网络指标计算方法为:

生成发明人对应专利数量、前向应用数量与被授权的年数、第一个专利到end_year的时间间隔;

统计专利数量,统计前向引用/授权时间;

计算截止到t年,发明人自申请到第一个专利的年数,进而计算创造力指数;

获取关键发明人,关键发明人是指创造力指数大于均值一个标准差的发明人;获取关键发明人对应所有的合作者名单;

计算关键发明人结构洞系数与中心性;

获取关键发明人中的联系人;

计算关键发明人联系人的知识深度与宽度,计算关键发明人自我中心网络中的平均关系强度。

下面介绍发明人合作网络的生成方法。在同一条专利数据中,任意两个发明人之间都存在联系,由于同一个发明人可能在其他专利中与不同的发明人产生联系,所以通过专利数据中的申请人信息可以构建一个公司内部不同发明人之间的一个发明人合作网络。如图6所示,具体生成网络的方法如下:假设有三个专利分别为专利1、2和3,专利1的发明人有A、B、C和D;专利2的发明人有B、D和E;专利3的发明人有C和E。那么专利1的发明人由于共同申请了一个专利,所以存在合作关系,因此他们两两之间都会有连接存在,同样专利2和3的发明人之间也是如此,通过这种方式就可以构建发明人合作网络。对于个体的自我中心网络的构建,则先选定某一个发明人比如E,然后找到与E有合作关系的所有发明人B、D和C,从整体网络中将发明人B、D和C的关系提取出来加入到发明人E的个体网络中,就形成了发明人E的自我中心网络。

根据生成的网络可以将其转换为0-1矩阵,1代表两点之间存在联系。将生成的矩阵以字符串的形式保存至数据库对应的表中用于后续指标的计算。

由于现有的软件,例如ucinet、MATLAB等软件转换成0-1矩阵对于大部分进行社会网络研究人员来说,工作量大、操作难、不便于操作。而本发明在生成网络后可直接转换成0-1矩阵。

根据用户的不同需要,还可以建立公司合作网络和发明人知识网络。公司合作网络是指将公司和经济组织间相互依赖的活动关系看作是一种公司网络,而各种从事这类活动的经济行为者就是网络中的节点。处于公司网络中的公司间的互动将不是通过市场交易,也不是通过公司的内部一体化过程,而是通过组织间的彼此协调来完成。公司可以通过网络来获得资源,使自己有可能克服自身的局限,实现公司的经营目标。发明人知识网络是知识参与者之间的社会网络。能够实现个人、组织与组织外部的知识创造与传递,人们透过知识网络进行信息合作与交流。目标是把技术与人连接起来,实现智力资本、结构资本和顾客资本的有效结合。可分为内部知识网络和外部知识网络,前者强调组织内部员工间与组织间的知识交流,后者强调组织外部的知识来源,包括社区、国家社会关系,以及竞争者。用户在数据分析时候可选择建立哪种网络,例如:公司合作网络、发明人合作网络、发明人知识网络、专利引证关系网络四种网络。

合作网络的生成方法如下:

设置基本数据,处理特殊字符;

比较两个字符串的相似程度,这里设置拼音和汉字各占用一半;

替换特殊字符串;

将读取的excel文件list根据计算方式统计分类号出现的次数;

计算base_data_list中不同发明人的分类号个数;

根据计算方式把分类号字符串切割后添加到class_number_dict中;

计算拥有不同分类号数量的员工数量;

计算不同阈值下小组数量,交叠率,空集率。

用户将准备好的数据导入平台中,选择相应的网络类型,即可一键生成网络,并且合作网络和知识网络的设立的指标已经过专业人士验证,并且经过多次验证,具备可靠性。用户可根据指标名称、重要程度、网络类型等指标进行查询筛选,同时如若用户的权限达到某种程度,用户可自行添加筛选条件。

在网络指标计算过程中,每一个网络内含20个详细的计算指标,满足用户的全方位需要,用户可自行选择指标以及时间窗口。若现有的计算指标不能满足用户的需要,用户可自行选择添加。平台具备记忆性,下一次用户可直接选择所需的计算指标,无需再次添加。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号