公开/公告号CN113326372A
专利类型发明专利
公开/公告日2021-08-31
原文格式PDF
申请/专利权人 贵阳业勤中小企业促进中心有限公司;
申请/专利号CN202110525628.3
申请日2021-05-13
分类号G06F16/35(20190101);G06F16/36(20190101);G06F16/33(20190101);
代理机构50219 重庆百润洪知识产权代理有限公司;
代理人章明美
地址 550081 贵州省贵阳市高新区阳关大道28号中国西部(贵阳)高新技术产业研发生产基地2号楼1单元10层5号
入库时间 2023-06-19 12:24:27
技术领域
本发明涉及知识产权数据分析技术领域,特别涉及一种基于技术位置的知识产权数据分析方法。
背景技术
目前,大众对于知识产权的保护意识越来越强,对于科技企业来说,专利是保护自主创新的有效手段,然而,现有技术中,企业主要通过对申请后的专利进行收集,人工进行分析处理,耗时耗力,缺乏对专利进行智能分析的有效手段,使得企业在进行专利布局和技术研发方向上缺乏指导。
为此,提出一种基于技术位置的知识产权数据分析方法。
发明内容
本发明的目的在于提供一种基于技术位置的知识产权数据分析方法,该方法通过矩阵图直观地显示企业从企业成立到当前的这个时间段内所有专利技术的相关性和联系以及某一特定领域的技术热点和空白点,使得企业整体地了解自己的技术发展和专利布局情况,并前瞻性地了解企业未来技术发展和专利布局方向,提高专利布局的可靠性和实用性。
为了实现上述目的,本发明的技术方案如下:
一种基于技术位置的知识产权数据分析方法,包括以下步骤:
步骤1:通过API接口与国家知识产权局专利数据库对接,输入用户企业名称以获取用户企业专利并储存在云数据库中;
步骤2:对所属用户企业专利中的说明书进行技术和功效标引,获得技术特征与达到的技术功效集合,构造技术功能矩阵;
步骤3:利用余弦夹角的方法计算专利与说明书之间的技术相似度;
步骤4:专利聚类分析,获得聚类结果;
步骤5:构建生命周期曲线模型;
步骤6:将聚类结果与生命周期曲线模型相结合,获得知识产权数据分析结果。
具体的,所述步骤2中对所属用户企业专利中的权利要求书进行技术和功效标引的具体步骤为:对所属用户企业专利中的说明书进行NLP自然语言处理,进行分词、去停用词和词频统计,提取技术关键词与达到的技术功效,按照词频排名,并转化成为技术功能矩阵C
具体的,所述步骤3中的余弦夹角的公式为
其中,Ai由{kC
具体的,所述步骤4中专利聚类分析方法为k-medoids算法,步骤如下:
(41)根据IPC分类号将所属用户企业的专利按照技术领域进行分类,获得q个总类;
(42)在q个总类中随机选取r个类作为参考点Z
(43)按照与medoids最近的原则,将剩余的q-r个技术主题分配到各个簇类当中;
(44)对于第t个簇类中除对应参考点外的所有类,按顺序计算当其为新的参考点时,准则函数的值,遍历所有可能,选取准则函数最小时对应类作为新的簇类;
(45)重复执行(43)和(44)的过程,直到所有类不再发生变化或已达到设定的最大迭代次数;
(46)最终确定r个簇类。
具体的,所述步骤5中构建生命周期曲线模型的步骤如下:从企业成立到当前,以某项技术相关申请量和相关专利申请量进行模型构建,其中,时间为X轴,专利申请数量为Y轴,绘制二维S曲线,对其进行logistis回归拟合,根据预设的技术生长率和技术成熟系数评价指标,通过定量和定性相结合的方式获得技术所在的生命周期。
本发明的有益效果为:本发明以技术、功能和生命周期为研究对象,通过技术功能矩阵分析方法,构建专利技术功能矩阵,能够直观的呈现分析结果,并在矩阵图中体现技术相关性和联系,简明扼要地呈现技术特点和状况,为更全面地展示技术特征内容,同时,还可以找到技术功效的空白点、热点和周期点,根据实际需求和技术状况开展专利网的构建和布局思考;将聚类结果与生命周期曲线模型相结合,可以帮助提高专利布局的可靠性和实用性。
附图说明
图1为本发明实施例的方法流程图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考附图1,一种基于技术位置的知识产权数据分析方法,包括以下步骤:
步骤1:通过API接口与国家知识产权局专利数据库对接,输入用户企业名称以获取用户企业专利并储存在云数据库中;
步骤2:对所属用户企业专利中的说明书进行技术和功效标引,获得技术特征与达到的技术功效集合,构造技术功能矩阵;
步骤3:利用余弦夹角的方法计算专利与说明书之间的技术相似度;
步骤4:专利聚类分析,获得聚类结果;
步骤5:构建生命周期曲线模型;
步骤6:将聚类结果与生命周期曲线模型相结合,获得知识产权数据分析结果。
进一步的,本发明涉及的云数据库为每个用户企业配置相应的子数据库,在子数据库中预设专利分类包括发明专利和实用新型专利,从云数据库中分离出对应类型的专利数据,并存储到对应的子数据库中。
具体的,所述步骤2中对所属用户企业专利中的权利要求书进行技术和功效标引的具体步骤为:对所属用户企业专利中的说明书进行NLP自然语言处理,进行分词、去停用词和词频统计,提取技术关键词与达到的技术功效,按照词频排名,并转化成为技术功能矩阵C
进一步的,本发明涉及的NLP自然语言处理方法为根据专利科技词典、通用词典和行业词典,读取专利说明书;采用词向量技术进行向量训练,对专利说明书中的无用字符、停用词和低频词剔除,根据预设的语义规则对专利说明书进行标注,提取技术关键词与达到的技术功效,其中,预设的语义规则为W=(R,L1,L2),其中,L1和L2分别代表语义的前缀和后缀,R代表语义的出现规则。
进一步的,本发明的技术功效语义具有显著特点:(1)在说明书的有益效果位置往往比较集中,通常表现为若干分句连接在一起;(2)固定搭配。如:采用...具有...性能;(3)同一申请作者写法具有一定规律性和相似性。
具体的,所述步骤3中的余弦夹角的公式为
其中,Ai由{kC
进一步的,本发明在计算余弦夹角时需要对Ai和Bi进行归一化处理,数据经归一化后,最优解的寻优过程会变得平缓,更容易正确的收敛到最优解。
具体的,所述步骤4中专利聚类分析方法为k-medoids算法,步骤如下:
(47)根据IPC分类号将所属用户企业的专利按照技术领域进行分类,获得q个总类;
(48)在q个总类中随机选取r个类作为参考点Z
(49)按照与medoids最近的原则,将剩余的q-r个技术主题分配到各个簇类当中;
(50)对于第t个簇类中除对应参考点外的所有类,按顺序计算当其为新的参考点时,准则函数的值,遍历所有可能,选取准则函数最小时对应类作为新的簇类;
(51)重复执行(43)和(44)的过程,直到所有类不再发生变化或已达到设定的最大迭代次数;
(52)最终确定r个簇类。
进一步的,本发明采用k-medoids算法相较于k-means算法而言,对异常值敏感性较小,不会由于极大值的对象产生严重扭曲数据分布的问题,k-medoids算法是集群中位于最中心的对象,而不是将集群中的平均值作为参考点。
具体的,所述步骤5中构建生命周期曲线模型的步骤如下:从企业成立到当前,以某项技术相关申请量和相关专利申请量进行模型构建,其中,时间为X轴,专利申请数量为Y轴,绘制二维S曲线,对其进行logistis回归拟合,根据预设的技术生长率和技术成熟系数评价指标,通过定量和定性相结合的方式获得技术所在的生命周期。
进一步的,本发明采用S曲线构造生命周期曲线模型,能够直观地显示企业从企业成立到当前的这个时间段内专利申请量与实践的一般性规律,通过对专利申请数量与实践的关系分析,得到技术生命周期的四个阶段,每个阶段的专利会产生不同的特征。在企业成立初期,技术此时处于萌芽期,专利数量较少,只有几个技术研发与市场开发,表现为基础专利的出现;随着企业的短期发展,技术此时处于成长期,技术研发投入增多,专利数量激增;随着企业的长期缓慢发展,技术此时处于成熟期,专利数量趋于缓慢;随着企业的开展新业务,之前的技术此时处于衰退期,专利数量呈现负增长。
进一步的,本发明涉及的技术生长率为某项技术专利申请量占过去某段时间申请量的比率。
进一步的,本发明涉及的技术成熟系数为某项技术专利申请量占该项技术领域专利申请量的比率。
进一步的,本发明还将聚类结果与生命周期曲线模型相结合,获得知识产权数据分析结果,进一步提高专利布局的可靠性和实用性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
机译: 一种基于从地理位置分散的播放器捕获的内容自动生成协调的视听作品的技术
机译: 本发明提供了一种基于云的经由电子设备联网的方法和系统,其利用日期和时间可用性,预定技能要求,地理位置和实时技术的系统将企业(雇主)与个人(雇员/求职者)连接。
机译: 目的是提供一种标记系统,这里称为卡尔曼标记,特别适合在基于计算机的地图系统上使用,其中这些点在反馈回路中链接到位置,日期,文本信息和其他属性的可编辑数据库,例如网址,并指向天空盒新颖的功能是将技术和思想联系在一起,以创建一个可导航的信息世界。