首页> 中国专利> 一种知识产权重复率检测系统

一种知识产权重复率检测系统

摘要

本发明公开了一种知识产权重复率检测系统,涉及服务管理技术领域;为了解决不能对非文本,如图、表进行查重问题;具体包括数据库、输入单元、提取单元、判别匹配单元和规则制定单元,所述数据库与判别匹配单元通信连接,数据库为利用机器人或网络爬虫技术获取的现有公开知识产权,并进行去重后存储;所述提取单元与输入单元通信连接;所述判别匹配单元分别与提取单元、规则制定单元通信连接,判别匹配单元用于判别提取内容特征值与数据库中的所有数据特征值进行匹配分析。本发明提取特征值后再进行查重,更容易获取,加快了查重速度,分别对知识产权的文档内容及非文档内容进行查重,有效提高了查重准确率。

著录项

  • 公开/公告号CN112381680A

    专利类型发明专利

  • 公开/公告日2021-02-19

    原文格式PDF

  • 申请/专利权人 江西中兴达知识产权运营有限公司;

    申请/专利号CN202011276696.2

  • 发明设计人 廖庆文;

    申请日2020-11-16

  • 分类号G06Q50/18(20120101);G06F16/2455(20190101);G06F16/2458(20190101);G06F16/951(20190101);

  • 代理机构

  • 代理人

  • 地址 332000 江西省九江市共青城市共青西大道海联大楼1楼

  • 入库时间 2023-06-19 09:55:50

说明书

技术领域

本发明涉及服务管理技术领域,尤其涉及一种知识产权重复率检测系统。

背景技术

知识产权是关于人类在社会实践中创造的智力劳动成果的专有权利。随着科技的发展,为了更好保护产权人的利益,知识产权制度应运而生并不断完善,如今侵犯专利权、著作权、商标权等侵犯知识产权的行为越来越多,17世纪上半叶产生了近代专利制度;一百年后产生了“专利说明书”制度;又过了一百多年后,才产生了“权利要求书”制度。在二十一世纪,知识产权与人类的生活息息相关,现有的知识产权存在一些相同或者类似现象发生,没有专门的查重机构来辅助申请人进行申报前检查,专利输入过程后信息不能二次核对,申请人信息会出现错误情况,从而不方便人们使用,部分客户需要查阅提取资料,没有进行登记记录,不具备完善的管理系统。

经检索,中国专利申请号为CN201810910311.X的专利,公开了一种知识产权服务管理系统,包括用户客户端,为用户提供填写自身信息和输入知识产权信息窗口;输入模块,记录并提取用户信息和知识产权的信息;知识产权查重模块,是为检测用户提交的知识产权信息与储存模块中知识产权信息是否存在重复的问题;记录模块,记录知识产权信息下载记录,记录知识产权信息浏览,记录浏览下载用户信息;信息登记模块,登记需要浏览下载知识产权信息的客户信息。上述专利中的知识产权服务管理系统存在以下不足:只能进行文本查重,不能对非文本,如图、表进行查重,故无法准确的计算信息的重复率。

发明内容

本发明的目的是为了解决现有技术中存在的缺点,而提出的一种知识产权重复率检测系统。

为了实现上述目的,本发明采用了如下技术方案:

一种知识产权重复率检测系统,包括数据库、输入单元、提取单元、判别匹配单元和规则制定单元,所述数据库与判别匹配单元通信连接,数据库为利用机器人或网络爬虫技术获取的现有公开知识产权,并进行去重后存储;所述提取单元与输入单元通信连接;所述判别匹配单元分别与提取单元、规则制定单元通信连接,判别匹配单元用于判别提取内容特征值与数据库中的所有数据特征值进行匹配分析;所述规则制定单元用于生成查重规则,查重规则为待查重知识产权的每段或每句中有连续N个字与数据库中现有公开知识产权信息重复。

优选地:所述输入单元为输入待查重知识产权信息的窗口,包括文字输入模块和图形输入模块,文字输入模块为输入目标检测文档的文字内容窗口,文字内容为Word格式;图形输入模块为复制粘贴目标检测图表的窗口。

优选地:所述提取单元包括拆分模块和图形识别模块,拆分模块用于对待查重知识产权进行内容拆分成段,得到特征值,内容拆分成段包括知识产权的名称、知识产权的技术领域、知识产权的技术背景及知识产权的技术内容分段。

优选地:所述图形识别模块为对目标图表的区域轮廓缩放0.1~10倍,并识别存储每次缩放得到的区域特征轮廓。

优选地:所述拆分模块还包括将待查知识产权内容拆分成句。

优选地:所述判别匹配单元包括查找模块、重复率比较模块、统计模块和结果显示模块,查找模块为根据提取单元信息内容调取数据库所有数据信息;重复率比较模块为通过simhash算法计算查找模块与提取单元信息内容的文本重复率。

优选地:所述统计模块为根据重复率比较模块计算查重知识产权内容与数据库中的所有数据内容的总重复率;结果显示模块根据重复率比较模块和统计模块计算结果,将得到的文本重复块进行特征标记并输出查重结果。

优选地:所述规则制定单元还包括选择关联度大于设置阈值的查重语句为候选查重语句。

本发明的有益效果为:

1.本发明将待查文本数据粘贴至文字输入模块,通过拆分模块对待查重知识产权进行内容拆分成段或句,得到特征值,对非文档内容查重时,将待查文图像信息粘贴至图形输入模块,通过图形识别模块识别存储每次缩放得到的目标图表的区域特征轮廓,提取特征值后再进行查重,更容易获取,加快了查重速度,分别对知识产权的文档内容及非文档内容进行查重,有效提高了查重准确率。

2.本发明提取特征值后,查找模块根据提取单元信息内容调取数据库所有数据信息,重复率比较模块通过simhash算法得到重复率,百分比越大,重合字数越多,统计模块根据重复率比较模块计算查重知识产权的总重复率,结果显示模块输出标记重复率结果,便于人们查看比对。

3.本发明可通过规则制定单元自主制定查重规则,通过机器人或网络爬虫技术将开放性知识产权自动收集去重存储于数据库中,便于提供可靠的系统检测重复率计算依据。

附图说明

图1为本发明提出的一种知识产权重复率检测系统的流程示意图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

下面详细描述本专利的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利,而不能理解为对本专利的限制。

实施例1:

一种知识产权重复率检测系统,如图1所示,包括数据库、输入单元、提取单元、判别匹配单元和规则制定单元,所述数据库与判别匹配单元通信连接,数据库为利用机器人或网络爬虫技术获取的现有公开知识产权,并进行去重后存储于数据库中,作为系统检测重复率的依据;所述提取单元与输入单元通信连接;所述判别匹配单元分别与提取单元、规则制定单元通信连接,判别匹配单元用于判别提取内容特征值与数据库中的所有数据特征值进行匹配分析;所述规则制定单元用于生成查重规则,查重规则为待查重知识产权的每段或每句中有连续N个字与数据库中现有公开知识产权信息重复。

所述输入单元为输入待查重知识产权信息的窗口,包括文字输入模块和图形输入模块,文字输入模块为输入目标检测文档的文字内容窗口,文字内容为Word格式;图形输入模块为复制粘贴目标检测图表的窗口。

所述提取单元包括拆分模块和图形识别模块,拆分模块用于对待查重知识产权进行内容拆分成段,得到特征值,内容拆分成段包括知识产权的名称、知识产权的技术领域、知识产权的技术背景及知识产权的技术内容等分段;图形识别模块为对目标图表的区域轮廓缩放0.1~10倍,并识别存储每次缩放得到的区域特征轮廓。

所述判别匹配单元包括查找模块、重复率比较模块、统计模块和结果显示模块,查找模块为根据提取单元信息内容调取数据库所有数据信息;重复率比较模块为通过simhash算法计算查找模块与提取单元信息内容的文本重复率;统计模块为根据重复率比较模块计算查重知识产权内容与数据库中的所有数据内容的总重复率;结果显示模块根据重复率比较模块和统计模块计算结果,将得到的文本重复块进行特征标记并输出查重结果。

本实施例在使用时,通过规则制定单元制定查重规则,通过机器人或网络爬虫技术将开放性知识产权自动收集去重存储于数据库中,作为系统检测重复率的依据,将待查文本数据粘贴至文字输入模块,将待查文图像信息粘贴至图形输入模块,分别对知识产权的文档内容及非文档内容进行查重,有效提高了查重准确率,对文本内容查重时,通过拆分模块对待查重知识产权进行内容拆分成段,得到特征值,对非文档内容查重时,通过图形识别模块识别存储每次缩放得到的目标图表的区域特征轮廓,提取特征值后,查找模块根据提取单元信息内容调取数据库所有数据信息,重复率比较模块通过simhash算法得到重复率,百分比越大,重合字数越多,统计模块根据重复率比较模块计算查重知识产权的总重复率,结果显示模块输出标记重复率结果,便于人们查看比对。

实施例2:

一种知识产权重复率检测系统,如图1所示,包括数据库、输入单元、提取单元、判别匹配单元和规则制定单元,所述数据库与判别匹配单元通信连接,数据库为利用机器人或网络爬虫技术获取的现有公开知识产权,并进行去重后存储于数据库中,作为系统检测重复率的依据;所述提取单元与输入单元通信连接;所述判别匹配单元分别与提取单元、规则制定单元通信连接,判别匹配单元用于判别提取内容特征值与数据库中的所有数据特征值进行匹配分析;所述规则制定单元用于生成查重规则,查重规则为待查重知识产权的每段或每句中有连续N个字与数据库中现有公开知识产权信息重复。

所述输入单元为输入待查重知识产权信息的窗口,包括文字输入模块和图形输入模块,文字输入模块为输入目标检测文档的文字内容窗口,文字内容为Word格式;图形输入模块为复制粘贴目标检测图表的窗口。

所述提取单元包括拆分模块和图形识别模块,拆分模块用于对待查重知识产权进行内容拆分成段,得到特征值,内容拆分成段包括知识产权的名称、知识产权的技术领域、知识产权的技术背景及知识产权的技术内容等分段;图形识别模块为对目标图表的区域轮廓缩放0.1~10倍,并识别存储每次缩放得到的区域特征轮廓。

进一步的,所述拆分模块还包括将待查知识产权内容拆分成句,便于更详细的检测重复率。

所述判别匹配单元包括查找模块、重复率比较模块、统计模块和结果显示模块,查找模块为根据提取单元信息内容调取数据库所有数据信息;重复率比较模块为通过simhash算法计算查找模块与提取单元信息内容的文本重复率;统计模块为根据重复率比较模块计算查重知识产权内容与数据库中的所有数据内容的总重复率;结果显示模块根据重复率比较模块和统计模块计算结果,将得到的文本重复块进行特征标记并输出查重结果。

所述规则制定单元还包括选择关联度大于设置阈值的查重语句为候选查重语句。

本实施例在使用时,通过规则制定单元制定查重规则,通过机器人或网络爬虫技术将开放性知识产权自动收集去重存储于数据库中,作为系统检测重复率的依据,将待查文本数据粘贴至文字输入模块,将待查文图像信息粘贴至图形输入模块,分别对知识产权的文档内容及非文档内容进行查重,有效提高了查重准确率,对文本内容查重时,通过拆分模块对待查重知识产权进行内容拆分成段或句,得到特征值,对非文档内容查重时,通过图形识别模块识别存储每次缩放得到的目标图表的区域特征轮廓,提取特征值后,查找模块根据提取单元信息内容调取数据库所有数据信息,重复率比较模块通过simhash算法得到重复率,百分比越大,重合字数越多,统计模块根据重复率比较模块计算查重知识产权的总重复率,结果显示模块输出标记重复率结果,便于人们查看比对。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号