公开/公告号CN102542183A
专利类型发明专利
公开/公告日2012-07-04
原文格式PDF
申请/专利权人 盛乐信息技术(上海)有限公司;
申请/专利号CN201010593763.3
申请日2010-12-17
分类号G06F21/00(20060101);
代理机构31211 上海浦一知识产权代理有限公司;
代理人王江富
地址 201203 上海市浦东新区郭守敬路356号
入库时间 2023-12-18 05:55:46
法律状态公告日
法律状态信息
法律状态
2020-04-21
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F21/16 变更前: 变更后: 申请日:20101217
专利权人的姓名或者名称、地址的变更
2016-05-18
授权
授权
2014-04-02
专利申请权的转移 IPC(主分类):G06F21/00 变更前: 变更后: 登记生效日:20140312 申请日:20101217
专利申请权、专利权的转移
2014-01-29
实质审查的生效 IPC(主分类):G06F21/00 申请日:20101217
实质审查的生效
2012-07-04
公开
公开
技术领域
本发明涉及网络信息技术,特别涉及一种网络文学作品版权检测方法及系统。
背景技术
网络文学是一种新近出现的文学样式,它是指以互联网为发表平台和传播媒介,借助超文本连接和多媒体演绎的手段来表现主题,在网上创作发表,供网民阅读的文学作品、类文学文本及含有一部分文学成分的网络艺术品,其中以网络文学原创作品为主。当前网络文学面临严重盗版的困扰。应该说,打破网络文学发展的“版权困境”,建立透明长效的知识产权保护体系,已经是迫在眉睫的任务。打击盗版的第一步,是盗版行为的认定,传统的盗版行为监测,前期需要进行证据整理和链接统计工作,每个盗版网站上都有成百上千的盗版作品,工作量非常巨大,成本非常高,难以满足信息爆炸时代的需求。
发明内容
本发明要解决的技术问题是,提供一种网络文学作品版权检测方法及系统,能快速、准确地对网络文学作品盗版行为进行监测。
为解决上述技术问题,本发明提供了一种网络文学版权检测方法,包括以下步骤:
一.在计算机中存储需要版权保护的文学作品及其文字指纹;
二.计算机提取待检测网站上的一文学作品的文字指纹;
三.计算机将待检测网站上的一文学作品及其文字指纹同需要版权保护的文学作品及其文字指纹进行对比,识别输出待检测网站上的一文学作品是否使用了需要版权保护的文学作品。
需要版权保护的文学作品的文字指纹,包括各长度的子文字指纹,及 各子文字指纹的各起始位置。
提取的待检测网站上的一文学作品的文字指纹为所有长度为G的子文字指纹及其起始位置,如果待检测网站上的一文学作品未提取到长度为G的子文字指纹,则识别输出待检测网站上的一文学作品未使用需要版权保护的文学作品;G为正整数。
计算机在一需要版权保护的文学作品的文字指纹中搜寻待检测网站上的一文学作品的所述长度为G的子文字指纹及其所对应的各起始位置,
如果找到所述长度为G的子文字指纹,则将待检测网站上的一文学作品的该长度为G的子文字指纹对应的起始位置之后的长度为H的字符序列,同该需要版权保护的文学作品中所述长度为G的子文字指纹所对应的各起始位置之后的长度为H的字符序列比较,如果两字符串的距离小于阈值则识别输出待检测网站上的一文学作品使用了需要版权保护的文学作品,否则识别输出待检测网站上的一文学作品未使用需要版权保护的文学作品;H为正整数;
如果未找到所述长度为G的子文字指纹,则识别输出待检测网站上的一文学作品未使用需要版权保护的文学作品。
文学作品的长度为k的子文字指纹的提取过程包括以下步骤:
一.初始化分析窗,使分析窗左端位置为该文学作品的起始位置,并使分析窗包含的不同字符恰好将要变成k+1个,记录该分析窗内包含的k个不同字符为初始长度为k的子文字指纹,并记录该分析窗左端位置为初始长度为k的子文字指纹在该文学作品的文字序列中的起始位置;
二.固定分析窗左端位置,移动分析窗右端位置到使分析窗包含的不同字符恰好将要变成k+2的位置,如果分析窗右端位置到达该文学作品的文字序列的末端,进行步骤四,否则固定分析窗右端位置,移动分析窗左端位置到使分析窗包含的不同字符刚好变成k个;
记录该k个不同字符为一长度为k的子文字指纹,该分析窗左端位置 为该长度为k的子文字指纹在该文学作品的文字序列中的起始位置;
三.进行步骤二;
四.完成该文学作品的长度为k的文字指纹的提取。
所述文学作品可以为英语文学作品,具有区分性的字符集为26个英文字母,k为大于等于1小于等于26的整数。
为解决上述技术问题,本发明还提供了一种网络文学版权检测系统,包括在文学作品库、文字指纹库、文字指纹提取模块、文字指纹检测模块;
所述文学作品库,存储有各需要版权保护的文学作品;
所述文字指纹库,分别存储有需要版权保护的各文学作品的各长度的子文字指纹及各子文字指纹的各起始位置;
所述文字指纹提取模块,用于提取待检测网站上的一文学作品的长度为G的子文字指纹及其起始位置,如果待检测网站上的一文学作品的所有长度为G的子文字指纹提取完毕,则输出提取完毕信息到文字指纹检测模块;
所述文字指纹检测模块,将待检测网站上的一文学作品的一长度为G的子文字指纹对应的起始位置之后的长度为H的字符序列,同一需要版权保护的文学作品中所述长度为G的子文字指纹所对应的各起始位置之后的长度为H的字符序列比较,如果两字符串的距离小于阈值,则输出待检测网站上的一文学作品使用了一需要版权保护的文学作品的信息,否则输出信号控制所述待测文学作品文字指纹提取模块提取待检测网站上的一文学作品的下一个长度为G的子文字指纹及其起始位置,文字指纹检测模块如果收到待测文学作品文字指纹提取模块传来的提取完毕信息,则输出待检测网站上的一文学作品未使用一需要版权保护的文学作品信息,G、H为正整数。
本发明的网络文学版权检测方法及系统,建立需要版权保护的文学作品库,并对每个需要版权保护的文学作品进行分析提取其各长度的各子文 字指纹及其起始位置,建立各个需要版权保护的文学作品的文字指纹库,对待检测网站上的文学作品进行分析,自动提取其某设定长度的子文字指纹及其起始位置,然后在一需要版权保护的文学作品的文字指纹库搜寻该设定长度的子文字指纹及其所对应的各起始位置,如果找到,则将待检测网站上的一文学作品的该设定长度的子文字指纹对应的起始位置之后的设定长度的字符序列同所述一需要版权保护的文学作品中的该设定长度的子文字指纹所对应的各起始位置之后的设定长度的字符序列进行比对,如果两字符串的距离小于阈值,则说明待检测网站上的一文学作品使用了一需要版权保护的文学作品,如果待检测网站上的一文学作品的该设定长度的所有子文字指纹对应的起始位置之后的设定长度的字符序列同所述一需要版权保护的文学作品中的相应子文字指纹所对应的各起始位置之后的设定长度的字符序列的距离都不小于阈值,则说明待检测网站上的一文学作品未使用一需要版权保护的文学作品。本发明通过文字指纹技术检测网络文学作品的盗版行为,与以往人工方式检测盗版行为不同,从子文字指纹的提取及比对都能通过计算机自动完成,高效、快捷,可以大大的提高网络文学盗版监测的效率,降低网络文学盗版监测的成本。
附图说明
下面结合附图及具体实施方式对本发明作进一步详细说明。
图1是本发明的网络文学版权检测方法一实施方式示意图;
图2是长度为k的子文字指纹的提取过程示意图;
图3是本发明的网络文学版权检测系统一实施方式示意图。
具体实施方式
本发明的网络文学版权检测方法一实施方式如图1所示,包括以下步骤:
一.在计算机中存储需要版权保护的文学作品,建立需要版权保护的文学作品库;
二.对需要版权保护的文学作品库中的各文学作品分别提取其各长度的子文字指纹,并记录各子文字指纹的各起始位置,在计算机中建立各需要版权保护的文学作品的文字指纹库;
三.计算机提取待检测网站上的一文学作品的一长度为G的子文字指纹及其起始位置;如果待检测网站上的一文学作品的所有长度为G的子文字指纹提取完毕,进行步骤七;
四.计算机在一需要版权保护的文学作品的文字指纹库搜寻该长度为G的子文字指纹及其所对应的各起始位置,如果找到进行步骤五,否则进行步骤三;
五.计算机将待检测网站上的一文学作品的该长度为G的子文字指纹对应的起始位置之后的长度为H的字符序列,同一需要版权保护的文学作品中所述长度为G的子文字指纹所对应的各起始位置之后的长度为H的字符序列比较,如果两字符串的距离小于阈值,进行步骤六,否则进行步骤三;G为正整数,H为正整数;
六.计算机输出待检测网站上的一文学作品使用了一需要版权保护的文学作品信息,进行步骤八;
七.计算机输出待检测网站上的一文学作品未使用一需要版权保护的文学作品信息,进行步骤八;
八.待检测网站上的一文学作品的版权检测结束。
若一需要版权保护的文学作品的著作权人未向该待检测网站授权使用该文学作品,则说明该待检测网站非法使用了该文学作品,反之说明该待检测网站合法使用该文学作品。
一文学作品的文本序列S=s1s2...sn所包含的不重复的字符的集合为∑(例如,一英文文学作品,通常其具有区分性的字符集∑即所有的26个英文字母a,b,c,…,z),该文学作品的长度为k的子文字指纹即为∑中的k个字符的组合,n为正整数,k为大于等于1小于等于|∑|的整数,|∑|为∑所包 含的字符个数;
该文学作品的子文本序列si...sj所包含的不重复的字符对应的子文字指纹为φ,若si-1、sj+1都不属于φ,则称子文本序列si...sj为φ-Max子文本序列,其中,i、j为整数,1≤i≤j≤n;
需要版权保护的一文学作品的长度为k的子文字指纹的提取过程如图2所示,包括以下步骤:
一.初始化分析窗,使分析窗左端位置为该文学作品的起始位置,并使分析窗包含的不同字符恰好将要变成k+1个,记录该分析窗内包含的k个不同字符为初始长度为k的子文字指纹,并记录该分析窗左端位置为初始长度为k的子文字指纹在该文学作品的文字序列中的起始位置;
二.固定分析窗左端位置,移动分析窗右端位置到使分析窗包含的不同字符恰好将要变成k+2的位置,如果分析窗右端位置到达该文学作品的文字序列的末端,进行步骤四,否则固定分析窗右端位置,移动分析窗左端位置到使分析窗包含的不同字符刚好变成k个;记录该k个不同字符为一长度为k的子文字指纹,该分析窗左端位置为该长度为k的子文字指纹在该文学作品的文字序列中的起始位置;
三.进行步骤二;
四.完成该文学作品的长度为k的文字指纹的提取。
当k从1到|∑|,重复上述步骤,即完成了一文学作品的所有子文字指纹的提取,建立了该文学作品的文字指纹库,文字指纹库中不仅包含了该文学作品的所有子文字指纹,同时也包含了该文学作品的各子文字指纹在该文学作品的文字序列中的起始位置。
需要版权保护的文学作品的子文字指纹通过数组L表示记录到文字指纹库,
e为大于等于1小于等于|∑|的整数。
需要版权保护的文学作品的子文字指纹可以通过trie树管理,将数组L代表的子文字指纹添加到trie树中。
一实施例,建立一网络文学版权检测系统,网络文学版权检测系统如图3所示,包括在文学作品库、文字指纹库、一待测文学作品文字指纹提取模块、一文字指纹检测模块;
所述文学作品库,存储有各需要版权保护的文学作品;
所述文字指纹库,分别存储有需要版权保护的各文学作品的各长度的子文字指纹及各子文字指纹的各起始位置;
所述文字指纹提取模块,用于提取待检测网站上的一文学作品的一长度为G的子文字指纹及其起始位置,如果待检测网站上的一文学作品的所有长度为G的子文字指纹提取完毕,则输出提取完毕信息到文字指纹检测模块;
所述文字指纹检测模块,将待检测网站上的一文学作品的该长度为G的子文字指纹对应的起始位置之后的长度为H的字符序列,同一需要版权保护的文学作品中所述长度为G的子文字指纹所对应的各起始位置之后的长度为H的字符序列比较,如果两字符串的距离小于阈值,则输出待检测网站上的一文学作品使用了一需要版权保护的文学作品信息,否则输出信号控制所述待测文学作品文字指纹提取模块提取待检测网站上的一文学作品的下一个长度为G的子文字指纹及其起始位置,文字指纹检测模块如果收到待测文学作品文字指纹提取模块传来的提取完毕信息,则输出待检测网站上的一文学作品未使用一需要版权保护的文学作品信息,G、H为正整数。
本发明的网络文学版权检测方法及系统,建立需要版权保护的文学作品库,并对每个需要版权保护的文学作品进行分析提取其各长度的各子文字指纹及其起始位置,建立各个需要版权保护的文学作品的文字指纹库,对待检测网站上的文学作品进行分析,自动提取其某设定长度的子文字指 纹及其起始位置,然后在一需要版权保护的文学作品的文字指纹库搜寻该设定长度的子文字指纹及其所对应的各起始位置,如果找到,则将待检测网站上的一文学作品的该设定长度的子文字指纹对应的起始位置之后的设定长度的字符序列同所述一需要版权保护的文学作品中的该设定长度的子文字指纹所对应的各起始位置之后的设定长度的字符序列进行比对,如果两字符串的距离小于阈值,则说明待检测网站上的一文学作品使用了一需要版权保护的文学作品,如果待检测网站上的一文学作品的该设定长度的所有子文字指纹对应的起始位置之后的设定长度的字符序列同所述一需要版权保护的文学作品中的相应子文字指纹所对应的各起始位置之后的设定长度的字符序列的距离都不小于阈值,则说明待检测网站上的一文学作品未使用一需要版权保护的文学作品。本发明通过文字指纹技术检测网络文学作品的盗版行为,与以往人工方式检测盗版行为不同,从子文字指纹的提取及比对都能通过计算机自动完成,高效、快捷,可以大大的提高网络文学盗版监测的效率,降低网络文学盗版监测的成本。
机译: 版权保护的检测方法,装置和系统
机译: 版权保护的检测方法,装置和系统
机译: 版权保护的检测方法,装置和系统