首页> 中国专利> 一种移动互联网共享文档查重预警系统及方法

一种移动互联网共享文档查重预警系统及方法

摘要

本发明公开了一种移动互联网共享文档查重预警系统及方法,解决了现有技术中不能够对数据库内的标准文本进行构建导致文档查重效率低的技术问题,通过标准预设单元对共享数据库内共享文档进行关键字提取,并构建查重标准文本,通过公式获取到共享文档的重要度系数Xi,随后获取到预设查重标准文本并对文本进行语义分析,对语义分析后的标准文本集合进行子集整理,随后将子集整理发送至查重管理平台,子集整理表示为若存在子集移除集合,则将对应移除子集对应的空白子集序列进行填充;构建共享文档的标准文本,提高了文档查重的准确性,通过对文本进行语义分析,排除语气词对标准文本的影响,从而增强了文本查重的效率。

著录项

  • 公开/公告号CN113312319A

    专利类型发明专利

  • 公开/公告日2021-08-27

    原文格式PDF

  • 申请/专利权人 深圳市知酷信息技术有限公司;

    申请/专利号CN202110720405.2

  • 发明设计人 何成良;

    申请日2021-06-28

  • 分类号G06F16/16(20190101);G06F16/176(20190101);G06F40/216(20200101);G06F40/253(20200101);G06F40/30(20200101);

  • 代理机构44439 深圳市道勤知酷知识产权代理事务所(普通合伙);

  • 代理人何兵;吕诗

  • 地址 518000 广东省深圳市宝安区西乡街道河东社区宝安80区好运来广场河东大厦F6-021-C

  • 入库时间 2023-06-19 12:22:51

说明书

技术领域

本发明涉及共享文档查重预警技术领域,具体为一种移动互联网共享文档查重预警系统及方法。

背景技术

人类社会已由工业经济时代进入知识经济时代,知识已经成为企业的重要资源,作用随着传播和共享而不断增大,具有边际成本不变,边际收益递增的趋势,能起到降低企业运营成本的作用,企业推进内部知识共享,投入较少,收获很多;

且文档的信息安全也至关重要,对文档进行查重的方式也多种多样,而在现有技术中,文档在查重过程中不能够对数据库内的标准文本进行构建,导致文档查重效率低;

针对上述的技术缺陷,现提出一种解决方案。

发明内容

本发明的目的就在于提出一种移动互联网共享文档查重预警系统及方法,通过标准预设单元对共享数据库内共享文档进行关键字提取,并构建查重标准文本,通过公式获取到共享文档的重要度系数Xi,随后获取到预设查重标准文本并对文本进行语义分析,对语义分析后的标准文本集合进行子集整理,随后将子集整理发送至查重管理平台,子集整理表示为若存在子集移除集合,则将对应移除子集对应的空白子集序列进行填充;构建共享文档的标准文本,提高了文档查重的准确性,通过对文本进行语义分析,排除语气词对标准文本的影响,从而增强了文本查重的效率。

本发明的目的可以通过以下技术方案实现:

一种移动互联网共享文档查重预警系统,包括注册登录单元、数据库、效率检测单元、文档识别单元、标准预设单元、查重管理平台、申诉单元以及预警单元;

所述标准预设单元用于对共享数据库内共享文档进行关键字提取,并构建查重标准文本,具体提取构建过程如下:

步骤S1:获取到共享数据库内的共享文档,并将共享文档进行段落清除,将共享文档全篇段落汇总为一个,随后根据语法将共享文档划分为单个汉字或者词语,并将单个汉字或者词语标记为共享文档,随后设置标号i,其中,i=1,2,……,n,n为正整数;

步骤S2:获取到单个汉字或者词语的出现次数和频率,并将单个汉字或者词语的出现次数和频率标记为CSi和PLi,通过公式

步骤S3:将共享文档的重要度系数Xi与重要度系数阈值进行比较:若共享文档的重要度系数Xi≥重要度系数阈值,则将共享文档中对应的单个汉字或者词语设置为预设查重标准文本;若共享文档的重要度系数Xi<重要度系数阈值,则将共享文档中对应的单个汉字或者词语标记为无用文本;

步骤S4:获取对应重要度系数排名前十的预设查重标准文本并构建标准文本集合(X1,X2,…,X10),对标准文本集合中子集对应的单个汉字或者词语进行语义分析,若单个汉字或者词语为语气词,则将对应单个汉字或者词语移除标准文本集合,若单个汉字或者词语不是语气词,则将对应单个汉字或者词语不进行移除,语义分析表示为通过互联网电子词典查需进行字词意义分析;

步骤S5:将语义分析后的标准文本集合进行子集整理,随后将子集整理发送至查重管理平台,子集整理表示为若存在子集移除集合,则将对应移除子集对应的空白子集序列进行填充;通过对文本进行语义分析,排除语气词对标准文本的影响,从而增强了文本查重的效率。

进一步地,所述文档识别单元用于对实时文档进行识别查重,具体识别查重过程如下:

步骤SS1:将实时文档中单个汉字或者词语标记为o,o=1,2,……,m,m为正整数,获取到实时文档中的单个汉字或者词语的出现次数和频率,并实时文档中的单个汉字或者词语的出现次数和频率标记为CSo和PLo,通过公式

步骤SS2:将实时文档的重要度系数Xo与重要度系数阈值进行比较:若实时文档的重要度系数Xo≥重要度系数阈值,则判定实时文档对应的单个汉字或者词语为实时文档的关键汉字或者词语;若实时文档的重要度系数Xo<重要度系数阈值,则判定实时文档对应的单个汉字或者词语为实时文档的无用汉字或者词语;

步骤SS3:将实时文档的关键汉字或者词语与标准文本集合中的子集进行比对,若实时文档的关键汉字或者词语与标准文本集合中子集相同时,则将实时文档中对应关键汉字或者词语的平均间隔字符数与标准文本集合中对应子集的平均间隔字符数进行比较,若平均间隔字符数相同,则判定实时文档存在重复文稿,并将实时文稿标记为重叠文档,若平均间隔字符数不相同,则判定实时文档不存在重复文稿;若实时文档的关键汉字或者词语与标准文本集合中子集不相同时,则判定实时文档不存在重复文稿。

进一步地,所述预警单元用于对重叠文档进行分析,并对重叠文档进行预警,具体分析预警过程如下:

步骤T1:获取重叠文档内重复的关键单个汉字或者词语,并获取到重复的关键单个汉字或者词语的平均间隔字符数,随后获取到重叠文档对应的标准文本集合中,重复的关键单个汉字或者词语的平均间隔字符数,随后通过重叠文档和标准文本集合的平均间隔字符数差值计算获取到重叠文档的差值间隔字符数,并将其标记为CZ;

步骤T2:将重复文档中存在重复的关键单个汉字或者词语的语句标记为重复语句,获取到重叠文档内重复语句中关键单个汉字或者词语的最大字符数量,并将重叠文档内重复语句中关键单个汉字或者词语的最大字符数量标记为CD;

步骤T3:通过公式

步骤T4:将重叠文档中的预警系数YJ与预警系数阈值进行比较。

进一步地,所述效率检测单元用于对查重效率信息进行分析,从而对查重效率进行检测,查重效率信息包括速度数据和准确数据,速度数据为实时共享文档查重的速度,准确数据为实时共享文档查重的准确率,具体分析检测过程如下:

步骤TT1:通过计时器获取到实时共享文档查重的速度,并将实时共享文档查重的速度标记为CSD;

步骤TT2:通过抽样分析获取到实时共享文档查重的准确率,并将实时共享文档查重的准确率标记为ZQL;

步骤TT3:通过公式

步骤TT4:将共享文档的查重效率检测系数JC与查重效率检测系数阈值进行比较,提高了文档查重的工作效率,减少查重的错误率。

进一步地,申诉单元用于对管理人员接收到的重写文档进行分析,从而判定重写文档是否可以申诉,具体分析判定过程如下:

步骤P1:将文档重复判定比例标记为g,并将获取到重写文档的总字数,将重写文档的总字数标记为ZS,将重写文档划分开头、正文以及结尾三个部分,将开头、正文以及结尾三个部分的字数分别标记为ZS1、ZS2以及ZS3;

步骤P2:获取到开头、正文以及结尾三个部分对应的预警系数,若开头部分或者结尾部分任一部分预警系数≥预警系数阈值,则判定对应重写文档不能够申诉;若开头部分或者结尾部分预警系数均<预警系数阈值,则判定对应重写文档正文部分标记为异常部分,同时生成申诉信号并将对应重写文档进行重新查重;

步骤P3:将对应重写文档的正文进行段落划分,且正文划分的段落字数差值不超过100,将正文字数进行细化,防止出现正文预警系数对应的基数大,造成文档预警判定不准确,获取到各个正文部分段落对应预警系数,若各个正文部分段落对应的预警系数任一段落≥预警系数阈值,则判定重写文档重新查重未合格,若各个正文部分段落对应的预警系数任一段落≥预警系数阈值,则判定重写文档重新查重未合格;

步骤P4:将对应重写文档判定无法申诉。

进一步地,一种移动互联网共享文档查重预警方法,具体共享文档查重预警方法步骤如下:

步骤一、注册登录,用户和管理人员通过注册登录单元进行注册;

步骤二、文本预设,通过标准预设单元对共享数据库内共享文档进行关键字提取,并构建查重标准文本;

步骤三、文档识别,通过文档识别单元对实时文档进行识别查重;

步骤四、文档预警,通过预警单元对重叠文档进行分析,并对重叠文档进行预警;

步骤五、效率检测,通过效率检测单元对查重效率信息进行分析,从而对查重效率进行检测。

与现有技术相比,本发明的有益效果是:

1、本发明中,通过标准预设单元对共享数据库内共享文档进行关键字提取,并构建查重标准文本,通过公式获取到共享文档的重要度系数Xi,随后获取到预设查重标准文本并对文本进行语义分析,对语义分析后的标准文本集合进行子集整理,随后将子集整理发送至查重管理平台,子集整理表示为若存在子集移除集合,则将对应移除子集对应的空白子集序列进行填充;构建共享文档的标准文本,提高了文档查重的准确性,通过对文本进行语义分析,排除语气词对标准文本的影响,从而增强了文本查重的效率;

2、本发明中,通过文档识别单元对实时文档进行识别查重,通过公式获取到实时文档的重要度系数Xo,若实时文档的重要度系数Xo≥重要度系数阈值,则判定实时文档对应的单个汉字或者词语为实时文档的关键汉字或者词语;随后进行平均间隔字符数进行比较,若平均间隔字符数相同,则判定实时文档存在重复文稿,并将实时文稿标记为重叠文档,若平均间隔字符数不相同,则判定实时文档不存在重复文稿;对共享文档进行识别,随后进行字符比较,提高了文档查重的工作效率,减少查重的错误率。

附图说明

为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明;

图1为本发明的原理框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

如图1所示,一种移动互联网共享文档查重预警系统,包括注册登录单元、数据库、效率检测单元、文档识别单元、标准预设单元、查重管理平台、申诉单元以及预警单元,其中,查重管理平台与注册登录单元、数据库、效率检测单元、文档识别单元、标准预设单元、申诉单元以及预警单元均为双向通讯连接,注册登录单元与共享数据库为双向通讯连接;

注册登录单元用于管理人员和用户通过手机终端提交管理人员信息和用户信息进行注册,并将注册成功的管理人员信息和用户信息发送至数据库进行储存,管理人员信息包括管理人员的姓名、年龄、入职时间以及本人实名认证的手机号码,用户信息包括用户的姓名、年龄、职业以及本人实名认证的手机号码;其中,管理人员信息和用户信息均为实名信息,防止人员对数据进行泄漏,导致查重预警系统的安全性和可靠性降低,降低预警的准确性;

标准预设单元用于对共享数据库内共享文档进行关键字提取,并构建查重标准文本,对标准文本进行预设,增强实时文档的检查效率,避免对实时文本进行查重检测时,临时构建标准文本造成查重准确性降低,同时降低了人为操作的风险,具体提取构建过程如下:

步骤S1:获取到共享数据库内的共享文档,并将共享文档进行段落清除,将共享文档全篇段落汇总为一个,随后根据语法将共享文档划分为单个汉字或者词语,并将单个汉字或者词语标记为共享文档,随后设置标号i,其中,i=1,2,……,n,n为正整数,其中共享文档的获取方式为以语法为划分条件,通过网络设备进行采集得到的;

步骤S2:获取到单个汉字或者词语的出现次数和频率,并将单个汉字或者词语的出现次数和频率标记为CSi和PLi,通过公式

步骤S3:将共享文档的重要度系数Xi与重要度系数阈值进行比较:若共享文档的重要度系数Xi≥重要度系数阈值,则将共享文档中对应的单个汉字或者词语设置为预设查重标准文本;若共享文档的重要度系数Xi<重要度系数阈值,则将共享文档中对应的单个汉字或者词语标记为无用文本;对共享文档内的内进行文本划分,将无用文本进行标记,防止实时文本与标准文本内的无用文本进行比较,造成查重工作强度增大反而降低了查重的效率;

步骤S4:获取对应重要度系数排名前十的预设查重标准文本并构建标准文本集合(X1,X2,…,X10),对标准文本集合中子集对应的单个汉字或者词语进行语义分析,若单个汉字或者词语为语气词,则将对应单个汉字或者词语移除标准文本集合,若单个汉字或者词语不是语气词,则将对应单个汉字或者词语不进行移除,语义分析表示为通过互联网电子词典查需进行字词意义分析;

步骤S5:将语义分析后的标准文本集合进行子集整理,随后将子集整理发送至查重管理平台,子集整理表示为若存在子集移除集合,则将对应移除子集对应的空白子集序列进行填充;

文档识别单元用于对实时文档进行识别查重,具体识别查重过程如下:

步骤SS1:将实时文档中单个汉字或者词语标记为o,o=1,2,……,m,m为正整数,获取到实时文档中的单个汉字或者词语的出现次数和频率,并实时文档中的单个汉字或者词语的出现次数和频率标记为CSo和PLo,通过公式

步骤SS2:将实时文档的重要度系数Xo与重要度系数阈值进行比较:若实时文档的重要度系数Xo≥重要度系数阈值,则判定实时文档对应的单个汉字或者词语为实时文档的关键汉字或者词语;若实时文档的重要度系数Xo<重要度系数阈值,则判定实时文档对应的单个汉字或者词语为实时文档的无用汉字或者词语;对实时文本进行检测比较,将实时文本内的无用汉字或者无用字词进行标记,减少无用字词或者无用汉字的查重,降低工作强度;

步骤SS3:将实时文档的关键汉字或者词语与标准文本集合中的子集进行比对,若实时文档的关键汉字或者词语与标准文本集合中子集相同时,则将实时文档中对应关键汉字或者词语的平均间隔字符数与标准文本集合中对应子集的平均间隔字符数进行比较,若平均间隔字符数相同,则判定实时文档存在重复文稿,并将实时文稿标记为重叠文档,若平均间隔字符数不相同,则判定实时文档不存在重复文稿;若实时文档的关键汉字或者词语与标准文本集合中子集不相同时,则判定实时文档不存在重复文稿;

预警单元用于对重叠文档进行分析,并对重叠文档进行预警,对文档内重复的关键字进行分析,判断是否对文档进行预警,具体分析预警过程如下:

步骤T1:获取重叠文档内重复的关键单个汉字或者词语,并获取到重复的关键单个汉字或者词语的平均间隔字符数,随后获取到重叠文档对应的标准文本集合中,重复的关键单个汉字或者词语的平均间隔字符数,随后通过重叠文档和标准文本集合的平均间隔字符数差值计算获取到重叠文档的差值间隔字符数,并将其标记为CZ;平均间隔字符数为文档中所有重复关键单个汉字或者词语之间总平均间隔字符数的平均值,若重叠文档和标准文档的平均间隔字符数相等,将平均间隔字符数差值取1;

步骤T2:将重复文档中存在重复的关键单个汉字或者词语的语句标记为重复语句,获取到重叠文档内重复语句中关键单个汉字或者词语的最大字符数量,并将重叠文档内重复语句中关键单个汉字或者词语的最大字符数量标记为CD;

步骤T3:通过公式

步骤T4:将重叠文档中的预警系数YJ与预警系数阈值进行比较:

若重叠文档中的预警系数YJ≥预警系数阈值,则将对应重叠文档标记为重写文档并将重写文档发送至管理人员的手机终端;

若重叠文档中的预警系数YJ<预警系数阈值,则将对应重叠文档标记为修改文档并将修改文档发送至管理人员的手机终端;

效率检测单元用于对查重效率信息进行分析,从而对查重效率进行检测,查重效率信息包括速度数据和准确数据,速度数据为实时共享文档查重的速度,准确数据为实时共享文档查重的准确率,对查重效率进行分析,提高了查重的准确性同时能够将查重系统进行改善,提高查重速度,具体分析检测过程如下:

步骤TT1:通过计时器获取到实时共享文档查重的速度,并将实时共享文档查重的速度标记为CSD;

步骤TT2:通过抽样分析获取到实时共享文档查重的准确率,并将实时共享文档查重的准确率标记为ZQL;

步骤TT3:通过公式

步骤TT4:将共享文档的查重效率检测系数JC与查重效率检测系数阈值进行比较:

若共享文档的查重效率检测系数JC≥查重效率检测系数阈值,则判定共享文档的查重效率合格,生成查重效率合格信号并将查重效率合格信号发送至管理人员的手机终端;

若共享文档的查重效率检测系数JC<查重效率检测系数阈值,则判定共享文档的查重效率不合格,生成查重效率不合格信号并将查重效率不合格信号发送至管理人员的手机终端;

申诉单元用于对管理人员接收到的重写文档进行分析,从而判定重写文档是否可以申诉,对重写文档进行申诉判定,防止重写文档出现比例问题导致文档预警,降低查重准确效率的同时浪费了对应文档的内容资源,给撰写人带来不必要的麻烦,具体分析判定过程如下:

步骤P1:将文档重复判定比例标记为g,并将获取到重写文档的总字数,将重写文档的总字数标记为ZS,将重写文档划分开头、正文以及结尾三个部分,将开头、正文以及结尾三个部分的字数分别标记为ZS1、ZS2以及ZS3;

步骤P2:获取到开头、正文以及结尾三个部分对应的预警系数,若开头部分或者结尾部分任一部分预警系数≥预警系数阈值,则判定对应重写文档不能够申诉;若开头部分或者结尾部分预警系数均<预警系数阈值,则判定对应重写文档正文部分标记为异常部分,同时生成申诉信号并将对应重写文档进行重新查重;

步骤P3:将对应重写文档的正文进行段落划分,且正文划分的段落字数差值不超过100,将正文字数进行细化,防止出现正文预警系数对应的基数大,造成文档预警判定不准确,获取到各个正文部分段落对应预警系数,若各个正文部分段落对应的预警系数任一段落≥预警系数阈值,则判定重写文档重新查重未合格,若各个正文部分段落对应的预警系数任一段落≥预警系数阈值,则判定重写文档重新查重未合格;

步骤P4:将对应重写文档判定无法申诉;

一种移动互联网共享文档查重预警方法,具体共享文档查重预警方法步骤如下:

步骤一、注册登录,用户和管理人员通过注册登录单元进行注册;

步骤二、文本预设,通过标准预设单元对共享数据库内共享文档进行关键字提取,并构建查重标准文本;

步骤三、文档识别,通过文档识别单元对实时文档进行识别查重;

步骤四、文档预警,通过预警单元对重叠文档进行分析,并对重叠文档进行预警;

步骤五、效率检测,通过效率检测单元对查重效率信息进行分析,从而对查重效率进行检测;

上述公式均是采集大量数据进行软件模拟得出且选取与真实值接近的一个公式,公式中的系数是由本领域技术人员根据实际情况进行设置;如:公式

由本领域技术人员采集多组样本数据并对每一组字词设定对应的重要度系数;将设定的重要度系数和采集的样本数据带入公式中,任意五个公式构成五元一次方程组,通过通过软件模拟计算五元一次方程组对应的系数;模拟计算多个五元一次方程组,将计算得到的系数进行筛选并取均值,得到v1和v2的取值分别为0.7和0.65;β1取值为2.03;上述系数均通过该方法获取;

系数的大小是为了将各个参数进行量化得到一个具体的数值,便于后续比较,关于系数的大小,取决于样本数据的多少及本领域技术人员对每一组样本数据初步设定对应的重要度系数;只要不影响参数与量化后数值得比例关系即可,如重要度系数与字词出现次数成正比。

本发明在工作时,注册登录,用户和管理人员通过注册登录单元进行注册;文本预设,通过标准预设单元对共享数据库内共享文档进行关键字提取,并构建查重标准文本,提高了文档查重的准确性,通过对文本进行语义分析,排除语气词对标准文本的影响,从而增强了文本查重的效率文档识别,通过文档识别单元对实时文档进行识别查重;文档预警,通过预警单元对重叠文档进行分析,并对重叠文档进行预警;效率检测,通过效率检测单元对查重效率信息进行分析,从而对查重效率进行检测,提高了文档查重的工作效率,减少查重的错误率。

上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。

以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号