公开/公告号CN112883704A
专利类型发明专利
公开/公告日2021-06-01
原文格式PDF
申请/专利权人 南京视察者智能科技有限公司;
申请/专利号CN202110468449.0
申请日2021-04-29
分类号G06F40/194(20200101);G06F16/31(20190101);G06F16/35(20190101);
代理机构
代理人
地址 210014 江苏省南京市秦淮区永智路6号南京白下高新技术产业园区四号楼A栋102室
入库时间 2023-06-19 11:11:32
技术领域
本发明涉及大数据文本处理研究领域,具体涉及一种大数据相似文本去重预处理方法、装置及终端设备。
背景技术
随着互联网的普及和发展,网络中数据量与日俱增。因而,重复数据的产生也不可避免。为了减少数据冗余,提高检索效率和存储设备的利用率,对相似文本进行去重具有重大的意义。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有的文本去重的方案,大多是基于余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等,直接对大数据的海量文本进行比对,效率较低。
发明内容
为了克服现有技术的不足,本发明提供了一种大数据相似文本去重预处理方法、装置及终端设备,通过对文本集合进行预处理,划分为子集后,减小计算范围的同时,可以并行计算相似度,减小相似度计算数据量,提高了相似文本去重计算的效率。技术方案如下:
提供了一种大数据相似文本去重预处理方法,该方法包括如下步骤:
步骤1,文本总数为n,假设每个文本T长度类似,长度平均值为L,文本全集S={T
步骤2,统计词语集合W中的词语在文本全集S中出现的频数,设置频数阈值t,若词语集合W中的词语出现的频数在文本集合S中大于t,将这些高频词语标记为关键词,记为集合K={K
步骤3,根据关键词集合K中的元素,遍历倒排索引,为文本集合S中的每个文本生成关键词属性值v,即文本集合S中的任一文本都有唯一关键词属性值与之对应。
关键词属性v的生成规则:
定义一个函数, g(K
文本T
K
所以T
步骤4,根据文本集合S中文本的关键词属性v建立的B+树,对文本进行分类,使得关键词属性v相同的文本对应到B+树中的同一个叶子节点关键字。
在去重操作时,可以快速查找到特定关键词组合的所有文本,在这组文本上进行相似度计算,根据实际需要来保留和去除相似文本。
优选的,步骤1中,把分词后的词语进行清洗为:去掉标点符号、无实际意义的词、停用词处理。
优选的,步骤2中,K是有序集合指:K中关键词按字典顺序排序的有序集合。
优选的,步骤2中,阈值t为: t= μn,0<μ<1,μ为常量,表示文本中词语文字的总长占据文本总长的比例阈值。
优选的,步骤4中,B+树建立过程如下:
B+树中存在两种节点,一种是叶子节点,一种是索引节点,索引节点只存放关键字,叶子节点存放数据,根结点可以是叶子节点也可以是索引节点。
(1)遍历S中的文本,每个文本对应一个v值,将其作为关键字插入到B+树中。
(2)B+树节点插入过程如下:
假设B+树阶数为x,节点内关键字个数的范围[⌈x/2⌉,x]。
插入过程始终在叶子节点操作,并且不能破坏关键字自小到大的顺序。
1)若为空树,则生成一个叶子节点并插入关键字,当前叶子节点也是根节点,结束。
2)否则,对于叶子节点,若当前插入的叶子节点插入关键字后,关键字个数小于等于x,则结束,否则,当前叶子节点分裂成左右两个叶子节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字,将右节点第1个关键字上升到父节点,并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点。
3)对于索引节点,若当前节点指针关键字个数小于等于x,则结束,否则,分裂成左右两个索引节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字,将右节点第1个关键字上升到父节点,并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点;重复步骤3)。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过把文本全集S划分为若干子集,原先在全集上的相似度计算操作被转移到子集上,相似度计算一般是两个文本为一组进行比较,所以划分为子集后,减小范围的同时,可以并行计算相似度,提高了相似文本去重计算的效率。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。
第一方面,本公开实施例提供了一种大数据相似文本去重预处理方法,该方法包括如下步骤:
步骤1:文本总数为n,假设每个文本T长度类似,长度平均值为L,文本全集S={T
步骤2:统计词语集合W中的词语在文本全集S中出现的频数,设置频数阈值t,若词语集合W中的词语出现的频数在文本集合S中大于t,将其标记为高频关键词,记为集合K={K
优选的,阈值t为: t= μn,(0<μ<1) ,μ为常量,表示文本中词语文字的总长占据文本总长的比例阈值。
若t值太小,可能存在两个文本A、B,使得文本A、B的Jaccard相似度 J(A,B)=|A∩B|/|A∪B|过小,即文本A、B只包含少量公共文本,此时我们计算两个文本的相似度可能没有意义。
步骤3根据关键词集合K中的元素,遍历倒排索引,为文本集合S中的每个文本生成关键词属性值v,即文本集合S中的任一文本都有唯一关键词属性值与之对应。
关键词属性v的生成规则:
定义一个函数, g(K
文本T
K
所以T
f(T
步骤4,根据文本集合S中文本的关键词属性v建立的B+树,对文本进行分类,使得关键词属性v相同的文本对应到B+树中的同一个叶子节点关键字。在去重操作时,可以快速查找到特定关键词组合(即v值相同)的所有文本,在这组文本上进行相似度计算(如:计算Jaccard相似度和cosine相似度),根据实际需要来保留和去除相似文本。
B+树中存在两种节点,一种是叶子节点,一种是索引节点,索引节点只存放关键字,叶子节点存放数据,根结点可以是叶子节点也可以是索引节点。
优选的,此B+树建立过程如下:
(1)遍历S中的文本,每个文本对应一个v值,将其作为关键字插入到B+树中。
(2)B+树节点插入过程如下:
假设B+树阶数为x,节点内关键字个数的范围[⌈x/2⌉,x],
插入过程始终在叶子节点操作,并且不能破坏关键字自小到大的顺序。
1)若为空树,则生成一个叶子节点并插入关键字,当前叶子节点也是根节点,结束。
2)否则,对于叶子节点,若当前插入的叶子节点插入关键字后,关键字个数小于等于x,则结束。否则,当前叶子节点分裂成左右两个叶子节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字。将右节点第1个关键字上升到父节点(即索引节点,若索引节点不存在,则创建一个索引节点),并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点。
3)对于索引节点,若当前节点指针关键字个数小于等于x,则结束。否则,分裂成左右两个索引节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字。将右节点第1个关键字上升到父节点(即索引节点,若索引节点不存在,则创建一个索引节点),并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点;重复步骤3)。
利用B+树中所有叶子节点相互连接的特点,可以快速查找和遍历叶子节点中的元素。B+树的叶子节点可以包含多个元素,每个元素对应一个或多个文本,即B+树的所有叶子节点中的每个元素对应一个文本集合,这些文本集合就是预处理操作得到的结果。
第二方面,本公开实施例提供了一种大数据相似文本去重预处理装置,基于相同的技术构思,该装置可以实现或执行所有可能的实现方式中任一项所述的一种大数据相似文本去重预处理方法;该装置包括分词模块、筛选关键词模块、计算模块、分类模块。
所述分词模块,用于执行所有可能的实现方式中任一项所述的一种大数据相似文本去重预处理方法的步骤1的步骤。
所述筛选关键词模块,用于执行所有可能的实现方式中任一项所述的一种大数据相似文本去重预处理方法的步骤2的步骤。
所述计算模块,用于执行所有可能的实现方式中任一项所述的一种大数据相似文本去重预处理方法的步骤3的步骤。
所述分类模块,用于执行所有可能的实现方式中任一项所述的一种大数据相似文本去重预处理方法的步骤4的步骤。
需要说明的是,上述实施例提供的一种大数据相似文本去重预处理装置在执行一种大数据相似文本去重预处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外上述实施例提供的一种大数据相似文本去重预处理装置与一种大数据相似文本去重预处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
第三方面,本公开实施例提供了一种终端设备,该终端设备包括所有可能的实现方式中任一项所述一种大数据相似文本去重预处理装置。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。
机译: 文本数据相似度计算方法,文本数据相似度计算装置和文本数据相似度计算程序
机译: 用于分离至少一种气体和至少一种lquiquido混合物的混合物,该混合物以主要包含lecquido的重馏分和主要包含气体的轻馏分的分离。进料系统,用于预处理至少一种气体和l的混合物至少一种用于分离的馏分,馏分主要包含重馏分和轻馏分,主要馏分包含气体,进气系统和系统EMA或进气系统的操作方法
机译: 相似文本搜索方法,相似文本搜索设备和相似文本搜索程序