首页> 中国专利> 一种检测社交媒体重复数据的方法

一种检测社交媒体重复数据的方法

摘要

本发明公开了一种检测社交媒体重复数据的方法,包括如下步骤:对社交媒体的每一条文本数据划分成多个文本元素,由文本元素分别组成与文本数据相对应的集合;利用哈希函数将集合中的各文本元素分别映射成相应的哈希值并获取其中最小哈希值,重复进行多次映射之后获得由多个最小哈希值组成的数组,数组作为文本数据的最小哈希签名;利用局部敏感哈希算法将最小哈希签名中的每一个最小哈希值所对应的文本元素映射至不同的检测队列中;计算同一个检测队列中的任意两个文本元素之间的Jaccard相似度,Jaccard相似度高于阈值的文本元素判断为重复数据。本发明提高了大规模文本重复性检测的效率。

著录项

  • 公开/公告号CN105677661A

    专利类型发明专利

  • 公开/公告日2016-06-15

    原文格式PDF

  • 申请/专利权人 华东师范大学;

    申请/专利号CN201410663537.6

  • 发明设计人 章群燕;石丹丹;钱卫宁;周傲英;

    申请日2014-11-19

  • 分类号G06F17/30(20060101);

  • 代理机构上海麦其知识产权代理事务所(普通合伙);

  • 代理人董红曼

  • 地址 200062 上海市普陀区中山北路3663号

  • 入库时间 2023-12-18 15:32:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-05

    发明专利申请公布后的视为撤回 IPC(主分类):G06F17/30 申请公布日:20160615 申请日:20141119

    发明专利申请公布后的视为撤回

  • 2016-07-13

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141119

    实质审查的生效

  • 2016-06-15

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号