相似重复记录
相似重复记录的相关文献在2002年到2022年内共计84篇,主要集中在自动化技术、计算机技术、信息与知识传播、铁路运输
等领域,其中期刊论文78篇、会议论文3篇、专利文献103108篇;相关期刊56种,包括人天科学研究、现代图书情报技术、武汉工程大学学报等;
相关会议3种,包括中国计算机用户协会网络应用分会2014年第十八届网络新技术与应用年会、数字图书馆高层论坛2010年年会、第六届中国计算机学会大数据学术会议等;相似重复记录的相关文献由177位作者贡献,包括曹建军、刁兴春、郭文龙等。
相似重复记录—发文量
专利文献>
论文:103108篇
占比:99.92%
总计:103189篇
相似重复记录
-研究学者
- 曹建军
- 刁兴春
- 郭文龙
- 李军
- 杜鹢
- 汪挺
- 王芳潇
- 邹亚会
- 陈伟
- 丁鲲
- 严浩
- 侯筱婷
- 刘伟
- 刘哲
- 叶焕倬
- 吴迪
- 张平
- 张永
- 彭凌西
- 彭银桥
- 施化吉
- 曹先彬
- 李凯齐
- 李星毅
- 李碧秋
- 李鑫
- 杜艾永
- 殷秀叶
- 王佳斌
- 甘元驹
- 肖满生
- 董建怀
- 赵蕴华
- 迟忠先
- 邓锐
- 郑佳
- 陈爽
- 雷孝平
- 鲁萍
- 黄建琼
- Cao Jianjun
- Lv Guojun
- Peng Cong
- Weng Nianfeng
- YAN Wan-mei
- ZHANG Jun-wen
- Zheng Qibing
- 丁晨路
- 丁秋林
- 丰继林
-
-
周世杰;
娄渊胜
-
-
摘要:
数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采用属性区分法计算属性权值,解决了人为主观赋予权值导致的问题;使用字段过滤算法计算2条记录的相似度,减少了窗口内记录属性的比对次数,加快了算法的检测速度;使用可变窗口代替固定大小的窗口,防止记录漏配并减少无用的记录比对。实验结果表明,改进后的ISNM算法在查全率、查准率和运行时间开销上有明显的优势。
-
-
张平;
程新莲
-
-
摘要:
目前大型企业存储了大量的数据,但是数据质量令人担忧,集中表现在相似重复冗余的数据特别多,以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题,文章提出了一种基于k-means分组聚类的检测算法,实验分析表明,该方法在确保精度不变的情况下提高了检测效率。
-
-
袁满;
穆永豪;
王贵友;
于再富
-
-
摘要:
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度.改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测.并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高.
-
-
李碧秋;
王佳斌
-
-
摘要:
针对在海量日志记录中无法有效抽取高价值的数据问题,提出一种基于Mahout的k-means短文本聚类清洗算法,利用开源机器学习算法库Mahout,将文本聚类与数据清洗相结合,通过聚类检测相似重复记录,有效提升重复数据清洗速率.实验结果表明,该方法在保证较高查全率与查准率的同时,比传统相似重复数据清洗算法更具有扩展性,这对大数据的处理有较强的实用意义.
-
-
李碧秋;
王佳斌
-
-
摘要:
针对在海量日志记录中无法有效抽取高价值的数据问题,提出一种基于Mahout的k-means短文本聚类清洗算法,利用开源机器学习算法库Mahout,将文本聚类与数据清洗相结合,通过聚类检测相似重复记录,有效提升重复数据清洗速率。实验结果表明,该方法在保证较高查全率与查准率的同时,比传统相似重复数据清洗算法更具有扩展性,这对大数据的处理有较强的实用意义。
-
-
李莉;
张晓雯
-
-
摘要:
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.
-
-
-
马可;
郑广海
-
-
摘要:
在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量.邻近排序算法(SNM算法)是对数据库所有记录进行排序比对,新记录和旧记录都需要比对,而旧记录的相互比是已经做过的,这就造成了一定的计算浪费.在考虑尽量减少这种计算浪费的基础上,提出了一种针对关系数据库记录的相似重复记录检测算法,算法首先创建记录属性关系表,设定属性的相应权重和相似度阈值,通过属性关系表计算记录和其他记录的相似度,从而完成对相似重复记录的检测.实验表明新的算法的效率比SNM算法有一定提高.
-
-
王旭东;
段敬;
温志坚;
楼颖稚;
陈伟;
孔德云;
黄豆豆
-
-
摘要:
通过研究相似重复记录的数据清洗算法,在对N-Gram算法进行深入分析与研究后,指出其不足之处,并在此基础上进行改进并加以应用.实验结论证明,改进后的N-Gram算法无论是在查全率、查准率,还是运行速率上都得以大幅度提升.
-
-
宋人杰;
余通;
陈宇红;
陈宇阳;
夏滨
-
-
摘要:
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性.