...
机译:使用混合方法检测几乎重复的文本文档
Computer Science Department, Sam Houston State University, Huntsville, Texas, USA;
Sam Houston State University, Texas, USA;
data cleansing; data quality; duplicate detection; Jaro distance; shingling;
机译:通过使用指纹算法Simhash检测俄语文档中的近重复项
机译:使用句子级功能和监督学习来检测几乎重复的文档
机译:Jaya优化算法的文本文档聚类混合方法
机译:通过考虑图像,文本,文档和域的大小来检测近重Web文档的新方法
机译:检索Web文档和语义Web数据的混合方法。
机译:Textractor:用于药物和从临床文本文档中提取处方的理由的混合系统
机译:检测大型短文本数据库中的近似重复项