首页> 外文会议>Hawaii International Conference on System Sciences >Text-Based Document Similarity Matching Using Sdtext
【24h】

Text-Based Document Similarity Matching Using Sdtext

机译:使用Sdtext的基于文本的文档相似度匹配

获取原文

摘要

Forensics examiners frequently try to identify duplicate files during an investigation. They might do so to identify known files of interest, or to allow more rapid review of documents that appear to be similar. Current forensic tools for detecting duplicate files operate over the low-level bits of the file, typically using hashing. While this can be a fast and effective method in many cases, it can fail due to differences in file format. We introduce sdtext, a tool developed to identify similar files based on their textual contents, which is robust to changes in format. We show that sdtext is far more accurate than existing tools in matching files that contain the same text in different formats.
机译:法医检查员经常在调查过程中尝试识别重复文件。他们可能这样做是为了识别感兴趣的已知文件,或允许对看起来相似的文件进行更快速的查看。当前用于检测重复文件的取证工具通常使用散列在文件的低级位上运行。尽管在许多情况下这是一种快速有效的方法,但由于文件格式的不同,它可能会失败。我们引入sdtext,这是一种用于根据相似文本内容识别相似文件的工具,该工具对格式更改具有鲁棒性。我们显示,在包含不同格式的相同文本的匹配文件中,sdtext比现有工具准确得多。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号