首页> 外文OA文献 >Using word n-grams to identify authors and idiolects: a corpus approach to a forensic linguistic problem
【2h】

Using word n-grams to identify authors and idiolects: a corpus approach to a forensic linguistic problem

机译:使用单词n-gram来识别作者和同名人物:法医语言问题的语料库方法

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Forensic authorship attribution is concerned with identifying the writers of anonymous criminal documents. Over the last twenty years, computer scientists have developed a wide range of statistical procedures using a number of different linguistic features to measure similarity between texts. However, much of this work is not of practical use to forensic linguists who need to explain in reports or in court why a particular method of identifying potential authors works. This paper sets out to address this problem using a corpus linguistic approach and the 176-author 2.5 million-word Enron Email Corpus. Drawing on literature positing the idiolectal nature of collocations, phrases and word sequences, this paper tests the accuracy of word n-grams in identifying the authors of anonymised email samples. Moving beyond the statistical analysis, the usage-based concept of entrenchment is offered as a means by which to account for the recurring and distinctive production of idiolectal word n-grams.
机译:法医学著作权归属与确定匿名刑事文件的作者有关。在过去的二十年中,计算机科学家已经开发出了广泛的统计程序,它们使用许多不同的语言功能来度量文本之间的相似性。但是,对于需要在报告或法庭上解释为什么识别潜在作者的特定方法起作用的法医语言学家而言,这项工作中的许多内容并没有实际用途。本文着眼于使用语料库语言学方法和176位作者撰写的250万字的Enron电子邮件语料库来解决这个问题。借鉴有关搭配,词组和单词序列的信息学性质的文献,本文测试了单词n-gram在识别匿名电子邮件样本作者方面的准确性。除了统计分析之外,还提供了基于使用的固守概念,作为解决iectectal单词n-gram反复出现和独特产生的一种手段。

著录项

  • 作者

    Wright D;

  • 作者单位
  • 年度 2017
  • 总页数
  • 原文格式 PDF
  • 正文语种 en
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号