首页> 外文学位 >Authorship attribution on the Enron Email Corpus.
【24h】

Authorship attribution on the Enron Email Corpus.

机译:安然电子邮件语料库的作者身份归属。

获取原文
获取原文并翻译 | 示例

摘要

In this paper I present authorship attribution on an email corpus. The source I used was the Enron Email Corpus (Cohen, 2009). By reformatting these emails, four test sets were categorized based on the length of each email: Tiny (≤ 99 characters), Small (100 to 500 characters), Medium (501 to 999 characters), and Large (≥ 1000 characters). The Java Graphical Authorship Attribution Program (JGAAP software) from our Evaluating Variations in Language Laboratory (EVL Lab) was used to perform these tests. Three analysis methods: WEKA RandomForest, WEKA SMO, and Centroid with Cosine Distance were used. Results showed that the Large test set gave the best authorship classification, followed by the Medium, then the Small and the Tiny test sets. WEKA SMO gave better authorship classification than WEKA RandomForest.
机译:在本文中,我介绍了电子邮件语料库上的作者身份。我使用的来源是Enron电子邮件语料库(Cohen,2009年)。通过重新格式化这些电子邮件,根据每封电子邮件的长度将其分为四个测试集:微小(≤99个字符),小(100至500个字符),中(501至999个字符)和大(≥1000个字符)。我们使用来自语言实验室评估变异(EVL Lab)的Java图形作者身份归因程序(JGAAP软件)来执行这些测试。使用了三种分析方法:WEKA RandomForest,WEKA SMO和具有余弦距离的质心。结果表明,大型测试集提供最佳的作者身份分类,其次是中型,然后是小型和微型测试集。与WEKA RandomForest相比,WEKA SMO的作者分类更好。

著录项

  • 作者

    Li, Xuan.;

  • 作者单位

    Duquesne University.;

  • 授予单位 Duquesne University.;
  • 学科 Statistics.;Computer Science.
  • 学位 M.S.
  • 年度 2013
  • 页码 26 p.
  • 总页数 26
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号