【24h】

Generating an Entailment Corpus from News Headlines

机译:从新闻头条生成蕴涵语料库

获取原文

摘要

We describe our efforts to generate alarge (100,000 instance) corpus of textualentailment pairs from the lead paragraphand headline of news articles. We manuallyinspected a small set of news storiesin order to locate the most productivesource of entailments, then built an annotationinterface for rapid manual evaluationof further exemplars. With thistraining data we built an SVM-baseddocument classifier, which we used forcorpus refinement purposes—we believethat roughly three-quarters of the resultingcorpus are genuine entailment pairs. Wealso discuss the difficulties inherent inmanual entailment judgment, and suggestways to ameliorate some of these.
机译:我们描述了我们为产生 大型(100,000个实例)文本语料库 引言段中的蕴含对 和新闻标题。我们手动 检查了一小堆新闻故事 为了找到最有生产力的 需求的来源,然后建立注释 快速手动评估的界面 进一步的例子。有了这个 训练数据,我们建立了一个基于SVM的 文档分类器,我们用于 语料库细化目的-我们相信 大约四分之三的结果 语料库是真正的蕴含对。我们 还讨论了固有的困难 人工需求判断,并提出建议 改善其中一些的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号