【24h】

MEDIASUM: A Large-scale Media Interview Dataset for Dialogue Summarization

机译:MediaSum:用于对话摘要的大规模媒体访谈数据集

获取原文

摘要

This paper introduces MEDIASUM, a large-scale media interview dataset consisting of 463.6K transcripts with abstractive summaries. To create this dataset, we collect interview transcripts from NPR and CNN and employ the overview and topic descriptions as summaries. Compared with existing public corpora for dialogue summarization, our dataset is an order of magnitude larger and contains complex multi-party conversations from multiple domains. We conduct statistical analysis to demonstrate the unique positional bias exhibited in the transcripts of televised and radioed interviews. We also show that MEDIASUM can be used in transfer learning to improve a model's performance on other dialogue summarization tasks.
机译:本文介绍了MediaSum,这是一个大型媒体面试数据集,由具有抽象摘要的463.6k抄本组成。 要创建此数据集,我们会收集来自NPR和CNN的面试成绩单,并使用概述和主题描述作为摘要。 与现有的公共集团进行对话摘要相比,我们的数据集是一个幅度较大的级,并包含来自多个域的复杂多方对话。 我们进行统计分析,以展示电视和无线电访谈的成绩单中展出的独特的位置偏见。 我们还表明MediaSum可用于转移学习,以改善模型对其他对话摘要任务的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号