首页> 外文会议>International Conference on Computational Linguistics >GenWiki: A Dataset of 1.3 Million Content-Sharing Text and Graphs for Unsupervised Graph-to-Text Generation
【24h】

GenWiki: A Dataset of 1.3 Million Content-Sharing Text and Graphs for Unsupervised Graph-to-Text Generation

机译:Genwiki:无监督图形到文本生成的130万内容共享文本和图形的数据集

获取原文

摘要

Data collection for the knowledge graph-to-text generation is expensive. As a result, research on unsupervised models has emerged as an active field recently. However, most unsupervised models have to use non-parallel versions of existing small supervised datasets, which largely constrain their potential. In this paper, we propose a large-scale, general-domain dataset, GenWiki. Our unsupervised dataset has 1.3M text and graph examples, respectively. With a human-annotated test set, we provide this new benchmark dataset for future research on unsupervised text generation from knowledge graphs.
机译:知识图形到文本生成的数据收集昂贵。 因此,最近对无监督模型的研究已成为一个活跃的领域。 然而,大多数无监督的模型必须使用现有的小型监督数据集的非并行版本,这在很大程度上限制了它们的潜力。 在本文中,我们提出了大规模的一般域数据集Genwiki。 我们无监督的数据集分别具有1.3M文本和图形示例。 通过人类注释的测试集,我们提供了这个新的基准数据集,用于未来关于知识图中未经监督的文本生成的研究。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号