首页> 外文会议>Joint conference on lexical and computational semantics >A Dataset of Syntactic-Ngrams over Time from a Very Large Corpus of English Books
【24h】

A Dataset of Syntactic-Ngrams over Time from a Very Large Corpus of English Books

机译:很大的英语语料库中随着时间的句法语法数据集

获取原文

摘要

We created a dataset of syntactic-ngrams (counted dependency-tree fragments) based on a corpus of 3.5 million English books. The dataset includes over 10 billion distinct items covering a wide range of syntactic configurations. It also includes temporal information, facilitating new kinds of research into lexical semantics over time. This paper describes the dataset, the syntactic representation, and the kinds of information provided.
机译:我们基于350万本英语书籍的语料库创建了一个语法语法(计数依赖性树片段)的数据集。该数据集包括超过100亿个不同项,涵盖了广泛的语法配置。它还包括时间信息,以促进随着时间的流逝对词法语义学的新研究。本文介绍了数据集,语法表示形式以及所提供的信息种类。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号