首页> 外文期刊>人工知能学会志 >コーパスへの自動アノテーションツールとアノテーション支援環境の構築
【24h】

コーパスへの自動アノテーションツールとアノテーション支援環境の構築

机译:语料库自动标注工具和标注支持环境的构建

获取原文
获取原文并翻译 | 示例
           

摘要

1990年代以降,電子的な言語データが入手可能になるとともに,大規模言語データ(コース)に基づく言語処理が盛んになった.米国では,1993年にLDC (Linguistic Data Consortium) が発足し,研究あるいは商用に利用可能な言語データ(コーパス,辞書など)が精力的に収集された.その中の代表的なコーパスであるPenn Treebank [Marcus 93 ] は,Wall Street Journal の約100万語の記事の各文を句構造解析し,単語に品詞が付与された解析済みコーパス(タグ付きコーパスとも呼ばれる)であり,自然言語処理の分野で最もよく使わ れているコーパスである.日本でも同時期にEDR電子化辞書とEDRコーパスが公開され,大規模な共通データが使える環境が急速に整った.
机译:自1990年代以来,电子语言数据已经可用,并且基于大规模语言数据(课程)的语言处理已变得流行。在美国,LDC(语言数据联盟)成立于1993年,并且大力收集了可用于研究或商业用途的语言数据(语料库,词典等)。 Penn Treebank [Marcus 93]是典型的语料库,它通过短语结构分析来分析《华尔街日报》上约100万个单词的文章中的每个句子,以及分析后的语料库(带标记的语料库),其中将部分添加到单词中。也称为),它是自然语言处理领域中最常用的语料库。在日本,同时发布了EDR电子词典和EDR语料库,并迅速建立了可以使用大规模公共数据的环境。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号