brWaC: A WaCky Corpus for Brazilian Portuguese

机译：brWaC：巴西葡萄牙语的WaCky语料库

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Initiatives for constructing very large corpora have increased in recent years, especially using the Web as corpus since large corpora are crucial for many Natural Language Processing tasks. The WaCky (Web-As-Corpus Kool Yinitiative) methodology has been used to build very large corpora (over a billion words each) for languages like English, Italian and German among others. In this paper we present the ongoing work on building brWaC, a massive Brazilian Portuguese corpus crawled from .br domains. At the moment, the crawling process and the PoS tagging are finished, resulting in a tokenized and lemmatized corpus of 3 billion words. Next step is parsing the whole corpus.

机译：近年来，构建大型语料库的计划有所增加，特别是使用Web作为语料库，因为大型语料库对于许多自然语言处理任务至关重要。 WaCky（Web-As-Corpus Kool Yinitiative）方法已用于为英语，意大利语和德语等语言建立非常大的语料库（每个词库超过10亿个单词）。在本文中，我们介绍了构建brWaC的正在进行的工作，brWaC是从.br域中抓取的庞大的巴西葡萄牙语语料库。目前，抓取过程和PoS标记已完成，从而生成了30亿个单词的标记化和词形化语料库。下一步是解析整个语料库。

著录项

来源
《International conference on computational processing of portuguese》|2014年|201-206|共6页
会议地点
作者
Rodrigo Boos; Kassius Prestes; Aline Villavicencio; Muntsa Padro;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Web as Corpus; brWaC; WaCky; Brazilian Portuguese;

机译：Web作为语料库; brWaC; WaCky;巴西葡萄牙语;

相似文献

外文文献
中文文献
专利

1. Not to Teach but Give Insights: Corpus-based Approach in Portuguese-English and Portuguese-Russian Cross-linguistic Error Correction [J] . Nataliya Godinho Soares Vieira Procedia - Social and Behavioral Sciences . 2013,第2期

机译：不教学而是提供见解：葡萄牙语-英语和葡萄牙语-俄罗斯跨语言错误纠正中基于语料库的方法
2. SEXUALITY IN MULTICULTURAL PORTUGAL - A CROSS-CULTURAL SURVEY OF SEXUAL AND REPRODUCTIVE HEALTH INDICATORS BETWEEN PORTUGUESE, BRAZILIANS, CAPE VERDEANS, ANGOLANS, GUINEANS AND SAO TOMEANS LIVING IN PORTUGAL [J] . Barroso A., Cardoso J., Pascoal P. M. The journal of sexual medicine . 2018,第7Suppla3期

机译：多元文化葡萄牙的性 - 葡萄牙葡萄牙，巴西人，佛得角，安哥莱斯，几岛和圣陵墓之间的性与生殖健康指标跨文化调查
3. SEXUALITY IN MULTICULTURAL PORTUGAL - A CROSS-CULTURAL SURVEY OF SEXUAL AND REPRODUCTIVE HEALTH INDICATORS BETWEEN PORTUGUESE, BRAZILIANS, CAPE VERDEANS, ANGOLANS, GUINEANS AND SAO TOMEANS LIVING IN PORTUGAL [J] . Barroso A., Cardoso J., Pascoal P. M. The journal of sexual medicine . 2018,第7Suppla3期

机译：多元文化葡萄牙的性 - 葡萄牙葡萄牙，巴西人，佛得角，安哥莱斯，几岛和圣陵墓之间的性与生殖健康指标跨文化调查
4. brWaC: A WaCky Corpus for Brazilian Portuguese [C] . Rodrigo Boos, Kassius Prestes, Aline Villavicencio, International Workshop on Computational Processing of the Portuguese Language . 2014

机译：BRWAC：巴西葡萄牙语的古怪的语料库
5. A Corpus-based Study of the Gender Assignment of Nominal Anglicisms in Brazilian Portuguese [D] . Skahill, Taryn Marie. 2020

机译：基于语料库的巴西葡萄牙语义法治性别分配研究
6. Translation of the Debriefing Assessment for Simulation in Healthcare in Portuguese and cross-cultural adaptation for Portugal and Brazil [O] . Thomaz Bittencourt Couto, Francisco Maio Matos, Paula Dias de Toledo Rodovalho, 2021

机译：葡萄牙葡萄牙葡萄牙和跨文化适应医疗保健仿真汇编评估的翻译
7. Beginning Portuguese corpus linguistics: exploring a corpus to teach Portuguese as a foreign language Iniciando a lingüística do corpus do português: explorando um corpus para ensinar português como língua estrangeira [O] . A. P. BERBER SARDINHA 1999

机译：开始葡萄牙语语料库语言学：探索语料库以葡萄牙语作为外语开始葡萄牙语语料库语言学：探索语料库以教授葡萄牙语作为外语

brWaC: A WaCky Corpus for Brazilian Portuguese

摘要

著录项

相似文献

相关主题

期刊订阅