首页> 外文会议>Brazilian Symposium in Information and Human Language Technology >Normalizador de Texto para Lingua Portuguesa baseado em Modelo de Linguagem
【24h】

Normalizador de Texto para Lingua Portuguesa baseado em Modelo de Linguagem

机译:基于语言模型的葡萄牙语语言的文本规范化

获取原文

摘要

O processamento automatico de textos gerados pelo usuario na internet têm sido um grande desafio. A escrita informal e urna das raides dessa dificuldade. Essa informalidade tem motivado a pesquisa por metodos para normalizagao de textos. A normalizacao de texto e urna etapa que precede o processamento usual, convertendo o texto gerado pelo usuario em um formato 'padrao' (mais formal). Neste trabalho, prototipamos um normalizador para a Lingua Portuguesa que e baseado em modelo de linguagem. Nessa abordagem, usamos a tecnica de traducao automatica para normalizar os textos. Testamos nosso normalizador em um corpus sobre politica e comparamos os resultados obtidos com os de outro normalizador. Automatic processing of user-generated content on the Internet is a major challenge. Informal writing is one reason for this difficulty. This informality motivated the research on methods for text normalization. Text normalization is a step that precedes the usual processing, converting the text from user into a 'standard' (more formal) writing format. In this work, we prototype a nor-malizer for the Portuguese Language that is based on language model. In this approach, we use the machine translation technique to normalize the texts. We tested our normalizer in a corpus on Politics and compared the results obtained with those of another normalizer.
机译:自动处理用户生成的文本是一项重大挑战。这个困难的突袭的非正式写作和URN。这种非正式性具有通过文本规范化的方法激励研究。文本归一化和通常处理前面的步骤,以“标准”(更正式)格式转换由用户生成的文本。在这项工作中,我们对基于语言模型的葡萄牙语语言原型原型。在这种方法中,我们使用自动翻译技术来规范文本。我们在政治语料库中测试了我们的标准化器,并将与另一种标准的结果进行了比较。在互联网上自动处理用户生成的内容是一个重大挑战。非正式的写作是这个困难的一个原因。这种非正式性促使了关于文本规范化方法的研究。文本归一化是一个在通常处理之前的步骤,将文本从用户转换为“标准”(更正式)写入格式。在这项工作中,我们对基于语言模型的葡萄牙语语言原型原型。在这种方法中,我们使用机器翻译技术来标准化文本。我们在政治上的语料库中测试了我们的标准化器,并将与另一种规范化器的结果进行了比较。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号