首页> 外文期刊>ACM transactions on intelligent systems >Lexical Normalization for Social Media Text
【24h】

Lexical Normalization for Social Media Text

机译:社交媒体文本的词汇标准化

获取原文
获取原文并翻译 | 示例

摘要

Twitter provides access to large volumes of data in real time, but is notoriously noisy, hampering its utility for NLP. In this article, we target out-of-vocabulary words in short text messages and propose a method for identifying and normalizing lexical variants. Our method uses a classifier to detect lexical variants, and generates correction candidates based on morphophonemic similarity. Both word similarity and context are then exploited to select the most probable correction candidate for the word. The proposed method doesn't require any annotations, and achieves state-of-the-art performance over an SMS corpus and a novel dataset based on Twitter.
机译:Twitter提供了对大量数据的实时访问,但众所周知,它嘈杂,从而妨碍了其用于NLP的实用性。在本文中,我们针对短文本消息中的词汇外单词,并提出了一种识别和规范词汇变体的方法。我们的方法使用分类器来检测词汇变体,并基于音素相似性生成校正候选。然后利用单词相似度和上下文来选择该单词的最可能校正候选者。所提出的方法不需要任何注释,并且可以通过SMS语料库和基于Twitter的新颖数据集实现最新性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号