...
首页> 外文期刊>Computers,environment and urban systems >Understanding US regional linguistic variation with Twitter data analysis
【24h】

Understanding US regional linguistic variation with Twitter data analysis

机译:通过Twitter数据分析了解美国区域语言变化

获取原文
获取原文并翻译 | 示例
           

摘要

We analyze a Big Data set of geo-tagged tweets for a year (Oct. 2013-Oct. 2014) to understand the regional linguistic variation in the U.S. Prior work on regional linguistic variations usually took a long time to collect data and focused on either rural or urban areas. Geo-tagged Twitter data offers an unprecedented database with rich linguistic representation of fine spatiotemporal resolution and continuity. From the one-year Twitter corpus, we extract lexical characteristics for twitter users by summarizing the frequencies of a set of lexical alternations that each user has used. We spatially aggregate and smooth each lexical characteristic to derive county based linguistic variables, from which orthogonal dimensions are extracted using the principal component analysis (PCA). Finally a regionalization method is used to discover hierarchical dialect regions using the PCA components. The regionalization results reveal interesting linguistic regional variations in the U.S. The discovered regions not only confirm past research findings in the literature but also provide new insights and a more detailed understanding of very recent linguistic patterns in the U.S. (C) 2015 Elsevier Ltd. All rights reserved.
机译:我们分析了一年(2013年10月至2014年10月)的带有地理标签的推文的大数据集,以了解美国的区域语言变化。以前,关于区域语言变化的工作通常需要很长时间来收集数据,并且关注于农村或城市地区。带有地理标签的Twitter数据提供了一个空前的数据库,具有丰富的语言表示形式,可以实现精细的时空分辨率和连续性。从一年的Twitter语料库中,我们通过汇总每个用户使用的一组词汇替换的频率来提取Twitter用户的词汇特征。我们在空间上汇总和平滑每个词汇特征,以得出基于县的语言变量,使用主成分分析(PCA)从中提取正交维度。最后,使用区域化方法来使用PCA组件发现分层的方言区域。区域化结果揭示了美国有趣的语言区域差异。发现的区域不仅证实了文献中的过往研究结果,而且还提供了新的见解和对美国(C)2015 Elsevier Ltd.最近语言模式的更详细的理解。版权所有保留。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号