首页> 外文会议>International conference on recent advances in natural language processing >Sparse Coding in Authorship Attribution for Polish Tweets
【24h】

Sparse Coding in Authorship Attribution for Polish Tweets

机译:波兰推文作者身份归属中的稀疏编码

获取原文
获取外文期刊封面目录资料

摘要

The study explores application of a simple Convolutional Neural Network for the problem of authorship attribution of tweets written in Polish. In our solution we use two-step compression of tweets using Byte Pair Encoding algorithm and vectorisation as an input, to the distributional model generated for the large corpus of Polish tweets by word2vec algorithm. Our method achieves results comparable to the state-of-the-art approaches for the similar task on English tweets and expresses a very good performance in the classification of Polish tweets. We tested the proposed method in relation to the number of authors and tweets per author. We also juxtaposed results for authors with different topic backgrounds against, each other.
机译:该研究探索了简单卷积神经网络在波兰语推文作者身份归属问题中的应用。在我们的解决方案中,我们使用通过字节对编码算法和向量化作为输入的推文的两步压缩,将其压缩为word2vec算法为波兰推文的大型语料库生成的分布模型。我们的方法所获得的结果可与针对英语推文的类似任务的最新技术相媲美,并且在波兰推文的分类中表现出非常出色的表现。我们根据作者人数和每位作者的推文测试了所提出的方法。我们还将主题背景不同的作者并列放置在一起。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号