首页> 中文期刊> 《计算机工程与科学》 >基于种子词和数据集的垃圾弹幕屏蔽词典的自动构建

基于种子词和数据集的垃圾弹幕屏蔽词典的自动构建

         

摘要

随着弹幕视频的流行,弹幕已经成为了互联网时代青年互动交流的一种形式,但随着弹幕数量的增多,如何屏蔽垃圾弹幕成为一个问题.在各类视频网站提出的关键词屏蔽法的基础上,提出了分别基于种子词和数据集的2类屏蔽词典自动构建方法.第1类方法主要采用Google的自然语言处理工具word2vec和PMI,寻找与种子词相似性较大或共现次数较多的词添加到屏蔽词典中去;第2类方法主要采用T F-IDF、LDA主题模型和信息增益IG的方法,从垃圾弹幕数据集中提取关键词来构建屏蔽词典.最后,对所构建的屏蔽词典进行评测,实验结果表明,词典规模在400~500时,弹幕屏蔽效果最好.同时,还考察了LDA主题数和数据集规模等因素对弹幕屏蔽效果的影响.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号