首页> 中文会议>2017“互联网+、大数据与商业创新国际会议” >基于生成对抗网络的微博用户性别画像研究

基于生成对抗网络的微博用户性别画像研究

摘要

用户画像是企业为了实现精准营销,通过对用户信息进行高度提炼,从而抽象出一个标签化的用户模型.而现阶段的用户画像方法大多采用有监督学习的方式,即通过对带标签的数据进行训练得出模型.利用带标签的数据进行训练得出的模型往往效果不错,但也存在着对训练样本进行打标签受到人的主观因素的影响,同时标注大量的数据样本又十分费时费力的问题.对此,我们希望通过无监督学习的方式训练模型,同时能够有效利用大量的有价值的未标注数据.传统的无监督学习的方式如朴素贝叶斯、聚类等是对文本处理的特征工程算法,其结果是对特征词进行提取从而得出词语的所属类别,但自然语言作为抽象的概念很难有效地进行明确划分.我们运用目前在无监督学习领域最火的生成对抗网络(Gans),先由生成网络对样本初始化一个联合概率分布,再由判别网络根据初始化分布对未标注数据进行判别,其结果用来更新生成网络.在二者的交替迭代中达成生成网络学习到样本的分布情况的效果,最终形成对每个词语的概率描述,同时该概率描述随着样本的增加不断变化,直到达到某一置信值为止.而现阶段的生成对抗网络仅体现了其在图像识别中发挥的巨大作用,而我们也希望通过这篇文章证明其在自然语言处理方面的作用.实验结果证明了其在用户画像中的性别画像中能够发挥较好的效果,性别画像可看作二分类问题,在多分类问题,如地域判断,实验的效果不如人工建立地方词库的效果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号