基于微博数据的微博用户性别判断研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的高速发展，越来越多的人开始享受互联网带来的便利。微博作为一项基于网络的社交应用，因为其快捷、社交性的特点，成为人们发表言论、讨论社会话题等的一项重要工具。正是由于其用户群体庞大、传播速度快、具有群体效应等特点，广告媒体、社会舆情监督部门等急切需要通过微博分析，挖掘出可用的信息。另外，如何通过对微博内容及用户资料，研究用户的行为习惯、检测网络欺诈行为等，也是诸如Twitter、Facebook、腾讯、新浪微博等社交媒体研究工作的一个重要部分。如果能够通过微博用户的性别、年龄、爱好等特征进行有效的预测，必然会在以上提到的方面发挥巨大的作用。
　　目前国内外虽然已经针对微博的信息挖掘做了相当多的工作，但这些工作主要集中在话题发现、微博情感分析、意见领袖发现、社交群体挖掘等方向，而针对用户的属性信息，如性别、年龄分类的研究较少。
　　本文仅选取与用户性别相关的特征，通过对微博内容以及能够获取到的用户个人信息，设计了分类算法，在用户的性别分类判断方面做了一些研究工作。本文的主要贡献和创新点如下:
　　1.以腾讯微博为例，研究了腾讯微博的开放平台接口和微博特点，提出了基于微博内容的用户名自动发现算法和海量微博文本自动下载算法。在对腾讯微博的内容进行分析时，发现其中有很多和其他用户的互动，而这些操作都涉及到其他用户的用户名，据此提出了用户名自动发现算法;结合腾讯官方开放平台提供的微博数据下载接口，利用自动发现的用户名，设计了海量微博数据自动下载算法、用户信息自动下载算法，建立了微博语料库，包括微博文本信息和用户的个人资料。
　　2.根据对微博内容和用户信息的统计分析，提出了根据昵称和动词进行性别分类的算法以及分类时特征词提取的方法。通过对下载的海量微博内容和用户个人资料的抽样统计分析，发现用户的昵称大都与汉语的人名相似，而汉语人名具有比较强的性别区分性，因此提出了一种基于昵称的性别分类方法，以昵称中的单个字为特征进行了分类研究;在对微博文本进行分词后，对动词在两种性别中出现频次的统计分析，发现部分动词具有较大的性别区分度，根据这个特点提出了一种基于动词的性别分类算法，设计了动词特征项选取的标准。通过实验对比和分析，发现以上提出的算法，在性别分类中具有较好的准确率。

著录项

作者
安军辉;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科计算机应用技术
授予学位硕士
导师姓名何婷婷;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类信息处理（信息加工）;
关键词
微博用户; 性别判断; 分类算法; 数据处理;

相似文献

中文文献
外文文献
专利

1. 基于多视图Tri-Training的微博用户性别判断 [J] . 孙启蕴 . 计算机系统应用 . 2018,第002期
2. 基于兴趣偏好的微博用户性别推断研究 [J] . 宋巍 ,刘丽珍 ,王函石 . 电子学报 . 2016,第010期
3. 社交规模、社交经验与隐私管理边界——基于新浪微博用户的数据挖掘研究 [J] . 申琦 ,闫玲玲 . 河北经贸大学学报（综合版） . 2021,第002期
4. 基于微博数据的国产美妆品牌用户画像研究 [J] . 王雪莲 ,陈晶晶 ,马玉倩 . 现代营销：经营版 . 2020,第12期
5. 基于大数据分析的旅游微博用户偏爱研究 [J] . 曹炜 ,蒋文明 . 滁州学院学报 . 2019,第001期
6. 基于生成对抗网络的微博用户性别画像研究 [C] . 韩露 ,李兵 . 2017“互联网+、大数据与商业创新国际会议” . 2017
7. 基于数据挖掘的微博用户兴趣群体发现与分类——以新浪微博为例 [A] . 曾珂 . 2014

基于微博数据的微博用户性别判断研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅