首页> 中文学位 >基于微博数据的微博用户性别判断研究
【6h】

基于微博数据的微博用户性别判断研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 研究目的和意义

1.3 国内外研究现状

1.3.1 微博内容挖掘研究现状

1.3.2 微博用户关系挖掘研究现状

1.4 本文研究内容与结构

第二章 相关研究技术

2.1 基本分类算法

2.1.1 朴素贝叶斯分类器

2.1.2 决策树分类器

2.1.3 k近邻分类器

2.2 数据表示模型

2.3 汉语分词方法

2.3.1 基于规则的分词方法

2.3.2 基于统计模型的分词方法

2.4 分类算法评价标准

2.4.1 正确率p、召回率r和F值

2.4.2 微平均和宏平均

2.5 本章小结

第三章 海量微博数据自动获取方法研究

3.1 API参数说明

3.1.1 微博内容下载参数

3.1.2 个人资料下载参数

3.2 海量微博数据下载

3.2.1 海量微博下载的难点

3.2.2 用户名自动发现算法

3.2.3 海量微博数据下载算法

3.2.4 用户个人资料下载算法

3.3 数据抽取

3.3.1 数据抽取方法

3.3.2 遇到的问题及解决方案

3.4 微博语料库介绍

3.5 本章小结

第四章 基于机器学习的微博用户性别预测

4.1 数据预处理及特征分析

4.1.1 微博文本内容预处理

4.1.2 用户个人资料预处理

4.2 实验数据特征分析

4.2.1 昵称数据的统计分析

4.2.2 动词数据的统计分析

4.3 根据用户昵称进行性别分类

4.3.1 分类算法设计

4.3.2 实验与分析

4.4 根据微博内容进行性别分类

4.4.1 分类算法设计

4.4.2 特征词选取方法

4.4.3 实验与分析

4.5 本章小结

第五章 总结与展望

5.1 本文总结

5.2 展望

参考文献

攻读硕士学位期间参加的科研项目与公开发表的学术论文

致谢

展开▼

摘要

随着互联网的高速发展,越来越多的人开始享受互联网带来的便利。微博作为一项基于网络的社交应用,因为其快捷、社交性的特点,成为人们发表言论、讨论社会话题等的一项重要工具。正是由于其用户群体庞大、传播速度快、具有群体效应等特点,广告媒体、社会舆情监督部门等急切需要通过微博分析,挖掘出可用的信息。另外,如何通过对微博内容及用户资料,研究用户的行为习惯、检测网络欺诈行为等,也是诸如Twitter、Facebook、腾讯、新浪微博等社交媒体研究工作的一个重要部分。如果能够通过微博用户的性别、年龄、爱好等特征进行有效的预测,必然会在以上提到的方面发挥巨大的作用。
  目前国内外虽然已经针对微博的信息挖掘做了相当多的工作,但这些工作主要集中在话题发现、微博情感分析、意见领袖发现、社交群体挖掘等方向,而针对用户的属性信息,如性别、年龄分类的研究较少。
  本文仅选取与用户性别相关的特征,通过对微博内容以及能够获取到的用户个人信息,设计了分类算法,在用户的性别分类判断方面做了一些研究工作。本文的主要贡献和创新点如下:
  1.以腾讯微博为例,研究了腾讯微博的开放平台接口和微博特点,提出了基于微博内容的用户名自动发现算法和海量微博文本自动下载算法。在对腾讯微博的内容进行分析时,发现其中有很多和其他用户的互动,而这些操作都涉及到其他用户的用户名,据此提出了用户名自动发现算法;结合腾讯官方开放平台提供的微博数据下载接口,利用自动发现的用户名,设计了海量微博数据自动下载算法、用户信息自动下载算法,建立了微博语料库,包括微博文本信息和用户的个人资料。
  2.根据对微博内容和用户信息的统计分析,提出了根据昵称和动词进行性别分类的算法以及分类时特征词提取的方法。通过对下载的海量微博内容和用户个人资料的抽样统计分析,发现用户的昵称大都与汉语的人名相似,而汉语人名具有比较强的性别区分性,因此提出了一种基于昵称的性别分类方法,以昵称中的单个字为特征进行了分类研究;在对微博文本进行分词后,对动词在两种性别中出现频次的统计分析,发现部分动词具有较大的性别区分度,根据这个特点提出了一种基于动词的性别分类算法,设计了动词特征项选取的标准。通过实验对比和分析,发现以上提出的算法,在性别分类中具有较好的准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号