声明
摘要
第一章 绪论
1.1 研究背景
1.2 研究目的和意义
1.3 国内外研究现状
1.3.1 微博内容挖掘研究现状
1.3.2 微博用户关系挖掘研究现状
1.4 本文研究内容与结构
第二章 相关研究技术
2.1 基本分类算法
2.1.1 朴素贝叶斯分类器
2.1.2 决策树分类器
2.1.3 k近邻分类器
2.2 数据表示模型
2.3 汉语分词方法
2.3.1 基于规则的分词方法
2.3.2 基于统计模型的分词方法
2.4 分类算法评价标准
2.4.1 正确率p、召回率r和F值
2.4.2 微平均和宏平均
2.5 本章小结
第三章 海量微博数据自动获取方法研究
3.1 API参数说明
3.1.1 微博内容下载参数
3.1.2 个人资料下载参数
3.2 海量微博数据下载
3.2.1 海量微博下载的难点
3.2.2 用户名自动发现算法
3.2.3 海量微博数据下载算法
3.2.4 用户个人资料下载算法
3.3 数据抽取
3.3.1 数据抽取方法
3.3.2 遇到的问题及解决方案
3.4 微博语料库介绍
3.5 本章小结
第四章 基于机器学习的微博用户性别预测
4.1 数据预处理及特征分析
4.1.1 微博文本内容预处理
4.1.2 用户个人资料预处理
4.2 实验数据特征分析
4.2.1 昵称数据的统计分析
4.2.2 动词数据的统计分析
4.3 根据用户昵称进行性别分类
4.3.1 分类算法设计
4.3.2 实验与分析
4.4 根据微博内容进行性别分类
4.4.1 分类算法设计
4.4.2 特征词选取方法
4.4.3 实验与分析
4.5 本章小结
第五章 总结与展望
5.1 本文总结
5.2 展望
参考文献
攻读硕士学位期间参加的科研项目与公开发表的学术论文
致谢
华中师范大学;