首页> 中文学位 >社交网络短文本的分类方法研究
【6h】

社交网络短文本的分类方法研究

代理获取

目录

声明

第一章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 文本特征表示

1.2.2 短文本分类技术

1.2.3 主动学习分类技术

1.3 本文主要工作

1.4 论文章节安排

第二章 相关理论基础及技术

2.1 社交网络短文本分类问题

2.1.1 社交网络及其数据特点

2.1.2 问题定义

2.2 社交网络短文本数据预处理技术

2.3 社交网络短文本特征处理技术

2.3.1 特征抽取

2.3.2 特征度量

2.4 社交网络短文本分类技术

2.4.1 基于特征的统计学习方法分类技术

2.4.2 多模型的融合技术

2.5 本章小结

第三章 基于多属性特征的社交网络短文本分类方法

3.1 研究背景

3.2 社交网络短文本多属性特征提取

3.2.1 社交属性特征提取

3.2.2 结构属性特征提取

3.2.3 语义属性特征提取

3.3 基于多属性特征的短文本分类

3.4 实验及结果分析

3.4.1 特征的回归模型选择

3.4.2 特征的重要性评估

3.4.3 算法的测试分析

3.5 本章小结

第四章 基于主动学习的社交网络短文本分类方法

4.1 研究背景

4.2 主动学习算法

4.2.1 学习器的选择

4.2.2 查询函数的选择

4.3 基于主动学习的短文本分类

4.4 实验及结果分析

4.4.1 主动学习交互模块

4.4.2 算法的测试分析

4.5 本章小结

第五章 总结与展望

5.1 工作总结

5.2 后续工作展望

致谢

参考文献

攻读硕士学位期间取得的研究成果

展开▼

摘要

社交网络中的丰富信息,使之成为数据挖掘技术的研究热点。通过数据挖掘技术可以对灾害事件、民众舆情、可疑用户账号等进行监控,从而提升相关机构的灾害防御和救援能力,实现更智能的政治决策等。但社交网络数据的低信噪比等特点,并且现有的数据挖掘技术中较少考虑噪声的影响,价值信息被垃圾信息所掩盖,影响数据挖掘的效果。通过对社交网络短文本数据进行分类,过滤垃圾数据,保留价值数据,可以为数据挖掘提供更干净的输入数据,从而提升数据挖掘的效果。 社交网络数据具有长度短、内容少、特征选择单一且特征表达能力弱等特点,因此传统的文本分类方法在社交文本分类应用中效果不好。并且现有文本分类方法多采用有监督学习的方法来实现,但有监督方法为构建良好的分类模型,对标注数据集的大小和质量有很高的依赖性,但实际工作中往往存在标注数据不足、标注困难、标注代价高昂等问题,这导致现有方法很难获得社交网络短文本的准确分类结果。本文针对上述二个问题开展研究,主要贡献概括如下: 1.提出基于多属性特征的社交网络短文本分类方法。在特征抽取阶段,在传统的文本语义特征基础上,通过分析数据的特点,抽取了社交属性和结构属性作为语义属性的重要补充特征,解决了传统方法中特征表达能力弱等问题,很好的利用了社交网络所提供的信息。在特征学习阶段,利用不同的回归模型对多属性特征进行学习,提高了各模型的学习能力,以及特征表达能力,并在多模型融合中采用了加权平均的回归融合软处理操作,减少了噪声的引入,增强了模型的鲁棒性,从而实现数据的有效分类。在真实数据的测试中,本方法与常用方法相比,特征表达能力强,回归融合策略有效,分类性能有显著的提升,满足应用需要。 2.提出基于主动学习的社交网络短文本分类方法。在多属性特征分类方法的基础上,加入主动学习框架,通过查询函数批处理选择数据交由专家标注的过程,大大的提高了算法的训练效率,引入外部专家的知识,减少了噪声的引入和错误的传播,利用迭代次数作为终止条件,简化了参数的设定,最终减少算法对训练数据的需求,降低分类成本,实现算法的高效训练。在真实数据的测试中,本方法与多属性特征的分类方法相比,在保证分类性能情况下,对训练数据的需求减少了20倍,从而解决了标注数据不足等问题。

著录项

  • 作者

    赵越;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 信息与通信工程
  • 授予学位 硕士
  • 导师姓名 费高雷;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    社交网络; 文本; 分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号