社交网络短文本的分类方法研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

社交网络中的丰富信息，使之成为数据挖掘技术的研究热点。通过数据挖掘技术可以对灾害事件、民众舆情、可疑用户账号等进行监控，从而提升相关机构的灾害防御和救援能力，实现更智能的政治决策等。但社交网络数据的低信噪比等特点，并且现有的数据挖掘技术中较少考虑噪声的影响，价值信息被垃圾信息所掩盖，影响数据挖掘的效果。通过对社交网络短文本数据进行分类，过滤垃圾数据，保留价值数据，可以为数据挖掘提供更干净的输入数据，从而提升数据挖掘的效果。社交网络数据具有长度短、内容少、特征选择单一且特征表达能力弱等特点，因此传统的文本分类方法在社交文本分类应用中效果不好。并且现有文本分类方法多采用有监督学习的方法来实现，但有监督方法为构建良好的分类模型，对标注数据集的大小和质量有很高的依赖性，但实际工作中往往存在标注数据不足、标注困难、标注代价高昂等问题，这导致现有方法很难获得社交网络短文本的准确分类结果。本文针对上述二个问题开展研究，主要贡献概括如下： 1．提出基于多属性特征的社交网络短文本分类方法。在特征抽取阶段，在传统的文本语义特征基础上，通过分析数据的特点，抽取了社交属性和结构属性作为语义属性的重要补充特征，解决了传统方法中特征表达能力弱等问题，很好的利用了社交网络所提供的信息。在特征学习阶段，利用不同的回归模型对多属性特征进行学习，提高了各模型的学习能力，以及特征表达能力，并在多模型融合中采用了加权平均的回归融合软处理操作，减少了噪声的引入，增强了模型的鲁棒性，从而实现数据的有效分类。在真实数据的测试中，本方法与常用方法相比，特征表达能力强，回归融合策略有效，分类性能有显著的提升，满足应用需要。 2．提出基于主动学习的社交网络短文本分类方法。在多属性特征分类方法的基础上，加入主动学习框架，通过查询函数批处理选择数据交由专家标注的过程，大大的提高了算法的训练效率，引入外部专家的知识，减少了噪声的引入和错误的传播，利用迭代次数作为终止条件，简化了参数的设定，最终减少算法对训练数据的需求，降低分类成本，实现算法的高效训练。在真实数据的测试中，本方法与多属性特征的分类方法相比，在保证分类性能情况下，对训练数据的需求减少了20倍，从而解决了标注数据不足等问题。

著录项

作者
赵越;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科信息与通信工程
授予学位硕士
导师姓名费高雷;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
社交网络; 文本; 分类;

相似文献

中文文献
外文文献
专利

1. 基于关键词相似度的短文本分类方法研究 [J] . 张振豪 ,过弋 ,韩美琪 . 计算机应用研究 . 2020,第001期
2. LDA特征扩展的多类SVM短文本分类方法研究 [J] . 郑腾 ,吴雨川 . 武汉纺织大学学报 . 2019,第002期
3. 基于混合神经网络的电力短文本分类方法研究 [J] . 曹湘 ,李誉坤 ,钱叶 . 计算机与数字工程 . 2019,第005期
4. LDA特征扩展的多类SVM短文本分类方法研究 [J] . 郑腾1 ,吴雨川1 . 武汉纺织大学学报 . 2019,第002期
5. 基于MCNN的铁路信号设备故障短文本分类方法研究 [J] . 周庆华 ,李晓丽 . 铁道科学与工程学报 . 2019,第011期
6. 社交网络视频分类方法研究进展 [C] . LI Chao ,李超 ,LIU Hong-zhe . 第十九届网络新技术与应用年会 . 2015
7. 面向社交媒体的深度短文本分类方法研究 [A] . 张斌艳 . 2021

社交网络短文本的分类方法研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅