基于半监督学习模型的不文明微博帖识别方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在信息时代，社交网络应用为人们共享各种新闻信息资源提供了平台。每天有数百万人登陆微博并分享他们的意见。为了使网络语言生活健康、文明、有序地发展，应尽量控制不良语言的使用和传播，对这些不良语言进行监测预警，才能有效把握网络舆情的趋势，进而引导网络语言生活方式朝着和谐、健康的方向发展。目前国内外对于文本识别以及情感分析的研究主要体现在包括基于语义词典的情感计算，基于机器学习的情感分类等方法。但是很少有学者深入系统地研究过微博中不良网络语言的监测问题。因此本文首先构建不良语言词典，并通过半监督学习的转导支持向量机方法(TSVM)探究微博不文明帖的识别方法。
　　第一，基于多源数据的网络不文明语言词典的构建。通过整理各种参考文献，从不同数据来源人工收集整理了网络不良语言词典，并提出基于PMI的不良语言词典的自动扩展方法，有助于准确获取不良语言网络新词。不良语言词典主要包括不文明微博词典词汇、政治敏感词典词汇、不文明字母缩写类词典词汇、不文明字母缩写类词典词汇、不文明数字谐音类词典词汇、不文明复合谐音类类词典词汇等六个方面。从微博文本中提取不文明基本情感词典，将不良微博词汇分为基本情感，程度副词，否定词，网络词汇，表情词以及关系连词等六类，网络词主要依赖于互联网搜索，表情词典主要是新浪微博平台提供的表情符号。
　　第二，基于半监督学习的不文明微博帖自动识别。提出基于半监督学习方法转导SVM构建的不良文本识别模型。针对TSVM容易受到局部最大值问题的困扰，本文引入确定性退火策略以克服TSVM局部极大值问题进一步提高分类精度。本文建立了由1100个文本词汇组成的训练集，10次测试运行情况;在每种情况下随机选择10个文本标签，然后将未标记样本的训练集的大小从100增加到1100、实验结果表明半监督学习的结果优于监督学习，TSVM方法精度与模型概率的相关系数为0.9798。

著录项

作者
贾晓亮;
展开▼
作者单位

华中师范大学;

展开▼
授予单位华中师范大学;
学科软件工程
授予学位硕士
导师姓名沈显君;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
微博平台; 不文明帖; 语言识别; 半监督学习; 支持向量机;
入库时间 2022-08-17 10:45:23

相似文献

中文文献
外文文献
专利

1. 基于半监督协同训练算法的微博水军识别 [J] . 韩晴晴 ,张艳梅 ,牛娃 . 计算机科学 . 2019,第011期
2. 基于 SVM 的新浪微博营销类水帖识别研究 [J] . 叶施仁 ,孙宁 . 湘潭大学自然科学学报 . 2015,第004期
3. 基于ENVI深度学习模型的卫星影像识别方法研究 [J] . 崔珂玮 ,张亚豪 ,刘彤 . 现代信息科技 . 2020,第001期
4. 基于ENVI深度学习模型的卫星影像识别方法研究 [J] . 崔珂玮 ,张亚豪 ,刘彤 . 现代信息科技 . 2020,第001期
5. 基于深度学习模型的自发学习表情识别方法研究 [J] . 何秀玲 ,高倩 ,李洋洋 . 计算机应用与软件 . 2019,第003期
6. "你好,明天"体——人民日报微博"晚安帖"的文本分析 [C] . . 安徽省第五届新闻传播学科研究生论坛 . 2013
7. 不文明微博帖的自动识别方法研究 [A] . 高明 . 2016

基于半监督学习模型的不文明微博帖识别方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅