首页> 中文学位 >基于半监督学习模型的不文明微博帖识别方法研究
【6h】

基于半监督学习模型的不文明微博帖识别方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究的背景及意义

1.2 课题来源

1.3 国内外研究现状

1.4 研究内容

1.5 本文的组织结构

第二章 网络不文明语言与行为监测

2.1 网络不文明词汇研究的方法及其现状

2.1.1 监督学习

2.1.2 无监督学习

2.1.3 传统的机器学习方法

2.1.4 深度学习的方法

2.2 半监督学习理论知识

2.2.1 半监督学习算法原理

2.2.2 模型假设

2.2.3 转导

2.3 本章小结

第三章 基于多源数据的不良语言词典的构建

3.1 数据的预处理过程

3.2 不良语言词典的构建

3.2.1 基于人工的不良语言词典构建

3.2.2 基于PMI的不良语言词典自动扩展方法

3.2.3 基于情感的不文明语言词典构建

3.3 基于微博文本的网络语言分级评价

3.4 本章小结

第四章 基于半监督学习的微博不文明帖自动识别

4.1 基于TSVM模型的不文明微博贴识别

4.1.1 模型的构建

4.1.2 模型的验证

4.1.3 基于TSVM模型的不文明微博帖识别

4.2 局部极大值优化

4.3 实验结果分析

4.4 本章小结

5.1 本文总结

5.2 研究展望

参考文献

在校期间参加的科研项目

致谢

展开▼

摘要

在信息时代,社交网络应用为人们共享各种新闻信息资源提供了平台。每天有数百万人登陆微博并分享他们的意见。为了使网络语言生活健康、文明、有序地发展,应尽量控制不良语言的使用和传播,对这些不良语言进行监测预警,才能有效把握网络舆情的趋势,进而引导网络语言生活方式朝着和谐、健康的方向发展。目前国内外对于文本识别以及情感分析的研究主要体现在包括基于语义词典的情感计算,基于机器学习的情感分类等方法。但是很少有学者深入系统地研究过微博中不良网络语言的监测问题。因此本文首先构建不良语言词典,并通过半监督学习的转导支持向量机方法(TSVM)探究微博不文明帖的识别方法。
  第一,基于多源数据的网络不文明语言词典的构建。通过整理各种参考文献,从不同数据来源人工收集整理了网络不良语言词典,并提出基于PMI的不良语言词典的自动扩展方法,有助于准确获取不良语言网络新词。不良语言词典主要包括不文明微博词典词汇、政治敏感词典词汇、不文明字母缩写类词典词汇、不文明字母缩写类词典词汇、不文明数字谐音类词典词汇、不文明复合谐音类类词典词汇等六个方面。从微博文本中提取不文明基本情感词典,将不良微博词汇分为基本情感,程度副词,否定词,网络词汇,表情词以及关系连词等六类,网络词主要依赖于互联网搜索,表情词典主要是新浪微博平台提供的表情符号。
  第二,基于半监督学习的不文明微博帖自动识别。提出基于半监督学习方法转导SVM构建的不良文本识别模型。针对TSVM容易受到局部最大值问题的困扰,本文引入确定性退火策略以克服TSVM局部极大值问题进一步提高分类精度。本文建立了由1100个文本词汇组成的训练集,10次测试运行情况;在每种情况下随机选择10个文本标签,然后将未标记样本的训练集的大小从100增加到1100、实验结果表明半监督学习的结果优于监督学习,TSVM方法精度与模型概率的相关系数为0.9798。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号