首页> 中文学位 >基于机器学习的慕课论坛主题分类研究
【6h】

基于机器学习的慕课论坛主题分类研究

代理获取

目录

第一个书签之前

摘  要

Abstract

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 基于论坛文本特征的慕课论坛主题分类

1.2.2 基于用户行为特征的慕课论坛主题分类

1.3 主要内容及章节安排

1.3.1 主要内容

1.3.2 章节安排

2 相关理论及定义

2.1 引言

2.2 欠采样学习算法

2.2.1 随机欠采样

2.2.2 原型生成欠采样

2.2.3 原型选择欠采样

2.3 过采样学习算法

2.3.1 随机过采样

2.3.2 样本合成过采样

2.4 代价敏感学习

2.4.1 代价敏感支持向量机

2.4.2 自适应提升代价敏感算法

3 基于用户行为特征的慕课论坛主题分类

3.1 引言

3.2 主题文本特征

3.3 用户行为特征

3.3.1 用户行为特征分析

3.3.2 用户行为特征选取

3.3.3 用户行为特征可视化

3.4 主题分类实验结果与分析

3.4.1 实验设置

3.4.2 评估准则

3.4.3 实验结果分析

3.5 本章小结

4 基于特征融合的慕课论坛主题分类

4.1 引言

4.2 梯度提升树特征融合算法

4.2.1 梯度提升树

4.2.2 单棵决策树特征融合

4.2.3 梯度提升树特征融合

4.3 主题分类实验结果与分析

4.3.1 实验设置

4.3.2 实验结果与分析

4.4 本章小结

结  论

参考文献

攻读硕士学位期间发表学术论文情况

致  谢

大连理工大学学位论文版权使用授权书

展开▼

摘要

慕课(Massive open online courses,MOOC)的兴起和发展,使得在线教育成为了现在最受欢迎的教育模式之一,如何改善在线教育的教学质量也成为了数据挖掘中一个比较热门的应用研究方向。慕课论坛是慕课课程中学生与老师、助教进行交流的唯一平台,是直接关乎到整个课程质量的重要因素。对慕课论坛的主题进行合理准确的分类可以帮助学生更好地交流和提问问题,更加有效率地解决学习中遇到的困难。以往对慕课论坛主题分类的研究多是用自然语言处理或者文本分析的技术,首先提取论坛文本的关键词,然后利用关键词构建文本特征对论坛主题进行分类。但是由于不同课程的论坛内容差异巨大,论坛用户交流使用的语言多种多样,导致在一个课程上训练好的主题分类模型,很难直接从特定的论坛推广应用到其他论坛。针对这些问题,本文提出了一种基于用户行为特征的慕课论坛主题分类框架。 本文首先分析了最大的慕课平台Coursera上60门课程的论坛用户行为特征数据,并收集分析了3门最热的Coursera中英文课程的论坛文本数据,证明了用户行为特征数据也可以较好地区分不同种类的慕课论坛主题。接着从主题的结构,主题的潜在社会网络,主题的热度和主题的质量四个方面提出了23种用户行为特征。用户行为特征和文本信息完全无关,因此可以学习多种学科,多种语言的慕课论坛主题的数据,使得最终训练得到的主题分类模型能够直接适用于各种课程的论坛主题分类工作。最后的主题分类实验表明本文提出的主题分类模型对Coursera上默认的6类主题的分类ROC-AUC值平均为0.8,比以往的结果提升了12%。 用户行为特征的设计和选择对于主题分类模型的准确率非常重要,但是特征的设计和选择一般需要很强的先验知识,并且需要消耗很多的人力成本。为了解决这个问题,本文提出可以利用梯度提升树对原始用户行为特征做相应的选择和组合,自动发现更具判别力的特征和组合特征,从而减少手工设计用户行为特征的困难。使用梯度提升树对特征进行编码后,可以在原来最好分类结果的基础上带来5%以上的增幅。

著录项

  • 作者

    刘国超;

  • 作者单位

    大连理工大学;

  • 授予单位 大连理工大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 林海卓;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    机器学习; 论坛; 主题;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号