首页> 中文学位 >基于时间序列的学科热点主题预测
【6h】

基于时间序列的学科热点主题预测

代理获取

摘要

在特定学科研究领域中,从科技文献中快速和正确地识别研究热点主题是了解该学科研究领域发展状况的重要手段,也是推动科技政策制定的重要环节。本文采用Relim算法从“动物遗传与育种”领域文献中识别出研究热点主题,并采用了四种机器学习算法对研究热点主题进行预测,发现集成后的预测模型对时间序列预测效果较好,选择提前两步的预测效果最好。实验结果表明热点主题预测有助于了解未来一段时间内的研究热点主题状况。本文的主要研究工作: (1)基于Relim算法的研究热点主题识别。主要通过对若干个识别主题算法的对比研究,在前人研究基础上确定将Relim算法作为识别主题的核心算法,实现了从动物遗传与育种领域的科技文献中对研究热点主题的自动挖掘。本文从实验数据中共挖掘了“animal”、“association”、“behavior”、“animal_association_behavior”、“breed”等283个热点主题。为了去除冗余的数据,对研究热点主题进行精简,精简后为“animal_association_behavior”和“breed”等250个热点主题。将2000-2017年精简的主题的频数按年份顺序排列得到时间序列。 (2)基于机器学习算法对热点主题的演变趋势预测。本文采用了线性回归、支持向量机、径向基函数回归、径向基函数神经网络四种机器学习算法,对单个主题“breed”进行预测。对比发现对于同一时间序列,由于不同算法彼此间的多样化或独立性的本质,导致四个单个预测模型的均方误差、均方根误差、平均绝对误差值之间存在着巨大的差异。通过将单个预测模型的预测值进行综合加权(集成预测)作为对热点主题演变趋势的预测模型。在集成预测模型中,将性能表现不好的预测模型与性能较好的预测模型进行加权组合,最终可以得到性能更加稳定的集成预测模型。通过对主题“weight body”提前五步的预测实验,发现提前2步的预测方案是最优的。最后,利用集成预测模型对主题“ability”、“acid”、“activation”进行提前2步的预测。主题“ability”在2017年之后,主题的频数有下降的趋势;主题“acid”在2017年到2018年频数有下降的趋势,但是2019年,主题的频数有所回升;主题“activation”在2017年之后主题的频数保持平稳的状态。 实验结果表明,该方法能够较为准确地从动物遗传与育种领域的文献集合中预测该领域热点主题,特别是对未来2年的热点主题预测具有较好的预测结果。该方法也同样适合基于科技文献的其他学科或领域的热点主题预测,帮助用户快速了解未来一段时间内的研究热点主题状况。

著录项

  • 作者

    聂秀萍;

  • 作者单位

    中国农业科学院;

  • 授予单位 中国农业科学院;
  • 学科 农业信息管理
  • 授予学位 硕士
  • 导师姓名 谢能付;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    时间序列; 学科; 热点; 主题;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号