首页> 中文学位 >科技文献中的主题发现与趋势预测
【6h】

科技文献中的主题发现与趋势预测

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1 课题背景与意义

1.2 研究现状与分析

1.3 本文的研究内容及章节安排

第2章 文献数据集的构建与主题发现

2.1 引言

2.2 文献数据集的构建与主题发现结果的评价依据

2.3 基于极大频繁项集挖掘的主题发现

2.4 基于LDA模型的主题发现

2.5 基于结合受控词表的LDA模型的主题发现

2.6 本章小结

第3章 文献主题的趋势预测

3.1 引言

3.2 用户检索量对主题研究趋势预测帮助性的研究

3.3 主题研究趋势预测的进一步研究

3.4 相对检索量对主题研究趋势预测帮助性的研究

3.5 本章小结

第4章 主题发现与趋势预测展示系统

4.1 引言

4.2 主题发现与趋势预测系统的实现

4.3 主题发现与趋势预测系统的展示

4.4 系统的不足以及展望

4.5 本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其他成果

声明

致谢

展开▼

摘要

在当今时代,随着科学领域技术迅速发展,科技文献的数量也在以惊人的速度增长,从而出现了各种数字图书馆、文献数据库。而当用户面对着如此巨量的异构的信息时,他们往往难以做到对信息全面的了解和准确的定位。为了解决这个问题,本文在文献数据集内进行了主题发现和主题趋势预测的研究,具体的研究内容如下:
  首先,本文通过构建爬虫程序收集了NLP领域内的重要会议和期刊的文献集,并通过PDFBox工具包抽取出文献的标题、摘要和时间信息来构建科技文献数据集。
  接着,本文使用了基于极大频繁项集挖掘的方法对文献数据集中的主题信息进行挖掘,发现使用该方法挖掘出的主题信息包含着难以剔除的无用信息。为了解决这个问题,本文使用了基于LDA模型的方法进行主题信息的挖掘。基于LDA模型发现的主题信息是词的概率分布,这些概率信息可以衡量每个词汇代表主题的权重,所以可以根据权重对结果中的无用信息进行剔除。但是,使用LDA模型却无法充分挖掘文献数据集中的主题信息,因此本文介绍并使用了一种基于结合了受控词表的LDA模型进行主题发现的方法,使得基于LDA模型的方法无法充分挖掘文献数据集中主题信息的困难得到解决。
  然后,本文假设用户对主题的检索数据,在一定程度上了反映了当前科学领域内各个研究主题的发展情况。所以在该部分,本文在已建立的趋势预测模型中融入用户检索量的时间分布信息对主题的趋势进行预测。接着,本文对主题研究趋势预测开展了进一步的研究。通过进一步的研究发现直接使用绝对用户检索量信息存在着弊端,因此本文将用户相对检索量而非用户绝对检索量数据融入到预测模型对主题的研究趋势进行预测,发现用户检索量数据对主题研究趋势预测的帮助性有了大幅提高。
  最后,本文将主题发现和主题研究趋势预测的研究成果应用到高校教师信息网Tnet之上,通过与Tnet教师信息和文献信息的关联,实现了一个向互联网用户提供科学领域内研究主题以及研究主题相关的文献、教师等信息的系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号