科技文献中的主题发现与趋势预测

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在当今时代,随着科学领域技术迅速发展,科技文献的数量也在以惊人的速度增长,从而出现了各种数字图书馆、文献数据库。而当用户面对着如此巨量的异构的信息时,他们往往难以做到对信息全面的了解和准确的定位。为了解决这个问题,本文在文献数据集内进行了主题发现和主题趋势预测的研究,具体的研究内容如下:
　　首先,本文通过构建爬虫程序收集了NLP领域内的重要会议和期刊的文献集,并通过PDFBox工具包抽取出文献的标题、摘要和时间信息来构建科技文献数据集。
　　接着,本文使用了基于极大频繁项集挖掘的方法对文献数据集中的主题信息进行挖掘,发现使用该方法挖掘出的主题信息包含着难以剔除的无用信息。为了解决这个问题,本文使用了基于LDA模型的方法进行主题信息的挖掘。基于LDA模型发现的主题信息是词的概率分布,这些概率信息可以衡量每个词汇代表主题的权重,所以可以根据权重对结果中的无用信息进行剔除。但是,使用LDA模型却无法充分挖掘文献数据集中的主题信息,因此本文介绍并使用了一种基于结合了受控词表的LDA模型进行主题发现的方法,使得基于LDA模型的方法无法充分挖掘文献数据集中主题信息的困难得到解决。
　　然后,本文假设用户对主题的检索数据,在一定程度上了反映了当前科学领域内各个研究主题的发展情况。所以在该部分,本文在已建立的趋势预测模型中融入用户检索量的时间分布信息对主题的趋势进行预测。接着,本文对主题研究趋势预测开展了进一步的研究。通过进一步的研究发现直接使用绝对用户检索量信息存在着弊端,因此本文将用户相对检索量而非用户绝对检索量数据融入到预测模型对主题的研究趋势进行预测,发现用户检索量数据对主题研究趋势预测的帮助性有了大幅提高。
　　最后,本文将主题发现和主题研究趋势预测的研究成果应用到高校教师信息网Tnet之上,通过与Tnet教师信息和文献信息的关联,实现了一个向互联网用户提供科学领域内研究主题以及研究主题相关的文献、教师等信息的系统。

著录项

作者
薛耀兵;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机技术
授予学位硕士
导师姓名王晓龙;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
科技文献; 主题发现; 趋势预测; LDA模型; 用户检索;

相似文献

中文文献
外文文献
专利

1. 主题词分析法进行非相关文献知识发现的探索(Ⅱ)——对2型糖尿病文献进行知识发现的实践 [J] . 郝丽云 ,郭启煜 . 情报学报 . 2007,第006期
2. 基于CNKI文献的我国经济犯罪研究主题变化趋势及预测 [J] . 叶栩闻 ,李嘉雯 . 犯罪研究 . 2017,第003期
3. 基于话题模型的科技文献话题发现和趋势分析 [J] . 贺亮 ,李芳 . 中文信息学报 . 2012,第002期
4. 对科技文献未来发展趋势的预测 [J] . 李晨璐 . 情报杂志 . 2011,第S2期
5. 主题词分析法进行非相关文献知识发现的探索(Ⅰ)——模拟Swanson的知识发现过程 [J] . 郝丽云 ,郭启煜 . 情报学报 . 2007,第005期
6. 基于话题模型的科技文献话题发现和趋势分析 [C] . He Liang ,贺亮 ,Li Fang . 第十一届全国计算语言学学术会议 . 2011
7. 基于主题模型的社交媒体主题挖掘和文献影响力预测分析 [A] . 邱洁 . 2017

科技文献中的主题发现与趋势预测

目录

摘要

著录项

相似文献

相关主题

期刊订阅