面向科技文献的多样化排序学习关键技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

科技文献的检索是科研人员获取资源信息的重要途径,目前也已成为信息检索中的重要研究领域。合理的科技文献检索工具应该帮助科研人员减少信息冗余的负面影响、高效获取和总结前人研究成果,满足用户多方面的检索需求。然而,现有科技文献检索技术存在不完善处。一方面,检索查询本身存在模糊性,面对海量的数据,科研人员很难筛选自己需要的信息;另一方面,现有科技文献的检索大多沿袭传统文献检索结果排序方案,例如按照相关性、被引次数、发表时间等条件对结果进行排序,方法和角度比较单一。因此如何实现科技文献检索的多样化成为一个重要且有意义的问题。本文主要针对将多样化排序学习的方式应用到科技文献中的关键技术进行研究。经大量调研发现,在多样化排序学习技术中如何对特征进行选择和整合,构建更加有效、更加符合要求的排序模型是一个重要任务。在此基础上,本文的具体研究内容有以下几点: 首先,传统排序学习的方式并没有考虑文档间的“不相似”程度,造成结果的冗余,所以本文利用一种可以同时优化查询与文档间相关性以及文档间差异多样性的结构化框架。该框架将损失函数定义在国际通用且官方的多样化评价指标上,具有同时优化相关性特征和多样性特征的能力;然后利用结构化SVM(Support Vector Machine)进行模型训练以及参数学习,将一系列的约束条件加入到训练集中的每个样本中进行优化;最后用割平面算法去求解上述优化问题,将得到的模型进行排序预测。其次,为有效获取结构化框架所需要的多样性特征,本文对文本中所隐藏的主题进行区分和识别,利用主题模型中的“文档-主题”分布对其进行表征。本文对传统的LDA(Latent Dirichlet Allocation)主题模型进行了优化,提出了对文本不同字段赋予不同权重并结合本体三元组的方案,最后以“区块链”相关文献的主题提取为例,结果证明优化后的模型可以更有效的表达文本主题,实现良好的效果。同样地,为有效获取结构化框架所需要的相关性特征,本文通过改进的TF-IDF(Term Frequency-Inverse Document Frequency)算法、信息检索中常用的BM25(Best Matching)算法、基于向量空间模型的余弦相似度算法以及基于深度学习的Doc2vec算法获取了文本的不同特征。其中,本文采用同义词扩展等方式对传统TF-IDF算法进行了改进,与传统TF-IDF算法相比,优化后的算法更能反映文本内容,在准确率和召回率上都有一定的提升。在对四类特征进行提取的过程中,不同的算法在摘要、正文等字段上所表现的效果也有所差异,因此合理的特征选择可以使得模型在训练过程中产生事半功倍的效果。最后,利用有监督的机器学习方式对提取的特征进行权重学习,实现了多个特征的一体化处理,并得到一个高效、精准的排序模型。将该模型对科技文献的排序结果与多样化排序算法MMR(Maximal Marginal Relevance)算法、排序学习算法Ranking SVM以及ListNet的结果进行对比,利用多样化评估指标即子话题召回率进行评价,发现本文的方式提高了排序靠前的检索结果与科研人员信息检索需求的匹配程度,展现出良好的优越性。在这一过程中,本文同时对比了由优化前后的特征学习到的排序模型,证明了优化后的特征在科技文献上的有效性,最终实现了科技文献检索结果的多样化。

著录项

作者
朱文文;
展开▼
作者单位

中国科学技术信息研究所;

展开▼
授予单位中国科学技术信息研究所;
学科信息资源管理
授予学位硕士
导师姓名刘耀;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
科技文献; 多样化; 排序; 学习;

相似文献

中文文献
外文文献
专利

1. 面向排序学习的锦标赛排序特征选择方法 [J] . 蒋宗礼 ,李涵昱 . 计算机技术与发展 . 2014,第002期
2. 面向移动学习的学习资源组织关键技术研究 [J] . 胡钦太 ,郑凯 ,黄昌勤 . 华南师范大学学报（自然科学版） . 2014,第005期
3. 一种基于迭代运算引文排序的科技文献检索系统 [J] . 葛慧丽 ,叶志飞 . 计算机时代 . 2011,第009期
4. 基于引文排序的科技文献检索初探 [J] . 刘松涛 . 制造业自动化 . 2010,第010期
5. 基于阅读价值的科技文献排序方法研究 [J] . 张光前 ,刘欣 ,冯永琴 . 情报学报 . 2009,第006期
6. 科技论文中插图和表格引用参考文献的排序问题——以顺序编码制著录参考文献为例 [C] . 李红霞 ,邱亮斌 ,彭冰霞 . 第十届中国科技期刊发展论坛 . 2014
7. 面向信息检索的排序学习算法关键技术研究 [A] . 陈凯 . 2017

面向科技文献的多样化排序学习关键技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅