首页> 中文学位 >面向科技文献的多样化排序学习关键技术研究
【6h】

面向科技文献的多样化排序学习关键技术研究

代理获取

目录

声明

致谢

摘要

1绪论

1.1题目来源及意义

1.1.1题目来源

1.1.2研究意义

1.2论文章节的主要内容、实施方案和研究方法

1.2.1主要内容

1.2.2研究方法

1.3论文的难点和创新点

1.3.1论文创新点

1.3.2论文难点

2国内外研究现状

2.1科技文献排序

2.1.1科技文献的排序算法

2.1.2科技文献检索系统的排序方式

2.2多样化排序

2.2.1多样化排序的定义

2.2.2隐式多样化排序

2.2.3显式多样化排序

2.2.4多样化评价标准

2.3排序学习

2.3.1排序学习概述

2.3.2排序学习算法

2.4本章小结

3结构化学习模型

3.1学习问题

3.2优化评估指标

3.3结构化SVM

3.4寻找最违反的约束

3.5实验与结果分析

3.5.1实验设计

3.5.2实验结果与分析

3.6本章小结

4多样化排序学习中的主题发现

4.1模型简介

4.1.1 LDA模型的基本原理

4.1.2 LDA模型的算法描述

4.1.3实验结果及分析

4.2基于加权的领域本体LDA主题模型

4.2.1领域本体构建过程

4.2.2加权的LDA主题模型

4.2.3实验结果及分析

4.3本章小结

5科技文献中的相关性特征获取

5.1文献获取和预处理

5.2特征的选择

5.2.1 TF-IDF特征

5.2.2 BM25特征

5.2.3余弦相似度特征

5.2.4 Doc2vec特征

5.3特征的提取实验

5.3.1改进TF-IDF特征的提取

5.3.2 BM25特征的提取

5.3.3余弦相似度特征的提取

5.3.4 Doc2vec特征的提取

5.4本章小结

6综合实验与结论

6.1多样化排序实验

6.2排序学习实验

6.2.1 Ranking SVM算法

6.2.2 ListNet算法

6.3多样化排序学习实验

6.4本章小结

7总结与展望

7.1总结

7.2展望

参考文献

附录

作者简历

学位论文数据集

展开▼

摘要

科技文献的检索是科研人员获取资源信息的重要途径,目前也已成为信息检索中的重要研究领域。合理的科技文献检索工具应该帮助科研人员减少信息冗余的负面影响、高效获取和总结前人研究成果,满足用户多方面的检索需求。然而,现有科技文献检索技术存在不完善处。一方面,检索查询本身存在模糊性,面对海量的数据,科研人员很难筛选自己需要的信息;另一方面,现有科技文献的检索大多沿袭传统文献检索结果排序方案,例如按照相关性、被引次数、发表时间等条件对结果进行排序,方法和角度比较单一。因此如何实现科技文献检索的多样化成为一个重要且有意义的问题。 本文主要针对将多样化排序学习的方式应用到科技文献中的关键技术进行研究。经大量调研发现,在多样化排序学习技术中如何对特征进行选择和整合,构建更加有效、更加符合要求的排序模型是一个重要任务。在此基础上,本文的具体研究内容有以下几点: 首先,传统排序学习的方式并没有考虑文档间的“不相似”程度,造成结果的冗余,所以本文利用一种可以同时优化查询与文档间相关性以及文档间差异多样性的结构化框架。该框架将损失函数定义在国际通用且官方的多样化评价指标上,具有同时优化相关性特征和多样性特征的能力;然后利用结构化SVM(Support Vector Machine)进行模型训练以及参数学习,将一系列的约束条件加入到训练集中的每个样本中进行优化;最后用割平面算法去求解上述优化问题,将得到的模型进行排序预测。 其次,为有效获取结构化框架所需要的多样性特征,本文对文本中所隐藏的主题进行区分和识别,利用主题模型中的“文档-主题”分布对其进行表征。本文对传统的LDA(Latent Dirichlet Allocation)主题模型进行了优化,提出了对文本不同字段赋予不同权重并结合本体三元组的方案,最后以“区块链”相关文献的主题提取为例,结果证明优化后的模型可以更有效的表达文本主题,实现良好的效果。 同样地,为有效获取结构化框架所需要的相关性特征,本文通过改进的TF-IDF(Term Frequency-Inverse Document Frequency)算法、信息检索中常用的BM25(Best Matching)算法、基于向量空间模型的余弦相似度算法以及基于深度学习的Doc2vec算法获取了文本的不同特征。其中,本文采用同义词扩展等方式对传统TF-IDF算法进行了改进,与传统TF-IDF算法相比,优化后的算法更能反映文本内容,在准确率和召回率上都有一定的提升。在对四类特征进行提取的过程中,不同的算法在摘要、正文等字段上所表现的效果也有所差异,因此合理的特征选择可以使得模型在训练过程中产生事半功倍的效果。 最后,利用有监督的机器学习方式对提取的特征进行权重学习,实现了多个特征的一体化处理,并得到一个高效、精准的排序模型。将该模型对科技文献的排序结果与多样化排序算法MMR(Maximal Marginal Relevance)算法、排序学习算法Ranking SVM以及ListNet的结果进行对比,利用多样化评估指标即子话题召回率进行评价,发现本文的方式提高了排序靠前的检索结果与科研人员信息检索需求的匹配程度,展现出良好的优越性。在这一过程中,本文同时对比了由优化前后的特征学习到的排序模型,证明了优化后的特征在科技文献上的有效性,最终实现了科技文献检索结果的多样化。

著录项

  • 作者

    朱文文;

  • 作者单位

    中国科学技术信息研究所;

  • 授予单位 中国科学技术信息研究所;
  • 学科 信息资源管理
  • 授予学位 硕士
  • 导师姓名 刘耀;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    科技文献; 多样化; 排序; 学习;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号