首页> 中文学位 >文本相似度计算核函数的构造及其在分布式信息检索中的应用研究
【6h】

文本相似度计算核函数的构造及其在分布式信息检索中的应用研究

代理获取

目录

文摘

英文文摘

图目录

表目录

第1章 绪论

1.1 文本相似度计算概述

1.1.1 相关概念

1.1.2 主要任务

1.1.3 文本相似度计算方法

1.2 分布式信息检索概述

1.2.1 相关概念

1.2.2 主要任务

1.2.3 DIR的一般流程

1.3 研究背景

1.3.1 论文抄袭形式多样,现象严重

1.3.2 信息安全面临严峻挑战

1.3.3 信息资源异构分散

1.3.4 文档相似检测成为近年来研究的热点

1.4 本文的主要内容与组织结构

1.4.1 本文的主要研究内容

1.4.2 研究方法

1.4.3 试验方案

1.4.4 组织结构

1.5 预期的结果和意义

1.5.1 预期的结果

1.5.2 理论意义

1.5.3 现实意义

1.6 本章小结

第2章 基于集合覆盖的DIR资源选择研究

2.1 问题描述

2.2 相关工作

2.3 目前研究中存在的问题

2.4 基于集合覆盖的资源选择算法的描述

2.5 基于集合覆盖的资源选择实验

2.5.1 算法实现

2.5.2 实验分析与结论

2.6 本章小结

第3章 文本相似度计算混合核函数的构造及其DIR应用

3.1 研究现状

3.1.1 核函数的发展历史及其相关概念

3.1.2 核函数的构造研究现状

3.1.3 用于文本计算的核

3.1.4 分布式信息检索结果融合研究现状

3.2 核函数的构造流程和方法

3.2.1 核函数的构造流程

3.2.2 核函数的构造技术

3.2.3 核函数的构造方法

3.3 建立模型

3.3.1 构建改进的潜在语义核

3.3.2 选择复合ANOVA核

3.3.3 构造新的核函数

3.4 算法描述与复杂度分析

3.4.1 算法描述

3.4.2 算法复杂度分析

3.5 实验

3.5.1 实验语料

3.5.2 实验评价指标

3.5.3 实验设计与结果分析

3.6 实验结论

3.7 本章小结

第4章 文本相似度新核函数构造及其在DIR中的应用

4.1 构造的核函数当满足的条件

4.2 新核的构造思想

4.3 构造步骤

4.4 理论证明

4.5 文档的向量表示

4.6 新构造的核函数相似计算

4.7 算法描述与复杂度分析

4.7.1 算法描述

4.7.2 算法复杂度分析

4.8 实验

4.8.1 实验语料

4.8.2 实验评价指标

4.8.3 实验设计与结果分析

4.9 本章小结

第5章 基于偏微分方程的DIR评价方法

5.1 相关概念

5.2 用于DIR评价的偏微分方程模型

5.2.1 模型建立的思路

5.2.2 模型的假设条件

5.2.3 模型的建立

5.2.4 模型的边界条件

5.2.5 PDE模型的解

5.3 实验设计和结果分析

5.3.1 实验设计

5.3.2 实验结果和讨论

5.4 实验结论

5.5 本章小结

第6章 总结与展望

6.1 研究工作总结

6.2 主要创新成果

6.3 展望

参考文献

致谢

在学期间发表的学术论文及其他科研成果

国内外科技查新报告

展开▼

摘要

随着互联网、数字图书馆以及其它信息资源的快速发展,异构形式的数据项正快速遍布于全球范围的特定的节点中,这些节点相互连接形成分布式处理系统。如何从信息的海洋中以较低的时间开销、较高的精准率和召回率提供给检索用户所需要的信息是一个极富有挑战性的问题。在信息检索(Information Retrieval,简称IR)领域,从空间上分布的数据服务器中检索数据就是分布式信息检索(Distributed Information Retrieval,简称为DIR)。DIR需要解决两个主要问题是资源选择和结果融合。文本相似度计算技术研究的是如何计算或比较两个文本的相似性,是在语言学、心理学和信息理论等领域内被广泛研究的一个重要课题,也是信息检索、数据挖掘、知识管理、人工智能等领域的基本问题,是自然语言处理的一项基础技术,也是复制检测、新颖检测和信息过滤研究的重要内容。提高计算的精准率和召回率是文本相似度计算方法研究的出发点和目标。如何在分布式环境下尽可能快速、准确、全面地检索到相似的文本,是本文研究的主要内容,主要研究工作包括:
  (1)分布式信息检索的资源选择研究。资源选择又叫服务器选择、集合选择、数据集选择或数据库选择,是分布式信息检索中的一个基本问题。本文考虑到不同的数据资源(数据集)之间存在的覆盖问题,基于集合覆盖理论,针对提问Q的检索结果在融合排序后位置的不同,对其赋以不同的权值,用来计算该项检索结果对其所在的数据集的贡献。若检索结果在先选的数据集中出现过,则不再计入后选的数据集得分内。通过加权求和得到待选数据集的得分,从而确定资源选择的先后顺序。由此优选出的资源集合可用于检索与问题Q同类或类似的提问Q’,缩短由于数据库之间的覆盖而重复检索的时间。
  (2)构造适于文本相似计算的混合核函数,并将其应用在DIR结果融合。基于改进的潜在语义核(LSK)和复合方差核(ANOVA)构建了新的复合核(CLA核)用于计算文本相似度。此外提出一种新DIR融合方法,通过直接计算检索结果和提问之间相关度来对检索结果进行融合研究。将构造的新复合核用于DIR结果融合,实验结果表明:CLA核的融合精度和召回率分别仅略次于LSK和ANOVA核,但其综合评价指标F1优于其它核;其融合精度比经典的算法Round-robin、ComMNZ、Bayesian、Borda、SDM、MEM和regression SVM等分别提高了16.79%、30.73%、20.37%、24.17%、14.25%、13.50%和7.53%。CLA核具有较好的融合表现,适用于DIR结果融合。
  (3)构造全新的文本相似度计算核函数,并将其应用于DIR结果融合中。为了进一步提高文本相似计算的表现,构造了全新的核函数S_Wang核函数。结合文本相似计算过程中的具体实际,将待比对的文本表示成向量,考虑通过两向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适合文本相似度计算的新的核函数。并根据Mercer定理证明了所构造的函数可以作为核函数。实验验证了新造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核,潜在语义核(LSK)以及CLA复合核。S_Wang核适用于文本相似度计算。
  (4)分布式信息检索评价方法研究。资源选择和结果融合是DIR研究的两个主要步骤。检索的时间开销、精准率和召回率是IR也是DIR检索的三个主要指标。本文提出一种基于多变量的偏微分方程模型,从拉普拉斯方程出发,提出针对DIR的资源选择和结果融合的时间开销、精准率和召回率三指标的评价方法。实验评价了多种现有的资源选择和结果融合方法,验证了模型的有效性。基于50个主题的TREC实验结果表明该多变量偏微分方程模型在DIR评价方面有很好的表现和实际的应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号