文本相似度计算核函数的构造及其在分布式信息检索中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网、数字图书馆以及其它信息资源的快速发展，异构形式的数据项正快速遍布于全球范围的特定的节点中，这些节点相互连接形成分布式处理系统。如何从信息的海洋中以较低的时间开销、较高的精准率和召回率提供给检索用户所需要的信息是一个极富有挑战性的问题。在信息检索(Information Retrieval，简称IR)领域，从空间上分布的数据服务器中检索数据就是分布式信息检索(Distributed Information Retrieval，简称为DIR)。DIR需要解决两个主要问题是资源选择和结果融合。文本相似度计算技术研究的是如何计算或比较两个文本的相似性，是在语言学、心理学和信息理论等领域内被广泛研究的一个重要课题，也是信息检索、数据挖掘、知识管理、人工智能等领域的基本问题，是自然语言处理的一项基础技术，也是复制检测、新颖检测和信息过滤研究的重要内容。提高计算的精准率和召回率是文本相似度计算方法研究的出发点和目标。如何在分布式环境下尽可能快速、准确、全面地检索到相似的文本，是本文研究的主要内容，主要研究工作包括：
　　(1)分布式信息检索的资源选择研究。资源选择又叫服务器选择、集合选择、数据集选择或数据库选择，是分布式信息检索中的一个基本问题。本文考虑到不同的数据资源(数据集)之间存在的覆盖问题，基于集合覆盖理论，针对提问Q的检索结果在融合排序后位置的不同，对其赋以不同的权值，用来计算该项检索结果对其所在的数据集的贡献。若检索结果在先选的数据集中出现过，则不再计入后选的数据集得分内。通过加权求和得到待选数据集的得分，从而确定资源选择的先后顺序。由此优选出的资源集合可用于检索与问题Q同类或类似的提问Q’，缩短由于数据库之间的覆盖而重复检索的时间。
　　(2)构造适于文本相似计算的混合核函数，并将其应用在DIR结果融合。基于改进的潜在语义核(LSK)和复合方差核(ANOVA)构建了新的复合核(CLA核)用于计算文本相似度。此外提出一种新DIR融合方法，通过直接计算检索结果和提问之间相关度来对检索结果进行融合研究。将构造的新复合核用于DIR结果融合，实验结果表明：CLA核的融合精度和召回率分别仅略次于LSK和ANOVA核，但其综合评价指标F1优于其它核；其融合精度比经典的算法Round-robin、ComMNZ、Bayesian、Borda、SDM、MEM和regression SVM等分别提高了16.79％、30.73％、20.37％、24.17％、14.25％、13.50％和7.53％。CLA核具有较好的融合表现，适用于DIR结果融合。
　　(3)构造全新的文本相似度计算核函数，并将其应用于DIR结果融合中。为了进一步提高文本相似计算的表现，构造了全新的核函数S_Wang核函数。结合文本相似计算过程中的具体实际，将待比对的文本表示成向量，考虑通过两向量间的乘积和欧氏距离来描述向量之间的相似程度，从而构造了适合文本相似度计算的新的核函数。并根据Mercer定理证明了所构造的函数可以作为核函数。实验验证了新造的核函数在文本文档相似度计算中的表现，实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核，潜在语义核(LSK)以及CLA复合核。S_Wang核适用于文本相似度计算。
　　(4)分布式信息检索评价方法研究。资源选择和结果融合是DIR研究的两个主要步骤。检索的时间开销、精准率和召回率是IR也是DIR检索的三个主要指标。本文提出一种基于多变量的偏微分方程模型，从拉普拉斯方程出发，提出针对DIR的资源选择和结果融合的时间开销、精准率和召回率三指标的评价方法。实验评价了多种现有的资源选择和结果融合方法，验证了模型的有效性。基于50个主题的TREC实验结果表明该多变量偏微分方程模型在DIR评价方面有很好的表现和实际的应用。

著录项

作者
王秀红;
展开▼
作者单位

江苏大学;

展开▼
授予单位江苏大学;
学科系统工程
授予学位博士
导师姓名鞠时光;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机 ;
关键词
文本相似度; 核函数; 分布式信息检索; 资源选择; 结果融合; 评价方法;

相似文献

中文文献
外文文献
专利

1. 文本相似度计算在企业信息检索中的应用 [J] . 黄炜 . 科学技术与工程 . 2011 ,第015期
2. 用于文本相似度计算的新核函数 [J] . 王秀红 ,鞠时光 . 通信学报 . 2012 ,第012期
3. 基于混合核函数的分布式信息检索结果融合 [J] . 王秀红 ,鞠时光 . 通信学报 . 2011 ,第004期
4. 基于CORBA的分布式异构数据库信息检索模型--在高校数字图书馆中的应用研究 [J] . 毛黎莉 ,潘建图 . 微型电脑应用 . 2003 ,第011期
5. RealCC在文本信息检索的个性化推荐中的应用研究 [J] . 张振亚 ,陈恩红 ,王进 . 数据采集与处理 . 2004 ,第003期
6. Web文本分类及其维、哈、柯多文种信息检索中的应用研究 [C] . 海丽且木·艾沙 ,维尼拉·木沙江 . 第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会 . 2010
7. 数据挖掘在Web文本信息检索系统中的应用研究 [A] . 周军 . 2009

文本相似度计算核函数的构造及其在分布式信息检索中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅