首页> 中文学位 >面向专利检索的查询扩展研究
【6h】

面向专利检索的查询扩展研究

代理获取

目录

声明

摘要

图目录

表目录

主要符号表

1 绪论

1.1 课题背景

1.2 相关工作研究进展

1.2.1 查询扩展研究

1.2.2 排序学习研究

1.2.3 专利检索研究

1.2.4 专利查询扩展研究

1.3 课题的动机及方法

1.4 本文工作概述

2 基于多文本域的专利检索查询扩展方法

2.1 引言

2.2 相关工作

2.3 专利语料集处理

2.3.1 专利语料采集

2.3.2 专利文本域

2.4 多文本域查询扩展方法

2.4.1 伪相关反馈文档集的选择

2.4.2 文本域权重评估

2.5 实验结果及分析

2.5.1 查询扩展方法的有效性

2.5.2 基于专利文本域的查询扩展有效性

2.6 本章小结

3 基于排序学习的专利检索查询扩展方法

3.1 引言

3.2 相关工作

3.3 多种查询扩展方法融合的信息检索方法

3.3.1 专利数据集

3.3.2 检索模型

3.3.3 查询扩展词选择

3.3.4 LambdaMART排序学习方法

3.4 实验结果及分析

3.4.1 排序特征选取

3.4.2 基于专利文本域的查询扩展性能

3.4.3 基于排序学习的模型性能

3.5 本章小结

4 基于词向量的专利查询扩展方法

4.1 引言

4.2 相关工作

4.3 基于词向量的查询扩展方法

4.3.1 伪相关文档的选择

4.3.2 基于TFIDF的查询扩展方法

4.3.3 基于词向量的查询扩展词的选择

4.3.4 基于词向量的排序学习特征选取方法

4.4 实验结果及分析

4.4.1 词向量方法实验参数设置

4.4.2 词向量方法实验结果

4.4.3 基于词向量方法排序学习方法的实验结果

4.5 本章小结

5 基于不同信息源的专利检索查询扩展方法

5.1 引言

5.2 相关工作

5.3 基于WordNet语义资源的查询扩展方法

5.3.1 WordNet组织结构

5.3.2 基于WordNet的查询扩展方法

5.3.3 基于WordNet的语义相似度的计算

5.4 基于不同信息资源的查询扩展方法

5.4.1 查询扩展模型

5.4.2 专利检索中的信息资源

5.4.3 查询扩展中的词选择

5.5 实验结果及分析

5.5.1 基于专利域的查询扩展效果

5.5.2 基于WordNeI的查询扩展效果

5.5.3 排序学习模型的效果

5.5.4 外部信息资源的效果

5.6 本章小结

6 基于查询扩展的专利检索原型系统

6.1 系统框架

6.2 模块介绍

6.3 数据源

6.4 系统安装及使用说明

6.4.1 系统安装

6.4.2 配置数据

6.4.3 使用说明

6.5 应用实例

6.5.1 汽车专利检索与分析

6.5.2 通信领域专利主题分析

6.6 本章小结

7 结论与展望

7.1 结论

7.2 创新点

7.3 展望

参考文献

攻读博士学位期间科研项目及科研成果

致谢

作者简介

展开▼

摘要

近年来,知识产权和专利系统受到了众多学科研究人员的广泛关注。随着系统中专利数量的急剧增加,研究人员从海量专利数据中精准获取所需要的相关专利变得越来越困难。因此,基于专利的信息检索技术成为相关领域的研究热点之一。不同于通用领域的信息检索,专利检索不仅要检索到相关的专利文档,而且需要将专利所特有的一些特性融入到检索模型的构建中,从而为用户提供更为贴切的检索结果以满足用户的信息需求。将专利特性融入检索模型最有效的方式就是利用查询扩展,查询扩展是一种经典的信息检索技术,它能够在用户提交给检索系统的查询的基础上进行补充和完善,构造更加符合用户信息需求的扩展查询,提高信息检索的整体性能。
  本文研究着重于专利信息检索中的查询扩展方法的分析与研究,主要研究工作从以下三个方面展开:
  (1)基于多文本域的专利检索查询扩展方法。专利文献不同于普通文献,其每个文本域都具有很强的意义,彼此独立性较强,包含的信息也较完整,本文针对专利多文本域的特点构造专利查询扩展方法。由于相同的词项在不同文本域中可能存在不同的检索重要性,描述专利的侧重点也不同。专利文献的每个文本域作为一个单独扩展源应用于候选词提取,赋予每个单独的文本域不同的权重。本文研究基于多文本域的专利检索查询扩展方法,提出一种基于文档域的查询扩展双阶段排序方法,论证了专利文献中基于多文本域提取有效扩展词的可能性和必要性。同时,本文也将词向量表示的方法应用于查询扩展词的选取过程当中,基于专利的多文本域,提出四种方法,利用词向量模型计算得到的原始查询与候选词的相似度,进行专利文档检索的查询扩展进一步提高查询扩展方法的性能。
  (2)基于不同信息源的专利检索查询扩展方法。针对传统的查询扩展方法仅仅基于单一的相关反馈文档作为查询扩展源的问题,本文将其他网络资源用于查询扩展词的提取。首先基于语义词典计算查询词和扩展词的语义相似度,应用该语义相似度对查询扩展词选择方法进行改进。同时本文不仅采用已有的用于检索的专利文档作为扩展词来源,增加其他专利文档作为扩展词的外部资源进行扩展词的提取。从德温特(Derwent)专利数据库中,用扩展词提取方法提取标题域和摘要域中的扩展词。同时也利用谷歌搜索引擎从查询词检索所返回的文档中来提取扩展词,提高专利文献检索的准确率和召回率。
  (3)基于排序学习的专利检索查询扩展方法。排序学习是一种有效的多种信息检索模型所转化的排序特征集合的融合策略,能够有效提高最终的信息检索结果。针对查询扩展方法的多样性以及其参数调整的复杂性。本文提出一种基于排序学习模型的查询扩展方法融合框架。将专利检索中的多种信息检索模型,查询扩展方法及参数调整策略转化为专利排序特征。通过排序学习方法训练排序学习模型对这些特征进行融合,从而提高查询扩展在专利检索中的性能。与一般的排序学习方法只采用不同的结果排序方法作为排序特征不同,本文所采用的特征不但考虑了结果排序方法,而且增加了基于多种的查询扩展策略与之融合的方法构造特征,实验证明在TREC测试集中,该方法能够有效提高专利检索的准确率。
  通过以上三个方面的研究,可以很大程度上提升专利检索查询扩展方法的性能,从而构建更为有效的专利信息检索系统,服务于科学研究人员,使之更为高效便捷地获取所需专利,更好地把握相关领域的研究进展。在上述研究的基础上实现了一个专利检索原型系统,可以在实验数据库以及实际专利数据库德温特数据库中切换专利检索。将所提出的多种专利检索策略嵌入实现的专利系统,并提供专利检索服务,在实际应用中检验所提出的方法性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号