首页> 中文学位 >基于词向量的农业生产知识查询扩展研究
【6h】

基于词向量的农业生产知识查询扩展研究

代理获取

目录

第一个书签之前

1 绪论

1.1 研究背景和意义

1.2 研究现状

1.2.1 农业搜索引擎现状

1.2.2 查询扩展研究现状

1.3 研究目标和内容

1.4 本文结构

2 查询扩展技术

2.1 基于全局分析的查询词扩展技术

2.1.1 基于词聚类的算法

2.1.2 潜在语义索引模型

2.1.3 相似词典

2.1.4 全局分析算法总结

2.2 基于相关反馈的查询扩展

2.2.1 相关反馈法分析

2.3 基于伪相关反馈的查询扩展

2.3.1 伪相关反馈法分析

2.4 基于用户查询日志的查询扩展

2.4.1 基于用户查询日志的查询扩展法分析

2.5 本章小结

3 基于词向量的农业查询词定点匹配查询扩展算法

3.1 查询词诊断

3.2 TF-IDF

3.3 主题词汇的判定

3.4 词向量化

3.5 语言模型

3.6 基于词向量的农业查询词定点匹配查询扩展算法

3.7 本章小结

4 实验结果与分析

4.1 实验数据描述及实验环境

4.2 实验评价指标

4.3 实验结果

4.4 结果分析

4.5 本章小结

5 基于词向量的农业生产知识查询扩展的应用研究

5.1 农业数据爬取

5.2 数据处理

5.3 搜索引擎搭建

5.4 异常词诊断

5.5 词向量化

5.6 基于词向量的定点匹配农业生产知识查询扩展

5.7 本章小结

6 总结与展望

6.1 研究工作总结

6.2 展望

致 谢

附录A 攻读硕士学位期间发表论文与成果

展开▼

摘要

垂直搜索是针对某一领域的专业搜索方式,对于农业而言,大量的技术、经验都可以通过农业垂直搜索引擎提供给用户。虽然农业垂直搜索引擎已经可以解决对农业信息的专业检索,但由于我国各地都有各自的方言,而且农业生产者往往还存在打字不熟练导致出现错字词汇的情况,故在使用搜索引擎时,极大可能使用方言词汇或者错字词汇,这些在目前的农业垂直搜索引擎中均没有得到重视与解决。本文旨在利用词向量与定点匹配法实现一种查询扩展,解决农业生产者使用搜索引擎时,出现方言词汇或是错字词汇时召回率过低的问题。当查询语句中存在方言词汇或是错字词汇时,搜索引擎的召回率以及查准率都十分的低,很有可能搜不到相关的文档,这将极大的打击使用者使用搜索引擎的积极性。所以针对这种情况,提高检索器的召回率以及查准率十分有必要。  传统的同义词表法无法将错误情况穷举,故无法完全解决这些异常查询语句。词聚类法由于异常词往往不存在于语料库中,故无法找到其的类。伪相关反馈法,由于初始查询文档很有可能就完全不相关,故也无法解决。相关反馈需要用户的配合,然而我国目前仍在务农的大部分为中老年人,对新事物缺乏耐心,故不大合理。查询日志法,对于开始的冷启动阶段无法解决。  本文提出的基于词向量的定点匹配查询扩展法,首先进行查询语句中异常词的诊断,将用户的查询语句通过自由度与约束度的比较找出异常词。之后判断异常词是否为主题词汇,主要利用主题词汇其标题文档集与内容文档集的差异,来进行判断。再利用语料库训练语言模型时生成的词向量以及当地的种植信息,根据查询语句中的正常词汇,将异常词最可能的扩展词返回,从而提高搜索引擎的召回率。  实验阶段,使用一个数据集与传统的两种方法下进行了比较,测试了存在方言词汇以及错别字时的召回率以及查准率,实验表明了本文的查询扩展方法能提升出现异常词汇时搜索引擎的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号