首页> 中文学位 >基于双分词器的医疗类网站站内搜索研究与实现
【6h】

基于双分词器的医疗类网站站内搜索研究与实现

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文研究内容

1.4 本文组织结构

2 站内搜索及通用搜索引擎关键技术

2.1 站内搜索概述

2.1.1 站内搜索引擎的实现技术

2.1.2 方案选择及优势

2.2 通用搜索引擎的发展及分类

2.2.1 通用搜索引擎的发展

2.2.2 通用搜索引擎的分类

2.3 通用搜索引擎的组成

2.4 通用搜索引擎中的关键技术

2.4.1 搜索引擎中的分词技术

2.4.2 通用搜索引擎中的排序技术

2.5 本章小结

3 通用搜索搭建方式介绍及原生系统搭建

3.1 用户搭建通用搜索的主要技术路线

3.1.1 多开源工具的结合

3.1.2 开源搜索引擎框架

3.1.3 两种构建方式对比

3.2 Nutch简介

3.2.1 Nutch架构

3.2.2 Nutch工作原理及流程

3.2.3 Nutch插件机制

3.3 原生Nutch系统的实现

3.3.1 Nutch运行环境搭建

3.3.2 Nutch基本配置

3.3.3 Nutch抓取页面配置与执行

3.2.4 Nutch在Tomcat下配置

3.4 本章小结

4 基于双分词器站内搜索系统实现

4.1 原生系统的不足

4.1.1 单字切分的分词程序

4.1.2 低效复杂的Nutch排序算法

4.2 基于双分词器站内搜索模型的提出

4.2.1 对用户输入查询的分析

4.2.2 基于双分词器站内搜索模型定义

4.3 基于双分词器站内搜索模型的实现

4.3.1 模型中StandardTokenizer的实现

4.3.2 模型中SpecialTokenizer的实现

4.4 本章小结

5 对比实验

5.1 查询结果数和查询时间对比

5.2 查准率和排序合理性对比

5.3 拼音及模糊查询对比

5.4 本章小结

6 总结与展望

6.1 本文工作总结

6.2 下一步工作展望

参考文献

致谢

展开▼

摘要

站内搜索引擎技术是搜索引擎技术的一个重要分支,专门适用于医疗信息类网站的站内搜索引擎可以帮助医生和患者更加快捷方便的查找和定位信息,同时,针对适用于医疗信息类网站站内搜索性能指标需要更高于通用搜索引擎的特点,本文研究设计并实现一个适用于医疗信息类网站的基于双分词器的站内搜索系统具有一定的研究价值和实用价值。
  本文开篇介绍了研究的背景和意义,并随后介绍了站内搜索的相关知识及一般构建站内搜索引擎的几种方式。通过对比分析,选择使用通用搜索引擎技术来解决适用于医疗信息类网站的站内搜索问题。紧接着,进一步介绍了通用搜索引擎及通用搜索中的关键技术。然后,介绍了几种用户搭建通用搜索引擎的两种方式,并通过对比分析,选择了使用开源全文搜索引擎框架Nutch来二次开发实现适用于医疗信息类网站站内搜索引擎。基于以上的研究和分析,本文主要做了以下两分面的工作:
  首先,本文根据医疗服务类网站站内最重要信息基本与医生和疾病及症状相关的特点,以及用户访问此类网站查询信息时输入查询条件基本是医生与疾病症状关键字的结合的查询习惯,在对开源搜索引擎框架Nutch进行了定制和二次开发的基础上,针对通用站内搜索无法正确处理错别字查询条件、拼音查询条件以及在通用站内搜索中排序合理性较差等问题,提出了一种基于双分词器的医疗类网站站内搜索模型。该模型将Nutch默认中文分词器替换为基于字典库的庖丁分词器(Paoding-Tokenizer)并扩展其字典库,同时嵌入另一个拥有特殊字典的自己编写的分词器,并且利用这个特殊分词器来处理几乎全部的用户输入,切分出输入中的医生姓名和疾病及症状名称关键字,并忽略其他的无关信息,仅将这些关键字提交给索引器去检索索引库。
  其次,本文对基于双分词的站内搜索模型和单分词器的传统站内搜索模型进行了详细的对比实验,实验内容不仅包括常规的查询时间、查准率、排序合理性参数等搜索引擎性能指标,还详细分析了不同类别关键词组成的长查询语句在两种站内搜索引擎模型下的性能表现,从而得出基于双分词器的站内搜索模型在长查询语句条件下相比传统单分词器搜索模型在搜索引擎性能指标上表现的更有优势。除此之外,对基于双分词的站内搜索模型是否可以正确理解拼音查询和由拼音引起的错别字查询进行了实验分析,实验表明该站内搜索系统是可以对上述两类查询进行正确的处理的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号