首页> 中文学位 >基于贝叶斯推理的搜索引擎设计与实现
【6h】

基于贝叶斯推理的搜索引擎设计与实现

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

第1章 绪 论

1.1研究背景

1.2 研究现状

1.3论文主要工作

第2章 统计方法与规则相结合的分词算法

2.1 问题描述

2.2 隐马尔科夫模型

2.3 引入上下文信息的二元概率模型分词算法

2.3.1准备语料

2.3.2 基于EM算法的切分文本概率模型建立算法

2.3.3分词算法模型

2.4 环境搭建与实验分析

2.4.1环境搭建

2.4.2实验结果与常用分词算法的比较与分析

2.5 结语

第3章 基于朴素贝叶斯算法的主题爬虫实现

3.1问题描述

3.2 Heritrix架构分析

3.2.1架构介绍

3.2.2处理器链和边界部件

3.3 基于朴素贝叶斯的主题爬虫实现

3.3.1朴素贝叶斯算法

3.3.2朴素贝叶斯分类器的应用

3.4实验结果及分析

第4章 总结与展望

参考文献

致谢

展开▼

摘要

伴随Internet和Web技术的飞速发展,语音、视频、网络日志、互联网搜索索引、互联网文本文件等技术的广泛使用带来了数据量的急剧增长,这预示着大数据时代的到来。正是因为这个世界的不断信息化、数字化的发展,搜索引擎技术就成为了人们获取网络信息资源的重要途径,它的重要性深入人心。而普通的通用搜索引擎已经很难快速、准确的找到用户需要的网页,所以垂直搜索引擎的产生就成为了必然。
  本文探讨了如何将朴素贝叶斯算法加入网络爬虫系统中,并利用一个已搭建好的通用爬虫系统 Heritrix,使用朴素贝叶斯算法对网页进行分类,即使是抽象的主题查询也能保证查询结果的查准率和查全率。在对网页分类的过程中,首先要处理网页内容,所以我在设计中加入了中文分词算法。前人的研究中主要是集中在基于规则和基于统计的分词方法,归纳起来这些方法主要面临的困难有:分词规范、歧义切分和未定登录词的识别。为了解决这些问题,我们引入上下文信息的分词方法,一方面由于得到上下文信息的指导,与基于词典的方法一样很好的解决了分词规范和歧义切分的问题,在获取上下文信息中使用统计的方法,又很好的避免了未登录词对系统造成的影响。
  算法中使用的贝叶斯学习就是根据先验信息以概率的方法来预测未知事件发生的可能性。所以在运用于主题爬虫的分类时,需要收集一些网页用作训练数据,提取特征词属于每个类别的先验概率。朴素贝叶斯规定,给定的目标值性之间的相互条件必须是独立的,应用到文本分类时,则规定词汇在确定文本类别作用上是相互独立的。互联网这个非平稳系统符合这个要求,所以该系统得以实现。在实现过程中,首先进行训练数据,然后根据训练后得到的数据引导爬虫在网络间抓取,从而实现抓取的网页都是与某一主题相关的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号