基于贝叶斯推理的搜索引擎设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

伴随Internet和Web技术的飞速发展,语音、视频、网络日志、互联网搜索索引、互联网文本文件等技术的广泛使用带来了数据量的急剧增长,这预示着大数据时代的到来。正是因为这个世界的不断信息化、数字化的发展，搜索引擎技术就成为了人们获取网络信息资源的重要途径，它的重要性深入人心。而普通的通用搜索引擎已经很难快速、准确的找到用户需要的网页，所以垂直搜索引擎的产生就成为了必然。
　　本文探讨了如何将朴素贝叶斯算法加入网络爬虫系统中，并利用一个已搭建好的通用爬虫系统 Heritrix，使用朴素贝叶斯算法对网页进行分类，即使是抽象的主题查询也能保证查询结果的查准率和查全率。在对网页分类的过程中，首先要处理网页内容，所以我在设计中加入了中文分词算法。前人的研究中主要是集中在基于规则和基于统计的分词方法，归纳起来这些方法主要面临的困难有：分词规范、歧义切分和未定登录词的识别。为了解决这些问题，我们引入上下文信息的分词方法，一方面由于得到上下文信息的指导，与基于词典的方法一样很好的解决了分词规范和歧义切分的问题，在获取上下文信息中使用统计的方法，又很好的避免了未登录词对系统造成的影响。
　　算法中使用的贝叶斯学习就是根据先验信息以概率的方法来预测未知事件发生的可能性。所以在运用于主题爬虫的分类时，需要收集一些网页用作训练数据，提取特征词属于每个类别的先验概率。朴素贝叶斯规定，给定的目标值性之间的相互条件必须是独立的，应用到文本分类时，则规定词汇在确定文本类别作用上是相互独立的。互联网这个非平稳系统符合这个要求，所以该系统得以实现。在实现过程中，首先进行训练数据，然后根据训练后得到的数据引导爬虫在网络间抓取，从而实现抓取的网页都是与某一主题相关的。

著录项

作者
文真艳;
展开▼
作者单位

中南民族大学;

展开▼
授予单位中南民族大学;
学科电子与通信工程
授予学位硕士
导师姓名朱翠涛;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
垂直搜索引擎; 朴素贝叶斯算法; 网络爬虫; 中文分词; 上下文信息;

相似文献

中文文献
外文文献
专利

1. 基于ElasticSearch智能搜索引擎的宽带线上选址平台的设计与实现 [J] . 田兆丰 ,王歌吟 . 通信与信息技术 . 2020,第004期
2. 基于网络爬虫的搜索引擎的设计与实现 [J] . 高文超 ,李浩源 ,徐永康 . 电脑知识与技术 . 2020,第030期
3. 基于Elasticsearch的京津冀水环境搜索引擎的设计与实现 [J] . 张会清 ,张乐 . 自动化技术与应用 . 2020,第011期
4. 基于Lucene的石墨烯中文文献搜索引擎设计与实现 [J] . 肖显东1 ,王勤生2 ,杨永强2 . 计算机科学与应用 . 2019,第001期
5. 基于Python技术的校园网搜索引擎的设计与实现 [J] . 熊辉 . 科技视界 . 2019,第028期
6. 基于Elasticsearch大数据搜索引擎全网流监测系统设计与实现 [C] . SONG Yuhong ,宋玉红 ,WU Qionggui . 第十四届全国信号和智能信息处理与应用学术会议 . 2021
7. 基于SRAM的硬件搜索引擎设计与实现 [A] . 杨蕊 . 2020

基于贝叶斯推理的搜索引擎设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅