首页> 中文期刊> 《电子技术与软件工程》 >藏文网页主题爬虫系统的实现

藏文网页主题爬虫系统的实现

         

摘要

随着藏文信息技术的发展,互联网上的藏文信息呈爆炸式增长,无疑变成了最密集最丰富的网络信息资源,通用搜索引擎的功能无法满足一般用户的需求。信息服务要求更精确、精准,定题采集下的搜索引擎成了新的发展趋势。针对某一领域关注的信息,而非通用搜索引擎下采集广泛资源的信息,丰富的Web资源中仅筛选出用户关心的、针对的信息是本文研究的重点。本文将贝叶斯分类算法用于网页文档分类,通过样本集本训练出教育(■)、政治(■)、宗教(■)三类主题分类器,再与爬虫技术结合从互联网上采集与主题相似的网页集合,这使得不仅满足了用户的个性化需求,提升了信息检索的效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号