首页> 中文学位 >彝文搜索引擎中网页信息采集技术研究
【6h】

彝文搜索引擎中网页信息采集技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 难点和创新点

1.4 主要研究工作

第2章 搜索引擎基础介绍

2.1 网页基础理论

2.2 搜索引擎理论

2.3 网页信息采集概述

2.4 分词理论

2.5 索引与检索

2.6 本章小结

第3章 彝文搜索引擎技术

3.1 彝文基本知识

3.2 彝文搜索引擎

3.3 彝文网页信息采集技术

3.4 索引建立

3.5 检索的设计

3.6 本章小结

第4章 彝文网页信息采集模块设计

4.1 系统设计平台

4.2 彝文网页信息采集思想

4.3 彝文网页信息采集模块分析

4.4 本章小结

第5章 彝文网页信息采集系统实现与测试

5.1 彝文网页信息采集系统的实现

5.2 性能测试

5.3 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士学位期间发表的文章和取得的科研成果

致谢

附录

展开▼

摘要

当下,我们处在互联网突飞猛进的大数据时代,网络资源的增长呈现爆炸式的状态,彝文网站也随之逐步发展起来,但是针对少数民族语言文字的搜索引擎的研究才刚处于起步阶段。就目前的国内外中英文搜索引擎研究现状来说,除了大部分用全文搜索技术实现对中英文网页的采集和搜索外,还包括垂直搜索和元搜索等。最主要的搜索还是全文搜索,如谷歌和百度等,但无法做到对少数民族语言文字(如彝文)的采集和搜索。因此本文需要在中英文成熟技术的基础上找到一种适合的网页采集和搜索引擎技术,网络爬虫是搜索引擎的基础和核心,主要有通用爬虫和主题爬虫,因此需要设计合理的爬虫来实现彝文网页的采集。  本文在研究中英文搜索引擎的基础上,分析当前彝文网站特性和彝文字特点,采用垂直搜索技术,并结合彝文主题爬虫,同时为了避免采集陷入循环,采用广度优先搜索策略对彝文网页进行采集,从而达到更好的彝文网页采集效果。  本文采用垂直搜索方法设计了适合彝文的搜索引擎架构,并开发一套彝文网页信息采集系统。本文首先以彝文网站首页为起始URL种子,对其实现单线程采集;其次设计基于彝文网页文本和链接特点的网页判别算法,并通过正则表达式解析相应的网页内容;然后在彝文文本保存中采用编码转换,做到彝文的文本存储;之后建立了汉—彝词库,结合词频统计创新性的研究了汉—彝词同时对应显示的理论算法;最后以彝文标题匹配方式进行检索,并达到了满意效果。  本文通过对彝文网页采集系统运行和测试,得到了转化率在80%以上,识别率都在95%以上,对彝文初探的研究中达到了理想结果。通过与目前已有的中文采集系统相比,本系统的优势在于它提高了采集效率,并为彝文网页采集提供了新思路,具有很好的实用性。

著录项

  • 作者

    张建营;

  • 作者单位

    云南民族大学;

  • 授予单位 云南民族大学;
  • 学科 通信与信息系统
  • 授予学位 硕士
  • 导师姓名 王嘉梅;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    搜索引擎,彝文网页,信息采集,主题爬虫;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号