彝文搜索引擎中网页信息采集技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当下，我们处在互联网突飞猛进的大数据时代，网络资源的增长呈现爆炸式的状态，彝文网站也随之逐步发展起来，但是针对少数民族语言文字的搜索引擎的研究才刚处于起步阶段。就目前的国内外中英文搜索引擎研究现状来说，除了大部分用全文搜索技术实现对中英文网页的采集和搜索外，还包括垂直搜索和元搜索等。最主要的搜索还是全文搜索，如谷歌和百度等，但无法做到对少数民族语言文字（如彝文）的采集和搜索。因此本文需要在中英文成熟技术的基础上找到一种适合的网页采集和搜索引擎技术，网络爬虫是搜索引擎的基础和核心，主要有通用爬虫和主题爬虫，因此需要设计合理的爬虫来实现彝文网页的采集。　　本文在研究中英文搜索引擎的基础上，分析当前彝文网站特性和彝文字特点，采用垂直搜索技术，并结合彝文主题爬虫，同时为了避免采集陷入循环，采用广度优先搜索策略对彝文网页进行采集，从而达到更好的彝文网页采集效果。　　本文采用垂直搜索方法设计了适合彝文的搜索引擎架构，并开发一套彝文网页信息采集系统。本文首先以彝文网站首页为起始URL种子，对其实现单线程采集；其次设计基于彝文网页文本和链接特点的网页判别算法，并通过正则表达式解析相应的网页内容；然后在彝文文本保存中采用编码转换，做到彝文的文本存储；之后建立了汉—彝词库，结合词频统计创新性的研究了汉—彝词同时对应显示的理论算法；最后以彝文标题匹配方式进行检索，并达到了满意效果。　　本文通过对彝文网页采集系统运行和测试，得到了转化率在80％以上，识别率都在95%以上，对彝文初探的研究中达到了理想结果。通过与目前已有的中文采集系统相比，本系统的优势在于它提高了采集效率，并为彝文网页采集提供了新思路，具有很好的实用性。

著录项

作者
张建营;
展开▼
作者单位

云南民族大学;

展开▼
授予单位云南民族大学;
学科通信与信息系统
授予学位硕士
导师姓名王嘉梅;
年度 2015
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
搜索引擎,彝文网页,信息采集,主题爬虫;

相似文献

中文文献
外文文献
专利

1. 搜索引擎应对垃圾网页的技术研究 [J] . 李驰 ,李林 . 电脑知识与技术 . 2015,第026期
2. 基于专业搜索引擎的网页去重技术研究 [J] . 张艳 . 软件导刊 . 2012,第004期
3. 基于专业搜索引擎的网页去重技术研究 [J] . 张艳 . 软件导刊 . 2012,第004期
4. 垃圾网页的搜索引擎优化技术研究 [J] . 胡炜 . 数字技术与应用 . 2011,第011期
5. 垃圾网页的搜索引擎优化技术研究 [J] . 胡炜 . 数字技术与应用 . 2011,第011期
6. 搜索引擎中基于分类的网页更新方法研究 [C] . 文坤梅 ,卢正鼎 . 中国计算机学会第一届全国Web信息系统及其应用学术会议 . 2004
7. 彝文搜索引擎中网页信息采集技术研究 [A] . 张建营 . 2015

彝文搜索引擎中网页信息采集技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅