首页> 中文学位 >中文URL信息自动提取算法的研究与实现
【6h】

中文URL信息自动提取算法的研究与实现

代理获取

目录

文摘

英文文摘

声明

第1章 绪论

1.1.研究背景

1.2. 相关研究技术和背景

1.2.1互联网发展

1.2.2搜索引擎的发展与技术

1.2.3网页地址——URL(全球资源定位器)

1.2.4中文汉语拼音

1.3.论文的主要工作

1.4.本文组织结构

第2章 中文URL信息提取算法的分析

2.1中文URL构成特征棕述

2.1.1拼音首字母组合

2.1.2全拼音组合

2.1.3全英文组合

2.1.4英文前缀组合

2.1.5杂项组合

2.2自动提取算法分析

2.2.1直接提取算法

2.2.2间接查找翻译

2.3小结

第3章 中文URL信息提取算法的实现

3.1算法总体设计

3.2 初始化数据模块

3.2.1数据定义

3.3中文分词模块

3.3.1中文分词模块类图

3.3.2中文分词模块接口

3.4中文翻译模块

3.4.1中英翻译模块

3.4.2中拼翻译模块

3.5查找匹配模块

3.5.1新的查找字典

3.5.2查找匹配算法

3.6小结

第4章 算法测试与验证

4.1算法正确性的验证

4.1.1标注工具

4.1.2数据的验证

4.1.2数据的验证的改进

第5章 结束语

5.1总结

参考文献

附录1 码表映射法——码表代码

致谢

发表的学术论文目录

展开▼

摘要

随着互联网在全球的迅速普及,互联网上信息的数量以几何级数的数量增长,人们能够获取的信息量超过了人工搜索的能力。搜索引擎的出现正是顺应了这个潮流。搜索引擎的功能就是返回给用户最接近用户查询结果的网页。 搜索引擎在返回给用户结果的时候,最重要的一步是对网页的排序。而排序的重要依据之一是网页本身与查询关键字之间的相关度。网页的URL是网页的一个重要组成部分。如果能从网页的URL上提取出跟网页本身有关的相关信息,对于

著录项

  • 作者

    陈翔;

  • 作者单位

    北京邮电大学;

  • 授予单位 北京邮电大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 陈行益;
  • 年度 2009
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.02;
  • 关键词

    搜索引擎; 中文URL; 信息提取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号