首页> 中文学位 >基于属性的元搜索引擎的研究与实现
【6h】

基于属性的元搜索引擎的研究与实现

代理获取

目录

基于属性的元搜索引擎的研究与实现

RESEARCH AND IMPLEMENTATION OF THE META SEARCH ENGINE BASED ON ATTRIBUTE

摘要

Abstract

第1章 绪论

1.1 课题背景

1.2 国内外研究现况

1.3 性能评估

1.4 本文研究内容及组织结构

第2章 结合权重的正向逆向匹配相结合的分词算法

2.1 分词概述

2.2 基于字符串匹配的分词算法概述

2.3 一种结合权重的正向逆向匹配相结合的分词算法

2.4 分词前的预处理过程

2.4.1 网页预处理

2.4.2 分词预处理

2.5 结合权重的正向逆向匹配相结合的分词算法的实现

2.6 测试结果及分析

2.7 本章小结

第3章 网页表示技术与特征选择

3.1 网页特征表示

3.2 特征选择方法简介

3.2.1 文档频数

3.2.2 信息增益

3.2.3 期望交叉熵

3.2.4 互信息

3.2.5 (2统计量

3.3 本章小结

第4章 网页分类的主要算法

4.1 分类算法介绍

4.1.1 线性分类器

4.1.2 统计学习分类器

4.1.3 基于实例的分类器

4.1.4 支持向量机的分类器

4.2 分类器比较分析

4.3 本章小结

第5章 系统实现与测试

5.1 系统实现

5.1.1 系统逻辑结构

5.1.2 链接提取模块

5.1.3 分词模块的设计

5.1.4 分类模块的设计

5.2 测试结果及分析

结论

参考文献

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致谢

个人简历

展开▼

摘要

随着网络的迅速发展,在浩如大海的网络信息中,找到需要的信息,越来越费时费力。如何快速有效地找到有用信息成为当务之急,搜索引擎孕育而生,成为当今网络中最重要的服务之一。搜索引擎虽然解决了查找信息的困难,但它的服务并不让人满意,返回的查询结果准确率太低。
  本文提出了一个属性过滤的方法,基于该方法实现了一个元搜索引擎。该搜索引擎在传统的基于关键词搜索引擎基础上,增加了一个属性描述,分类器利用该属性,对搜索结果进行过滤,即把关键词搜索结果分成两类,一类是与属性相关,一类与属性不相关,过滤掉不相关的结果。提高了搜索准确率。实验证明,取得了一定的效果。为了突出属性过滤的效果,降低系统复杂度,设计了一个元搜索引擎,而不是机器人搜索引擎。
  本课题涉及的关键技术主要有两方面:中文分词和分类算法。本文分析了基于词典的分词算法和无词典的分词算法的优缺点,并结合本系统的特点,决定选用基于词典的分词算法。并结合基于词典分词算法中的正向匹配和逆向匹配,提出了一种结合权重的正向逆向相结合的最大匹配算法。该算法结合了正向匹配和逆向匹配的优点,同时考虑了权重的因素,降低了分词错误率。分类算法则采用比较简单的线性分类器。有效降低了系统的复杂度。
  本文开发的属性元搜索引擎,已在实验室中进行了测试,取得了较好的效果。

著录项

  • 作者

    王德峰;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 李东;
  • 年度 2006
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    属性过滤; 元搜索引擎; 分词算法; 网络信息;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号