首页> 中文学位 >面向互联网的多元信息获取技术研究
【6h】

面向互联网的多元信息获取技术研究

代理获取

目录

目录

摘要

Abstract

第一章 引言

1.1 任务介绍和应用领域

1.2 研究背景及相关工作

1.2.1 网页获取的基本概念

1.2.2 网页相关性分析

1.2.3 网页获取的相关工作

1.2.4 多元信息去重的相关工作

1.3 本文的工作

1.4 本文的组织结构

第二章 快速信息网页获取方法

2.1 信息网站的选择

2.2 网页的初步下载和简单过滤

2.3 信息抽取和信息网页标定

2.4 URL模式归纳

2.4.1 基于Token的URL模式学习

2.4.2 基于共有前缀的URL模式学习

2.5 URL模式精选

2.5.1 URL模式精选:信息覆盖数优先

2.5.2 URL模式精选:信息耗费低优先

2.6 下载导航器的产生和使用

第三章 多元信息冗余判断

3.1 多元信息表示

3.2 信息元素的分类

3.3 多元信息去重一般流程

3.4 信息相似度计算

3.5 信息冗余度判断

3.6 命名实体信息元素的自动扩展

第四章 评测与实验

4.1 快速信息网页获取方法实验

4.1.1 实验设置介绍

4.1.2 实验比较方法

4.1.3 减少网页下载量实验

4.1.4 时间适用性实验

4.1.5 快速网页获取的参数实验

4.1.6 网站扩充步骤实验

4.1.7 运行时间分析

4.2 多元信息去重实验

4.2.1 信息去重的评测指标

4.2.2 事件信息去重

4.2.3 论文索引信息去重

第五章 总结与展望

参考文献

攻读学位期间参加的科研项目与发表的论文

致谢

展开▼

著录项

  • 作者

    姜孟晋;

  • 作者单位

    复旦大学;

  • 授予单位 复旦大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 黄萱菁,吴立德,周雅倩;
  • 年度 2011
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    互联网;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号