首页> 中文学位 >面向企业信息的Web聚焦搜索的设计与实现
【6h】

面向企业信息的Web聚焦搜索的设计与实现

代理获取

目录

声明

摘要

第1章 前言

1.1 研究背景及意义

1.2 主要研究内容

1.3 论文的主要工作

1.4 论文的组织结构

第2章 现有研究综述

2.1 引言

2.2 聚焦搜索概述

2.2.1 聚焦搜索的体系结构

2.2.2 聚焦爬虫的原理

2.2.3 信息抽取的原理

2.3 聚焦爬虫研究现状

2.4 信息抽取研究现状

第3章 面向企业信息的聚焦爬虫设计与实现

3.1 引言

3.2 聚焦爬虫的基本流程

3.3 含企业信息网页特征分析

3.3.1 Web页面结构

3.3.2 POT企业信息页面的特点

3.3.3 TOI企业信息页面的特点

3.4 面向POI的聚焦爬虫

3.4.1 分类模型算法

3.4.2 页面相关性分析

3.4.3 URL优先级判断

3.4.4 实验及结果分析

3.5 面向TOI的聚焦爬虫

3.5.1 页面相关性分析及其改进

3.5.2 URL优先级判断

3.5.3 实验及结果分析

3.6 本章小结

第4章 企业信息抽取

4.1 引言

4.2 企业信息抽取的任务描述与基本流程

4.2.1 企业信息抽取的基本流程

4.2.2 POI域内的企业信息抽取

4.2.3 TOI域内的企业信息抽取

4.3 基于包装器方式的POI信息抽取

4.3.1 包装器模型简介

4.3.2 包装器规则的构建

4.3.3 实验及结果分析

4.4 TOI信息的抽取

4.4.1 基于规则的TOI信息抽取

4.4.2 基于联合概率模型的TOI信息抽取

4.4.3 实验及结果分析

4.5 本章小结

第5章 总结与展望

5.1 论文工作总结

5.2 下一步工作

参考文献

附录:在读期间公开发表的论文

致谢

展开▼

摘要

从海量网络资源中获取企业基本信息,为企业的客户关系管理、潜在竞争对手发现等提供信息支持,对于企业的生存和发展壮大具有重要意义。鉴于通用搜索引擎处理这类问题时存在的局限性,本文设计实现了面向企业信息的聚焦搜索来满足此类需求。 Web中的企业信息页面可以分为两大类:企业信息以结构化表格形式呈现的POI页面、企业信息以非结构化文本形式呈现的TOI页面。两类页面结构差异较大,聚焦搜索过程需分开进行。聚焦爬虫和信息抽取是实现聚焦搜索的两个核心任务,围绕聚焦搜索的这两个核心任务,且面向企业信息的两种不同表现形式,本文主要展开了如下几个方面的研究工作: 1、面向POI的聚焦爬虫。现有聚焦爬虫研究多是面向主题的,对于面向POI的用户需求目前还较缺乏相关研究。本文利用朴素贝叶斯与支持向量机等分类器模型,通过设计有效的特征模板,实现了面向POI的聚焦爬虫。实验结果表明利用爬虫对面向POI的用户需求进行聚焦是可行的。 2、面向TOI的聚焦爬虫。现有聚焦爬虫在处理文本页面时,大多直接对页面内的所有文本进行处理,这就引入了较多的噪音内容。本文采用改进的页面相关性分析算法,仅获取与主题最相关的五块文本,对不同块赋予相应的权重,利用分类模型方法判断整体的相关性,实现了面向TOI的聚焦爬虫。实验也采用朴素贝叶斯和支持向量机分类模型,实验结果与基于页面全部文本实现的聚焦爬虫Baseline系统相比,收获率平均高出20%左右,最高差值可达51.35%,充分说明了改进的页面相关性算法是非常有效的。 3、企业信息抽取。以聚焦爬虫获取的相关网页集为数据源,抽取POI域、TOI域内的企业信息。POI域内的企业信息布局规范,结构规律性较强,因此仅采用包装器方式对相对简单的POI域进行信息抽取。对于相对较复杂的TOI域内的企业信息,本文采用统计学习模型将任务分解为两步进行抽取:先判断一个句子是否包含槽信息,然后判断句中短语所属的槽类别,根据句子和短语的联合概率确定最终的槽填充内容。实验定义了8种企业属性作为待填充槽,各类槽的平均F-measure达到93.8%,比基于规则方法实现的Baseline系统结果平均高出7.6%,充分显示了算法的有效性。

著录项

  • 作者

    范欣;

  • 作者单位

    南京师范大学;

  • 授予单位 南京师范大学;
  • 学科 计算机科学与技术;计算机应用技术
  • 授予学位 硕士
  • 导师姓名 周俊生;
  • 年度 2013
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 计算技术、计算机技术;
  • 关键词

    企业信息; Web; 聚焦搜索;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号