主题搜索引擎的信息抽取和索引的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。由于抽取规则的失效主要源于XPath路径表达式的失效,所以本文还对抽取规则的优化方法作了研究,提出了几种改进的信息定位方法,并且从实际应用的角度,提出几种方法的组合策略,在此基础上可以编写出更为简单、健壮、通用的抽取规则,在实际应用中达到了较高的查准率。

著录项

作者
余淼;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名杨丹;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
网页信息抽取; 主题搜索引擎; XML技术; 索引方法;

相似文献

中文文献
外文文献
专利

1. 舆情搜索引擎中网页信息的采集与抽取研究 [J] . 王兰成 . 情报学报 . 2011,第010期
2. 农业垂直搜索引擎信息抽取的研究 [J] . 胡亮 ,袁芳 ,齐芸芸 . 计算机工程与设计 . 2009,第005期
3. 不对称信息下的主题搜索信息服务策略——村镇信息主题搜索引擎的实验 [J] . 锁志海 ,杜杨沁 ,蔡义杰 . 情报杂志 . 2010,第005期
4. 搜索引擎中的信息抽取技术 [J] . 林炫 . 电子技术与软件工程 . 2017,第008期
5. 论垂直搜索引擎中的信息抽取技术的选用 [J] . 郭兴 ,柯鹏 ,徐媛 . 医学信息 . 2006,第012期
6. 基于htmlparser的搜索引擎信息抽取系统设计与实现 [C] . 孟红 ,钟华 . 第六届全国信息检索学术会议 . 2010
7. 主题搜索引擎信息抽取技术研究 [A] . 徐澄 . 2010

主题搜索引擎的信息抽取和索引的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅