基于本体的可定制化网页信息智能提取技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

WWW上拥有海量、分布、动态、异质、非结构化的丰富信息资源，但用户一直没有合适的途径获取它们，而互联网传统的信息检索的粒度不能满足客户的需要，人们迫切需要Web挖掘技术来方便地获取互联网中细粒度，结构化的信息。Web挖掘技术负责从大量的Web文档和Web活动中发现、提取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。但现有的Web挖掘系统存在着应用领域小，自动化程度不高的不足，满足不了复杂数据源和数据表达方式多样化下信息提取的需求。论文针对现有Web挖掘系统所存在的问题，提出一种基于本体论的网页信息提取算法，并成功地应用到UT斯达康手机信息服务系统中。算法基于HTML结构，结合本体论，能够自动分析网页结构并提取数据，具有高度鲁棒性和适应性。第一章首先叙述了信息提取技术意义与本文的研究背景，进而提出本文的研究内容。第二章介绍了信息提取技术的发展过程，简要介绍了传统信息提取技术的方法以及代表性系统，对它们的优缺点进行了分析。同时介绍了本体论的概念，以及本体论在信息提取领域相关的一些工作。第三章对系统所采用的本体模型ORM进行了阐述。系统采用对象关系模型(ORM)构造目标本体，通过解析本体描述，可以获得目标数据的结构，描述方式，以及数据库模式，为信息提取做好数据准备。第四章提出了基于本体论的网页去噪技术。通过构造网页标签树并对其进行简化统计得到网页结构树，在此基础上，利用网页间结构块的相似性和页面内噪音结构块的特征来排除网页噪音，提高信息提取的准确性。第五章在网页结构树的基础上给出了基于本体论的信息提取算法。利用最大扇出树，并结合改进的启发式规则，寻找出网页数据区，最后利用本体论进行记录的划分和记录的分解提取，并将提取的信息按本体描述保存到数据库中。第六章介绍了信息提取系统的实现，给出了系统的体系结构，并使用业界标准评价体系对系统进行测试，测试结果表明系统在性能上与同类产品存在一定的优势，验证论文在系统性能方面的改进工作。第七章总结了本文的研究成果，指出今后研究的方向。

著录项

作者
吴旭东;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机应用技术
授予学位硕士
导师姓名尹建伟;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
Web信息提取; HTML结构树; 本体论; 对象关系模型; 网页信息;

相似文献

中文文献
外文文献
专利

1. 基于HTML Parser的网页信息提取技术研究 [J] . 珠杰 ,罗潘 . 西藏大学学报（自然科学版） . 2010,第001期
2. 基于HTML Parser的网页信息提取技术研究 [J] . 珠杰 ,罗潘 . 西藏大学学报 . 2010,第003期
3. 本体在网页智能信息采集与检索中的应用研究 [J] . 江河 . 西昌学院学报（自然科学版） . 2010,第004期
4. 基于领域本体的Web信息抽取方法的设计与实现——以网易汽车资讯网页信息抽取为例 [J] . 吴恒亮 . 图书馆论坛 . 2010,第003期
5. 基于本体的个性化信息检索技术研究 [J] . 王国顺 ,孙四明 ,张峰 . 计算机仿真 . 2013,第007期
6. 模板化网页主题信息的提取方法 [C] . 欧健文 ,董守斌 ,蔡斌 . 第三届全国搜索引擎和网上信息挖掘学术研讨会 . 2005
7. 基于节点类型标注的网页主题信息提取技术研究 [A] . 谢方立 . 2016

基于本体的可定制化网页信息智能提取技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅