首页> 中文学位 >基于XML的网页信息抽取

【6h】

基于XML的网页信息抽取

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

目录

文摘

英文文摘

1.概述

1.1引言

1.1.1背景

1.1.2网页信息抽取

1.1.3 XML

1.2本文的工作

1.3本文的组织

2.相关研究

2.1基于自然语言理解的方法

2.2基于机器学习的方法

2.3基于Ontology的方法

2.4上面三种方法的讨论

2.5基于HTML结构的方法

2.5.1 W4F

2.5.2 XWrap

2.5.3 ANDES

2.5.4小结

2.6完全自动化的方法

2.6.1 EPAD

2.6.2 RoadRunner

2.6.3小结

2.7方法总结和本文的工作

3.相关标准

3.1 HTML(Hyper Text Markup Language)

3.2 XML

3.2.1 XML的产生

3.2.2 XML语法

3.2.3元素(Element)与标记(Tag)

3.2.4属性(Attribute)

3.2.5 XML验证(Validation)

3.2.6样式单

3.2.7 XML带来的好处

3.3 XHTML

3.4 DOM(Document Object Model)

3.5 XPath

3.5.1查询

3.5.2定位路径(Location Path)

3.5.3表达式

3.6 XSLT

3.6.1模板

3.6.2取得节点值

3.6.3应用模板

3.6.4默认模板规则

3.6.5循环

3.6.6 选择

3.6.7变量

3.6.8按名称调用模板

3.6.9用Java扩展XSLT

3.6.1 0 EXSLT(Extensionsto XSLT)

4.网页信息抽取平台

4.1网页信息抽取的难点

4.2网页信息抽取平台的目标

4.3基于XSLT的抽取模式

4.4示例：利用GUI编写XSLT

4.4.1抽取天气信息

5.抽取规则健壮性研究

5.1数据定位健壮性研究

5.1.1完全基于文本的定位

5.1.2使用属性模式定位

5.1.3不同定位模式的讨论

5.2基于缩略路径的数据抽取

5.3构造通用的链接组抽取模式

6.自动归纳网页模板

6.1引言

6.2相关工作

6.3模型和假定

6.4归纳树模板

6.5进一步的过滤与转换

6.6实验结果

6.7小结

7.自动归纳网页记录模板

7.1引言

7.2相关工作

7.3模型和假定

7.3.1数据类型

7.3.2模板

7.3.3抽取模型

7.3.4简化后的模型

7.4归纳记录模板

7.4.1列表数据的路径模式

7.4.2树路径聚类与归纳

7.5实验结果

7.6小结

8.多网页信息抽取

8.1引言

8.2模型和框架

8.2.1问题描述

8.2.2抽取框架

8.3小结

9.总结和未来的工作

9.1总结

9.2未来的工作

参考文献

致谢

攻读硕士学位期间发表论文

展开▼

摘要

随着互联网的迅猛发展,

著录项

作者
周津;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科模式识别与智能系统
授予学位硕士
导师姓名朱明;
年度 2004
页码
总页数
原文格式 PDF
正文语种中文
中图分类模式识别与装置;计算机网络;
关键词
信息抽取; 互联网; XML;

相似文献

中文文献
外文文献
专利

1. 基于XML的网页信息自动抽取 [J] . 周津 ,朱明 ,郑全 . 计算机应用 . 2004,第0z1期
2. 基于领域本体的Web信息抽取方法的设计与实现——以网易汽车资讯网页信息抽取为例 [J] . 吴恒亮 . 图书馆论坛 . 2010,第003期
3. 基于正文特征及网页结构的主题网页信息抽取 [J] . 段晓丽 ,王宇 ,谷静 . 计算机工程与应用 . 2012,第030期
4. 基于网页结构特征的网页主要文本信息抽取策略 [J] . 火善栋 . 现代计算机（专业版） . 2008,第004期
5. 基于XML和DOM技术的Web信息抽取模型 [J] . 李文 ,郑邦习 ,邓武 . 大连交通大学学报 . 2013,第003期
6. 基于单层扁平结构的XML网页信息抽取系统的研究与初步实现 [C] . 火善栋 ,朱南丽 ,黄青松 . 2005年昆明理工大学研究生学术交流年会 . 2005
7. 基于XML的藏文网页的信息抽取与转存技术研究 [A] . 李文博 . 2006

代理获取

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号