首页> 中文学位 >基于XML的网页信息抽取
【6h】

基于XML的网页信息抽取

代理获取

目录

文摘

英文文摘

1.概述

1.1引言

1.1.1背景

1.1.2网页信息抽取

1.1.3 XML

1.2本文的工作

1.3本文的组织

2.相关研究

2.1基于自然语言理解的方法

2.2基于机器学习的方法

2.3基于Ontology的方法

2.4上面三种方法的讨论

2.5基于HTML结构的方法

2.5.1 W4F

2.5.2 XWrap

2.5.3 ANDES

2.5.4小结

2.6完全自动化的方法

2.6.1 EPAD

2.6.2 RoadRunner

2.6.3小结

2.7方法总结和本文的工作

3.相关标准

3.1 HTML(Hyper Text Markup Language)

3.2 XML

3.2.1 XML的产生

3.2.2 XML语法

3.2.3元素(Element)与标记(Tag)

3.2.4属性(Attribute)

3.2.5 XML验证(Validation)

3.2.6样式单

3.2.7 XML带来的好处

3.3 XHTML

3.4 DOM(Document Object Model)

3.5 XPath

3.5.1查询

3.5.2定位路径(Location Path)

3.5.3表达式

3.6 XSLT

3.6.1模板

3.6.2取得节点值

3.6.3应用模板

3.6.4默认模板规则

3.6.5循环

3.6.6 选择

3.6.7变量

3.6.8按名称调用模板

3.6.9用Java扩展XSLT

3.6.1 0 EXSLT(Extensionsto XSLT)

4.网页信息抽取平台

4.1网页信息抽取的难点

4.2网页信息抽取平台的目标

4.3基于XSLT的抽取模式

4.4示例:利用GUI编写XSLT

4.4.1抽取天气信息

5.抽取规则健壮性研究

5.1数据定位健壮性研究

5.1.1完全基于文本的定位

5.1.2使用属性模式定位

5.1.3不同定位模式的讨论

5.2基于缩略路径的数据抽取

5.3构造通用的链接组抽取模式

6.自动归纳网页模板

6.1引言

6.2相关工作

6.3模型和假定

6.4归纳树模板

6.5进一步的过滤与转换

6.6实验结果

6.7小结

7.自动归纳网页记录模板

7.1引言

7.2相关工作

7.3模型和假定

7.3.1数据类型

7.3.2模板

7.3.3抽取模型

7.3.4简化后的模型

7.4归纳记录模板

7.4.1列表数据的路径模式

7.4.2树路径聚类与归纳

7.5实验结果

7.6小结

8.多网页信息抽取

8.1引言

8.2模型和框架

8.2.1问题描述

8.2.2抽取框架

8.3小结

9.总结和未来的工作

9.1总结

9.2未来的工作

参考文献

致谢

攻读硕士学位期间发表论文

展开▼

摘要

随着互联网的迅猛发展,

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号