首页> 中文学位 >Web文档中信息的获取与表示研究
【6h】

Web文档中信息的获取与表示研究

代理获取

目录

文摘

英文文摘

1绪论

1.1问题的提出及研究意义

1.1.1问题的提出

1.1.2研究的意义

1.2国内外研究现状

1.2.1 Web文档信息的获取的研究现状

1.2.2 Web文档信息的表示的研究

1.3本文研究的目的和研究内容

1.3.1本文研究的目的

1.3.2本文研究的主要内容

1.4所使用的技术

1.4.1 JAVA技术

1.4.2 XML技术

1.4.3 XSL技术

2 Web文档的信息的获取

2.1引言

2.2 Web文档的信息的几种获取方法

2.2.1传统的途径

2.2.2启发式方式

2.2.3自然语言理解

2.3 Web文档的解析

2.3.1对文本的解析

2.3.2对图像的解析

2.3.3对动画的解析

2.3.4对流媒体的解析

2.4本章小结

3 Web文档的数学模型的定义

3.1引言

3.2实体

3.3属性

3.4关系

3.5事件

3.6窗体

3.7响应

3.8事件响应

3.9 Web文档

3.10本章小结

4 Web文档的描述模型

4.1引言

4.2概念

4.3 Web文档的描述

4.3.1 CELTS内容包装规范

4.3.2 Web文档包装描述模型

4.3.3 Web文档元数据

4.3.4 Web文档的组织结构

4.4 Web文档的资源

4.4.1媒体资源描述

4.4.2窗体资源描述

4.4.3页面资源描述

4.4.4窗体关系

4.4.5评注标记资源描述

4.5本章小结

5结论与展望

5.1主要结论

5.2后续研究工作的展望

致 谢

参考文献

附录:1.作者在攻读硕士学位期间发表的论文目录

附录:2.作者在攻读硕士学位期间参加的科研项目及得奖情况

独创性声明和学位论文版权使用授权书

展开▼

摘要

论文首先简要的说明了描述Web文档所采用的HTML的缺点,进而阐述了把Web文档转化为XML格式的重要性,然后概述了研究课题的意义.论文的主体部分是研究如何从Web文档中获取信息并把他们用XML描述出来,且做到尽量的不失真.论文分析了几种传统的从Web文档中获取信息的方法的不足.论文所阐述的获取方法是通过解析Web文档中HTML的标记来获取文档中的描述信息和结构信息.我们将文档中的信息分为四类:文本信息、图象信息、动画信息和流媒体信息.对不同的文档信息我们采用了不同的处理方法,从而使得解析更具有针对性.对几乎所有的HTML的标签都进行了处理,使得解析更加的完备.如何用XML来表示文档信息,使用什么样的格式来描述所获取出来的信息,这就是制定一个描述Web文档的XML标准模型(DTD)的问题,这是本文的重点.本文先定义了Web文档的数学模型,分别对Web文档中的实体、属性、关系、窗体、事件和响应等概念进行了说明,把Web文档看成一个实体的集合.然后阐述了Web文档的描述模型,分别对Web文档的元数据、组织结构、媒体资源、页面资源、窗体资源和窗体之间的关系进行了定义.最后开发了基于上述模型的软件,做到了实践和理论相结合.论文所提出的模型在国家科技部

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号