Web文档中信息的获取与表示研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

论文首先简要的说明了描述Web文档所采用的HTML的缺点,进而阐述了把Web文档转化为XML格式的重要性,然后概述了研究课题的意义.论文的主体部分是研究如何从Web文档中获取信息并把他们用XML描述出来,且做到尽量的不失真.论文分析了几种传统的从Web文档中获取信息的方法的不足.论文所阐述的获取方法是通过解析Web文档中HTML的标记来获取文档中的描述信息和结构信息.我们将文档中的信息分为四类:文本信息、图象信息、动画信息和流媒体信息.对不同的文档信息我们采用了不同的处理方法,从而使得解析更具有针对性.对几乎所有的HTML的标签都进行了处理,使得解析更加的完备.如何用XML来表示文档信息,使用什么样的格式来描述所获取出来的信息,这就是制定一个描述Web文档的XML标准模型(DTD)的问题,这是本文的重点.本文先定义了Web文档的数学模型,分别对Web文档中的实体、属性、关系、窗体、事件和响应等概念进行了说明,把Web文档看成一个实体的集合.然后阐述了Web文档的描述模型,分别对Web文档的元数据、组织结构、媒体资源、页面资源、窗体资源和窗体之间的关系进行了定义.最后开发了基于上述模型的软件,做到了实践和理论相结合.论文所提出的模型在国家科技部

著录项

作者
管冬根;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名朱庆生;
年度 2003
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
XML; 信息获取; 信息表示; Web文档;

相似文献

中文文献
外文文献
专利

1. 遗传算法在Web文档特征获取算法中的应用 [J] . 马梅娟 . 潍坊学院学报 . 2008,第004期
2. 信息检索中的文档表示综述 [J] . 朱京辉 ,刘婧 . 科技经济市场 . 2013,第012期
3. 基于Web的种子驱动的"isa"关系的模式表示和获取 [J] . 刘磊 ,章森 ,刁麓弘 . 计算机工程与应用 . 2008,第021期
4. PDM图文档信息自动获取方法研究与实现 [J] . 陈圣磊 ,丁武学 ,龚光容 . 机械制造与自动化 . 2003,第002期
5. Web环境下学生信息获取与信息交流课程教学改革研究 [J] . 徐树维 ,赵辉 . 电脑知识与技术 . 2013,第013期
6. 维吾尔文Web信息检索中基于改进VSM的文档表示及相似度研究 [C] . 吐尔地·托合提 ,维尼拉·木沙江 ,艾斯卡尔·艾木都拉 . 第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会 . 2010
7. Web突发事件新闻文档的结构化表示方法研究 [A] . 刘睿 . 2007

Web文档中信息的获取与表示研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅