首页> 中文学位 >基于本体的Web非规范知识处理中采集技术研究
【6h】

基于本体的Web非规范知识处理中采集技术研究

代理获取

目录

文摘

英文文摘

昆明理工大学学位论文原创性声明及关于论文使用授权的说明

第一章绪言

1.1基于本体的Web非规范知识采集研究的产生背景:

1.2基于本体的Web非规范知识采集研究的发展

1.2.1基于本体的Web非规范知识采集的相关方法

1.2.2基于本体的Web非规范知识采集中规则的表示

1.2.3基于本体的web非规范知识采集具有的特点

1.3本课题主要解决的问题

1.4本课题的主要研究内容

1.5论文的结构

第二章相关标准

2.1HTML(Hyper Text Markup Language)

2.2XML

2.2.1XML的产生

2.2.2XML语法

2.2.3元素(EIement)与标记(Tag)

2.2.4属性(Attribute)

2.2.5XML验证(Validation)

2.2.6样式单

2.2.7XML包括一套相关的标准:

2.3XHTML

2.4DOM(Document Object ModeI)

2.5XPath

2.5.1查询

2.5.2定位路径(Location Path)

2.5.3表达式

2.6XSLT

2.6.1模板

2.6.2取得节点值

2.6.3应用模板

2.6.4默认模板规则

2.6.5循环

2.6.6选择

2.6.7变量

2.6.8按名称调用模板

2.6.9用Java扩展XSLT

2.6.10EXSLT(Extensions to XSLT)

第三章相关技术综述

3.1 Bot技术

3.1.1网络机器人的结构分析

3.1.2 Spider程序结构

3.1.3如何构造Spider程序

3.1.4小节

3.2Lucene技术

3.2.1 Lucene的原理分析

3.2.2小节

3.3本体

3.3.1本体的概念

3.3.2本体的建立过程

3.3.3 Ontology的知识表示

3.3.4 Ontology的构建规范

3.3.5本体建设工具

2.3.6本课题使用的技术

3.4DOM模板

3.4.1 DOM的定义

3.4.2DOM模板的简介和发展

3.4.3 DOM的主要特点

3.4.5 DOM和HTML树型逻辑结构

3.4.6两个常用的编程接口:Node和HTML Collection

3.5HTML转换XML的技术

3.5.1问题的提出

3.5.2实现HTML到XML转换的必要性

3.5.3HTML-XML转换相关的技术

3.5.4本课题使用的技术

3.6XML的存储技术

3.6.1 XML数据存储技术研究现状

3.6.2本课题采用的技术

第四章基于领域本体的资源管理平台

4.1总体框架:

4.2各部分的功能:

4.3平台管理的资源

4.4基于本体的领域资源管理系统框架的设计原则

4.5本体开发语言RDF/RDFS

4.6资源存储

第五章基于本体的Web非规范知识采集系统:

5.1Web页面信息抽取系统的一般实现

5.1.1 Web信息抽取系统的工作过程

5.1.2Web信息抽取系统工作原理示意图

5.2基于本体的Web非规范知识采集系统

5.2.1 HTML-XML转换包装器的系统设计思想

5.2.2 HTML-XML包装器的软件结构

5.2.3HTML-XML包装器的实现流程

第六章总结与展望

致谢

参考文献

附录:攻读学位期间发表论文情况

展开▼

摘要

随着Internet的快速发展,现在世界上绝大多数人都在用网络进行交流,网络在把信息传到用户方面已经取得了难以置信的成功,Web己经成为一种主要的知识来源,它经过十年左右的发展已经成为一个巨大的全球化知识仓库。 Web数据的组织格式主要以HTML这种半结构化的形式为主,是典型的非规范知识。这种语言不能处理网络上的很多需求,因为它只是一种用于浏览信息的语言,不能表达数据本身,网络还没有形成一个良好的结构化文档的存贮,而只是一个可变的HTML页的聚集,因此迫切希望来自网络资源的信息以一种结构化的方式来存贮,XML和它的各种扩展功能(如数据模型、查询语言等)是实现结构化方式的一种。使用扩展的标志语言XML,它是SGML的一个子集,是一种元语言,可以弥补很多HTML的不足。随着语义网的发展,未来的网页会使用具有很好结构化的XML语言,但是现在这一阶段是过渡阶段,必须思考一种方法来实现HTML到XML的转换,以更好地利用网络资源。 不像结构化数据,半结构化的数据对于数据查询来说是十分不容易的。面对Web这个信息的海洋,用户要精确地找到所需信息变得非常困难,往往面对着从搜索引擎中查找的大量的信息而不知所措。为此,人们希望可以得到一种能达到专家水平的高质量的信息抽取方案,这样可以提供准确和简洁的信息来源,而不至于在信息的海洋中苦苦查找。信息抽取技术(InformationExtraction,缩写为IE)是一种面向具体任务的实用的文档理解技术。与复杂的自然语言理解技术不同,IE技术通常采用浅层的文本分析技术,提取出设计者关注的特定主题的信息。该技术适用于具有特定主题及相对确定的信息结构的文档,如:广告、新闻、数据库自然语言查询和特定领域的文告等。针对这种情况,本文提出了基于领域本体的资源管理平台,重点实现了平台中的资源采集模块,在信息抽取中引入了Ontology技术和DOM模板技术,提出了一种基于Ontology能处理语义的Web非规范知识(HTML文档)采集系统。 在实现Web网页的信息抽取中,本文引入bot网页抓取技术、Iucene索引技术、Ontology技术、DOM模板技术、HTML转换XML技术和XML存储技术,实现了一种基于本体的、能把HTML非规范信息按领域本体生成的映射规则转换成XML规范信息的Web信息采集系统。为了减少工作量,本文尽量采用了现有的比较成熟的技术和工具包,所以本文的工作重点是采用Java技术、Ontology技术和DOM模板技术,使用XSLT模板来实现HTML文档向XML文档的转换。即设计一个HTML-XML包装器,从HTML页面中抽取信息,以嵌入字符串列表SL的形式进行存贮,最后通过领域本体生成的映射规则映射成XML信元,把该XML文档存储到资源库中,从而实现HTML到XML的转换。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号