基于本体的Web非规范知识处理中采集技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的快速发展，现在世界上绝大多数人都在用网络进行交流，网络在把信息传到用户方面已经取得了难以置信的成功，Web己经成为一种主要的知识来源，它经过十年左右的发展已经成为一个巨大的全球化知识仓库。 Web数据的组织格式主要以HTML这种半结构化的形式为主，是典型的非规范知识。这种语言不能处理网络上的很多需求，因为它只是一种用于浏览信息的语言，不能表达数据本身，网络还没有形成一个良好的结构化文档的存贮，而只是一个可变的HTML页的聚集，因此迫切希望来自网络资源的信息以一种结构化的方式来存贮，XML和它的各种扩展功能(如数据模型、查询语言等)是实现结构化方式的一种。使用扩展的标志语言XML，它是SGML的一个子集，是一种元语言，可以弥补很多HTML的不足。随着语义网的发展，未来的网页会使用具有很好结构化的XML语言，但是现在这一阶段是过渡阶段，必须思考一种方法来实现HTML到XML的转换，以更好地利用网络资源。不像结构化数据，半结构化的数据对于数据查询来说是十分不容易的。面对Web这个信息的海洋，用户要精确地找到所需信息变得非常困难，往往面对着从搜索引擎中查找的大量的信息而不知所措。为此，人们希望可以得到一种能达到专家水平的高质量的信息抽取方案，这样可以提供准确和简洁的信息来源，而不至于在信息的海洋中苦苦查找。信息抽取技术(InformationExtraction，缩写为IE)是一种面向具体任务的实用的文档理解技术。与复杂的自然语言理解技术不同，IE技术通常采用浅层的文本分析技术，提取出设计者关注的特定主题的信息。该技术适用于具有特定主题及相对确定的信息结构的文档，如：广告、新闻、数据库自然语言查询和特定领域的文告等。针对这种情况，本文提出了基于领域本体的资源管理平台，重点实现了平台中的资源采集模块，在信息抽取中引入了Ontology技术和DOM模板技术，提出了一种基于Ontology能处理语义的Web非规范知识(HTML文档)采集系统。在实现Web网页的信息抽取中，本文引入bot网页抓取技术、Iucene索引技术、Ontology技术、DOM模板技术、HTML转换XML技术和XML存储技术，实现了一种基于本体的、能把HTML非规范信息按领域本体生成的映射规则转换成XML规范信息的Web信息采集系统。为了减少工作量，本文尽量采用了现有的比较成熟的技术和工具包，所以本文的工作重点是采用Java技术、Ontology技术和DOM模板技术，使用XSLT模板来实现HTML文档向XML文档的转换。即设计一个HTML-XML包装器，从HTML页面中抽取信息，以嵌入字符串列表SL的形式进行存贮，最后通过领域本体生成的映射规则映射成XML信元，把该XML文档存储到资源库中，从而实现HTML到XML的转换。

著录项

作者
周应强;
展开▼
作者单位

昆明理工大学;

展开▼
授予单位昆明理工大学;
学科计算机应用技术
授予学位硕士
导师姓名黄青松;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.07;TP311.13;
关键词
XML; Web数据; 知识处理; 信息抽取; 本体; Ontology; XSLT; HTML; DOM;

相似文献

中文文献
外文文献
专利

1. 基于本体的Web信息采集 [J] . 徐德智 ,王庆涛 ,王斌 . 现代图书情报技术 . 2007,第002期
2. 基于本体的Web零件库数据描述规范 [J] . 刘琼 ,赵韩 ,梁平 . 农业机械学报 . 2007,第010期
3. 基于WEB资源的地勘单位本体自动构建技术研究 [J] . 孙玉梅 ,陈小红 ,郭艳军 . 内蒙古科技与经济 . 2018,第008期
4. 基于领域本体的Deep Web内容获取技术研究 [J] . 张明 ,刘宇 ,郗亚辉 . 广西师范大学学报（自然科学版） . 2011,第001期
5. 基于本体的语义Web中知识获取技术研究 [J] . 郑东霞 ,肖洁 ,曹玉琳 . 长春师范学院学报（自然科学版） . 2011,第002期
6. WEB环境下基于领域本体的语义匹配技术研究 [C] . . 第五届沈阳科学学术年会 . 2008
7. 基于本体的Web非规范知识处理中信息抽取技术研究 [A] . 刘艺琴 . 2005

基于本体的Web非规范知识处理中采集技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅