密集型web信息抽取与集成研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的飞速发展，Web已经发展成为一个巨大的、分布和共享的信息资源，Web 信息发布与浏览都是通过基于 HTML 或 XML 语法页面实现，而HTML或XML是非结构化、半结构化的语言，它们无法被计算机所理解，也无法像传统的数据库那样，提供结构化的、功能强大的、高效的查询语句。如何让计算机从Web数据源中获取用户所需的信息，多年来一直是计算机领域热点研究的课题，具有重要的研究和实用价值。 Web的信息抽取技术不但可以直接定位到用户所需的信息，而且采用一定的方式增加语义和模式信息，为Web查询提供了更为精确的方法，使Web信息的再利用成为可能。信息抽取技术包括信息采集、文本预处理、信息抽取以及信息库标注技术。论文研究了目前相关的信息采集技术、文本预处理中的中文分词技术以及Web信息库的标注方式，在此基础上提出了信息抽取模型结构，详细介绍了模型结构各个组成部分的功能。对于Web数据抽取与集成，则是探索怎样能够较容易地获得构造一个包装器所需规则的有效方法，在充分吸收国内外数据抽取与集成领域研究成果的基础上，通过分析已有的构造Wrapper的方式以及网页分类技术，提出了一个基于矩阵约束法分词切分技术，从而生成抽取与集成的模式，基于XML中间件技术和XML Parse软件包。本文描述了自行开发的一个基于XML的Web查询原型系统的功能和实现，提出了适合XML的结构又较为通用的树型结构抽取规则，能够把密集型Web上的数据抽取出来整合到指定模式的XML文档中去。该系统采用矩阵约束法的中文分词方法和基于XML的抽取方法，使用XML数据模型对全局模式进行定义、存储和管理，具有模式集成、查询处理和事务处理等功能，来满足各个领域不同的抽取需求。Web信息抽取出来，我们将对其进行处理，使用户能够随心所欲的加以利用。本文研究了把抽取出来的数据准确的映射到目标数据库中，提出基于XML的Web查询模式。通过Web信息抽取技术结合XML的存储和访问技术，最大限度的实现了Web信息的再利用。在文章的最后，作者基于实例对系统的各项抽取系数进行了评价，基本达到了预期的效果。

著录项

作者
刘放美;
展开▼
作者单位

郑州轻工业学院;

展开▼
授予单位郑州轻工业学院;
学科计算机应用技术
授予学位硕士
导师姓名张素智;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
密集型; 信息抽取;

相似文献

中文文献
外文文献
专利

1. 基于XML的密集型Web信息抽取与集成研究 [J] . 卢中宁 ,刘放美 ,严宇辉 . 郑州轻工业学院学报（自然科学版） . 2008,第003期
2. 劳动密集型、资本(资金)密集型和知识密集型产业 [J] . 仇维骥 . 会计之友 . 1991,第001期
3. 生态文明建设战略下资源密集型中小企业转型策略研究——以四川、山西资源密集型中小企业为例 [J] . 雷曜彰 ,何谨汝 ,张雯轩 . 商展经济 . 2021,第011期
4. 个体差异对农户不同绿色生产行为的异质性影响——年龄和风险偏好影响劳动密集型与资本密集型绿色生产行为的比较 [J] . 石志恒 ,崔民 . 西部论坛 . 2020,第001期
5. 个体差异对农户不同绿色生产行为的异质性影响——年龄和风险偏好影响劳动密集型与资本密集型绿色生产行为的比较 [J] . 石志恒 ,崔民 . 西部论坛 . 2020,第001期
6. 养猪业要从传统养猪的劳动密集型转移向技术和资本密集型 [C] . 孙德林 . 首届全国猪育种高峰论坛暨联合育种技术与组织模式国际研讨会 . 2012
7. A股市场技术密集型行业与非技术密集型行业反转现象及差异性分析 [A] . 李佳沂 . 2020

密集型web信息抽取与集成研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅