基于主题和结构的XML网页的数据抽取

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

本文重点研究如何从同一主题的XML网页中抽取出该类主题网页的一般模式，核心技术是通过解析XML文档，按用户主题对解析后的样本XML文档进行模式抽取以及按照模式信息对目标XML文档进行数据抽取。在这里，模式信息实际上就是根据样本文档中符合用户主题的语义块，得到样本页包含相关信息的结构模式，样本页中的所有用户兴趣区域构成一组语义块，通过对语义块的比较和归纳学习，得到我们所需的该类主题的模式信息。然后根据得到的规则，从目标XML文档中寻找与之匹配的信息，抽取出来提交给用户。

著录项

作者
朱杰;
展开▼
作者单位

华侨大学;

展开▼
授予单位华侨大学;
学科计算机应用技术
授予学位硕士
导师姓名吴扬扬;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;TP311.13;
关键词
网络标记语言; 模式抽取; 数据抽取; XML文档; XML网页;

相似文献

中文文献
外文文献
专利

1. 基于正文特征及网页结构的主题网页信息抽取 [J] . 段晓丽 ,王宇 ,谷静 . 计算机工程与应用 . 2012,第030期
2. 基于异构数据库环境数据抽取的系统结构研究--Java和XML的解决方案 [J] . 谢星峰 ,邹平 . 计算机与数字工程 . 2005,第003期
3. 基于预定义模式的Web网页结构化数据抽取 [J] . 王红卫 ,马红 ,张素智 . 郑州轻工业学院学报（自然科学版） . 2008,第006期
4. 基于XML的网页信息自动抽取 [J] . 周津 ,朱明 ,郑全 . 计算机应用 . 2004,第0z1期
5. 基于XML的网页结构化管理和数据检索 [J] . 黄晓 ,钟琴 . 计算机仿真 . 2004,第004期
6. 基于单层扁平结构的XML网页信息抽取系统的研究与初步实现 [C] . 火善栋 ,朱南丽 ,黄青松 . 2005年昆明理工大学研究生学术交流年会 . 2005
7. 基于XML的网页结构复用及抽取方法研究 [A] . 陶湘龙 . 2007

基于主题和结构的XML网页的数据抽取

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅