网页信息的自动抽取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本文首先介绍了网页信息抽取的背景和发展。根据所使用方法的不同，对多项相关的研究做了概要性的叙述，介绍了这些研究的思想及其优、缺点。对于目标记录所在区域的确定，本文使用基于启发式的方法来解决，介绍了三种针对这一问题的启发式，分别从节点扇出、子树大小增量和子树标记数三个方面对网页进行考察，并且将它们结合起来使用以取得更好的效果。对于记录的抽取，针对现有方法对噪声敏感的问题，本文提出了基于记录子树的最大相似度发现记录模式的思想，称为最大相似子树方法，将相似度超过一定阈值的子树识别为同类记录。这种方法在同类记录的表现模式有一定差异的情况下依然能够正确识别记录。对于记录属性的抽取，本文将隐马尔可夫模型用于网页信息抽取问题，介绍了隐马尔可夫模型的基本结构以及如何将其应用到信息抽取领域。针对本文的特定问题，确定了隐马尔可夫模型的结构，并使用训练样本学习了模型的参数。

著录项

作者
王庆伟;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科模式识别与智能系统
授予学位硕士
导师姓名朱明;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
网页信息抽取; HTML标记树; 子树识别; 隐马尔可夫模型;

相似文献

中文文献
外文文献
专利

1. 电商网页中商品规格信息自动抽取方法研究 [J] . 赵晓永 ,王磊 . 计算机工程与应用 . 2017,第024期
2. 网页中商品“属性—值”关系的自动抽取方法研究 [J] . 唐伟 ,洪宇 ,冯艳卉 . 中文信息学报 . 2013,第001期
3. 基于DOM树和视觉特征的网页信息自动抽取 [J] . 黄武冠 ,朱明 ,尹文科 . 计算机工程 . 2013,第010期
4. 基于网页聚类的Web信息自动抽取 [J] . 邱韬奋 ,杨天奇 ,曾洪波 . 微型机与应用 . 2011,第004期
5. 网页信息自动抽取技术的研究 [J] . 胡少荣 ,孟嗣仪 ,刘云 . 铁路计算机应用 . 2010,第009期
6. 基于Web的农业信息自动抽取方法研究 [C] . 王文生 ,谢能付 . 全国农业信息分析理论与方法学术研讨会 . 2009
7. 中医临床症状信息自动抽取与编码方法研究 [A] . 林凤 . 2021

网页信息的自动抽取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅