标签树模板在网页关键信息抽取及话题识别中的应用

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网的迅速发展,人们通过网页分享与交流着大量的信息,如何快速全面准确地获取互联网上的信息,成为人们迫切关心的问题。网页话题识别研究将为网页搜索与检索、经济决策、人类社会学、网络内容安全等研究领域提供了有效的方法。本文探讨了利用标签树模型提取结构化记录的网页信息提取技术,结合网页结构特征,进行网页话题识别研究的方法体系。
　　本文介绍了网页文档话题识别技术的发展历史与相关技术,这是一种基于网页信息抽取、以数据挖掘为基础的话题识别方法。
　　从半结构化的网页中提取信息是一项有趣而具有挑战性的工作,也为互联网搜索、信息检索和网页挖掘提供了基础。许多网站具备后台数据库,其网页是通过动态网页生成技术,在网页HTML模板内加入数据记录而生成的。本文利用了标签树结构,对网页HTML进行解析,并且通过树的相似度计算,提取网页中HTML的标签树模板。进而我们可以通过标签树模板,提取HTML中的非模板内容。最后分析HTML中非模板内容的重复模式,并利用一些启发式规则,网页文档的记录模式与记录内容将被提取出来。实验证明,这是一个有效的网页信息提取的方法,特别是对于新闻网站与BBS网站的网页。
　　本文进一步探讨了如何利用网页中提取的文本,结合网页结构特征,例如文本样式、字体、位置和链接,改进了以词频-逆文本频率为权重计算方法的向量空间模型,采用层次聚类方法,进行网页话题识别的方法.
　　最后介绍了一个网页文档话题识别的原型系统.系统主要由网页信息收集模块、文档信息解析模块、话题识别模块三个主要部分构成。

著录项

作者
吉向文;
展开▼
作者单位

复旦大学;

展开▼
授予单位复旦大学;
学科计算机应用技术
授予学位硕士
导师姓名张世永;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类模式识别与装置;
关键词
网页文档; 识别技术; 标签树模板;
入库时间 2022-08-17 11:13:15

相似文献

中文文献
外文文献
专利

1. 基于DIV标签树的网页主题信息抽取方法 [J] . 欧阳柳波 ,杨柱 ,易显 . 计算机系统应用 . 2010,第007期
2. 可扩展的网页关键信息抽取研究 [J] . 郭少华 ,郭岩 ,李海燕 . 中文信息学报 . 2015,第001期
3. 主题网页标签树邻接矩阵识别算法研究 [J] . 宋军 ,杨晓夫 ,李益才 . 计算机科学 . 2016,第006期
4. Web网页中动态数据区域的识别与抽取 [J] . 黄健斌 ,姬红兵 ,孙鹤立 . 计算机工程 . 2007,第011期
5. 基于文本块密度和标签路径覆盖率的网页正文抽取 [J] . 刘鹏程 ,胡骏 ,吴共庆 . 计算机应用研究 . 2018,第006期
6. 基于模板的网页主题信息抽取 [C] . 冯少卿 ,都云程 ,施水才 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 基于DIV标签树的网页主题信息抽取方法 [A] . 杨柱 . 2010

标签树模板在网页关键信息抽取及话题识别中的应用

摘要

著录项

相似文献

相关主题

期刊订阅