首页> 中文学位 >标签树模板在网页关键信息抽取及话题识别中的应用
【6h】

标签树模板在网页关键信息抽取及话题识别中的应用

代理获取

摘要

随着互联网的迅速发展,人们通过网页分享与交流着大量的信息,如何快速全面准确地获取互联网上的信息,成为人们迫切关心的问题。网页话题识别研究将为网页搜索与检索、经济决策、人类社会学、网络内容安全等研究领域提供了有效的方法。本文探讨了利用标签树模型提取结构化记录的网页信息提取技术,结合网页结构特征,进行网页话题识别研究的方法体系。
   本文介绍了网页文档话题识别技术的发展历史与相关技术,这是一种基于网页信息抽取、以数据挖掘为基础的话题识别方法。
   从半结构化的网页中提取信息是一项有趣而具有挑战性的工作,也为互联网搜索、信息检索和网页挖掘提供了基础。许多网站具备后台数据库,其网页是通过动态网页生成技术,在网页HTML模板内加入数据记录而生成的。本文利用了标签树结构,对网页HTML进行解析,并且通过树的相似度计算,提取网页中HTML的标签树模板。进而我们可以通过标签树模板,提取HTML中的非模板内容。最后分析HTML中非模板内容的重复模式,并利用一些启发式规则,网页文档的记录模式与记录内容将被提取出来。实验证明,这是一个有效的网页信息提取的方法,特别是对于新闻网站与BBS网站的网页。
   本文进一步探讨了如何利用网页中提取的文本,结合网页结构特征,例如文本样式、字体、位置和链接,改进了以词频-逆文本频率为权重计算方法的向量空间模型,采用层次聚类方法,进行网页话题识别的方法.
   最后介绍了一个网页文档话题识别的原型系统.系统主要由网页信息收集模块、文档信息解析模块、话题识别模块三个主要部分构成。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号