首页> 中文会议>第七届教育技术国际论坛(ETIF2008) >基于HTMLParser的教育网站页面内容自动抽取策略

基于HTMLParser的教育网站页面内容自动抽取策略

摘要

随着网络技术的发展,互联网上的信息量激增,如何从这些海量的信息中获取有用和有效的资源,成为自动化技术亟待解决的一个问题。例如链接,图片,标题,文本信息等,而HTML语言所表述的Web页面经浏览器分析后只能用来浏览而不能作为一种数据交互的方式由机器处理。本文介绍了HT-MLParser的工作原理和iava正则表达式相关知识,采用基于标签的方法和HTMLParser包,设计了互联网教育资源信息抽取方案,阐述了教育资源抽取方案的工作原理和关键技术,并详细介绍了网页节点的解析,过滤,以及方案的具体实现。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号