首页> 中文会议>第七届教育技术国际论坛(ETIF2008) >基于HTMLParser的教育网站页面内容自动抽取策略

基于HTMLParser的教育网站页面内容自动抽取策略

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着网络技术的发展,互联网上的信息量激增,如何从这些海量的信息中获取有用和有效的资源,成为自动化技术亟待解决的一个问题。例如链接,图片,标题,文本信息等,而HTML语言所表述的Web页面经浏览器分析后只能用来浏览而不能作为一种数据交互的方式由机器处理。本文介绍了HT-MLParser的工作原理和iava正则表达式相关知识,采用基于标签的方法和HTMLParser包,设计了互联网教育资源信息抽取方案,阐述了教育资源抽取方案的工作原理和关键技术,并详细介绍了网页节点的解析,过滤,以及方案的具体实现。

著录项

来源
《第七届教育技术国际论坛(ETIF2008)》|2008年|84-88|共5页
会议地点济南
作者
方艳芬;
展开▼
作者单位

教育部;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类计算机化教学;
关键词
教育网站; 页面内容; 自动抽取策略; 资源信息;
入库时间 2022-08-17 11:06:09

相似文献

中文文献
外文文献
专利

1. 基于数据富集区域的Web内容自动抽取 [J] . 许志坚 ,孙蕾 . 计算机工程 . 2013,第009期
2. 基于Web内容的一种数据自动抽取方法 [J] . 朱永生 ,王军 . 计算机技术与发展 . 2012,第005期
3. 基于CRFs的新闻网页主题内容自动抽取方法 [J] . 张春元 . 广西师范大学学报（自然科学版） . 2011,第001期
4. 基于多策略融合的专利术语自动抽取 [J] . 周绍钧 ,吕学强 ,李卓 . 计算机应用与软件 . 2015,第002期
5. 基于动态权值的多策略领域本体概念自动抽取 [J] . 张华楠 ,刘胜全 ,刘艳 . 计算机工程与应用 . 2014,第021期
6. 基于信息结构的突发事件文本事件信息自动抽取策略研究 [C] . 曾青青 ,杨尔弘 ,朱丹青 . 第五届全国青年计算语言学研讨会(YWCL 2010) . 2010
7. 基于表示学习的专利科学引文元数据自动抽取及其内容挖掘研究 [A] . 胡一鸣 . 2018

基于HTMLParser的教育网站页面内容自动抽取策略

摘要

著录项

相似文献

相关主题

期刊订阅