首页> 中文学位 >基于HTML的WEB就业信息抽取技术研究
【6h】

基于HTML的WEB就业信息抽取技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1研究背景及意义

1.2 本文研究的目的和内容

1.3 本章小结

第二章 相关技术介绍

2.1 WEB信息抽取技术

2.2 标记语言

2.3 文档对象模型(DOM)

2.4 本章小结

第三章 就业信息网页特征分析与抽取模型

3.1 就业信息网页的特征分析

3.2 HTML结构分析

3.3 HTML中的表格(TABLE)分析

3.4 WEB表格信息抽取模型的设计

3.5 本章小结

第四章 WEB就业信息抽取的实现

4.1 网页的获取

4.2 WEB 页清洗

4.3 DOM树的生成

4.4 表格中信息的抽取

4.5 实验结果

4.6 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

攻读学位期间主要成果

致谢

展开▼

摘要

随着计算机的普及和互联网的发展,网络已成为人们查找信息的重要渠道。Web作为巨大的数据源,从Web中抽取信息是当前信息研究的热点之一。  随着我国高校招生规模逐年扩大,给高校学生的培养及就业带来了诸多压力。我们希望从互联网上获得大量的就业信息,对专业建设和就业有一定的指导意义。互联网的这些海量信息中,大多都是半结构化的HTML格式。HTML结构的文本并不严格,语义也不清晰,人们无法快速准确地找到需要的信息,所以如何快速准确地获取这些数据是亟待解决的问题。  因此,我们分析了就业信息网站中HTML网页的特点,提出一种新的基于HTML结构的Web就业信息抽取模型。该模型由HTML结构预处理模块、表格定位模块和信息抽取模块三个模块组成。  首先我们利用JTidy对获取的Web页代码进行清洗并转化为XML文档。再经过XML解析获取Web页的DOM树。最后通过大量的观察,我们形成启发规则来定位“真”表格,设计实现了算法;考虑到表格的跨多行、跨多列的布局会导致各个数据单元和相应属性无法一一对应,本文对表格进行标准化处理,使每一行或列都具有相同数目对齐的单元格。  在多个网站进行实验的结果表明,本文提出的Web信息抽取方法能够有效地抽取网页中的就业信息数据。对于Web就业信息抽取和指导今后进一步的研究方向等方面都有着重要的意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号