基于HTML的WEB就业信息抽取技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机的普及和互联网的发展，网络已成为人们查找信息的重要渠道。Web作为巨大的数据源，从Web中抽取信息是当前信息研究的热点之一。　　随着我国高校招生规模逐年扩大，给高校学生的培养及就业带来了诸多压力。我们希望从互联网上获得大量的就业信息，对专业建设和就业有一定的指导意义。互联网的这些海量信息中，大多都是半结构化的HTML格式。HTML结构的文本并不严格，语义也不清晰，人们无法快速准确地找到需要的信息，所以如何快速准确地获取这些数据是亟待解决的问题。　　因此，我们分析了就业信息网站中HTML网页的特点，提出一种新的基于HTML结构的Web就业信息抽取模型。该模型由HTML结构预处理模块、表格定位模块和信息抽取模块三个模块组成。　　首先我们利用JTidy对获取的Web页代码进行清洗并转化为XML文档。再经过XML解析获取Web页的DOM树。最后通过大量的观察，我们形成启发规则来定位“真”表格，设计实现了算法；考虑到表格的跨多行、跨多列的布局会导致各个数据单元和相应属性无法一一对应，本文对表格进行标准化处理，使每一行或列都具有相同数目对齐的单元格。　　在多个网站进行实验的结果表明，本文提出的Web信息抽取方法能够有效地抽取网页中的就业信息数据。对于Web就业信息抽取和指导今后进一步的研究方向等方面都有着重要的意义。

著录项

作者
戴慧敏;
展开▼
作者单位

湖南工业大学;

展开▼
授予单位湖南工业大学;
学科计算机应用技术
授予学位硕士
导师姓名朱艳辉;
年度 2013
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
就业信息抽取,HTML结构,Web页代码,JTidy技术;

相似文献

中文文献
外文文献
专利

1. 基于HTML或MXL描述的Web页信息抽取技术研究 [J] . 谢维成 ,吕先竞 ,宋玉忠 . 情报科学 . 2005,第9期
2. 基于HtmlParser抽取动态异构Web信息的研究与实现 [J] . 桂林斌 . 计算机与数字工程 . 2009,第007期
3. 基于HTMLParser的Web信息抽取系统的设计与实现 [J] . 李彦刚 ,魏海平 ,侯兴华 . 辽宁石油化工大学学报 . 2006,第002期
4. WEB就业信息抽取技术研究 [J] . 戴慧敏 ,朱艳辉 . 电脑知识与技术 . 2013,第010期
5. WEB就业信息抽取技术研究 [J] . 戴慧敏 ,朱艳辉 . 电脑知识与技术：学术交流 . 2013,第004期
6. 基于htmlparser的搜索引擎信息抽取系统设计与实现 [C] . 孟红 ,钟华 . 第六届全国信息检索学术会议 . 2010
7. 基于HTML的WEB就业信息抽取技术研究 [A] . 戴慧敏 . 2013

基于HTML的WEB就业信息抽取技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅