首页> 中文学位 >基于视觉特征的BBS用户发言信息抽取技术研究
【6h】

基于视觉特征的BBS用户发言信息抽取技术研究

代理获取

目录

摘要

Abstract

目录

第1章 绪论

1.1.研究背景

1.2.国内外研究现状

第2章 技术背景介绍及相关工作

2.1.信息抽取

2.2.BBS数据挖掘技术

2.3.BBS逻辑结构分析

2.4.BBS物理结构实现

2.5.BBS用户发言信息相关术语

2.6.BBS的特征及用户发言信息抽取的意义

第3章 基于HTML DOM的BBS用户发言信息抽取技术

3.1.HTML DOM介绍

3.2.自动抽取的DOM实现基础

第4章 基于视觉特征的BBS用户发言信息抽取技术

4.1. WEB视觉特征抽取技术

4.2.BBS主题网页的视觉特征

4.3.视觉分块树算法

4.4.定位用户发言区

4.5.从发言区中抽取发言

4.6.BBS主题网页的元素相似性

4.7.重组算法

第5章 实现技术和抽取结果分析

5.1.基于JSP的BBS网站实例

5.2.基于HTMLPASER的抽取技术实现

5.3.开发环境与开发技术

5.4.抽取器的结构与模块

5.5.实验及测试结果

第6章 总结与展望

6.1.本文主要工作和贡献

6.2.展望进一步的工作

附录一:系统的部分代码

附录二:作者攻读硕士学位期间发表的论文

附录三:作者攻读硕士学位期间参与的科研项目

附录四:作者攻读硕士学位期间获得的知识产权

参考文献

致谢

展开▼

摘要

本文研究从BBS主题网页中自动抽取用户发言信息的问题。该类问题的传统解决方法主要基于对HTML网页的DOM树和标签结构的分析,密切依赖于HTML标准。这使网页规范性对抽取正确率的影响较大,而且随着编写网页的脚本语言版本演变,这种解决方法必须不断修改调整。为了改善这种情况,本文所提出的自动抽取方法独立于网页脚本语言,根据网页提供的视觉信息进行有效抽取。本文归纳了BBS主题网页内部用户发言信息的视觉特征,以此为依据指导整个抽取过程。方法是,首先建立主题网页的视觉分块树VBT,然后在该树上定位用户发言区,最后从发言区视觉块中抽取每条用户发言信息。实验结果表明,基于视觉的抽取方法可以得到较高的抽取质量。本文的研究结合了BBS数据挖掘技术和Web网面视觉特征分析技术,对BBS资源整合与BBS社会管理都颇具应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号