摘要
Abstract
目录
第1章 绪论
1.1.研究背景
1.2.国内外研究现状
第2章 技术背景介绍及相关工作
2.1.信息抽取
2.2.BBS数据挖掘技术
2.3.BBS逻辑结构分析
2.4.BBS物理结构实现
2.5.BBS用户发言信息相关术语
2.6.BBS的特征及用户发言信息抽取的意义
第3章 基于HTML DOM的BBS用户发言信息抽取技术
3.1.HTML DOM介绍
3.2.自动抽取的DOM实现基础
第4章 基于视觉特征的BBS用户发言信息抽取技术
4.1. WEB视觉特征抽取技术
4.2.BBS主题网页的视觉特征
4.3.视觉分块树算法
4.4.定位用户发言区
4.5.从发言区中抽取发言
4.6.BBS主题网页的元素相似性
4.7.重组算法
第5章 实现技术和抽取结果分析
5.1.基于JSP的BBS网站实例
5.2.基于HTMLPASER的抽取技术实现
5.3.开发环境与开发技术
5.4.抽取器的结构与模块
5.5.实验及测试结果
第6章 总结与展望
6.1.本文主要工作和贡献
6.2.展望进一步的工作
附录一:系统的部分代码
附录二:作者攻读硕士学位期间发表的论文
附录三:作者攻读硕士学位期间参与的科研项目
附录四:作者攻读硕士学位期间获得的知识产权
参考文献
致谢