文摘
英文文摘
声明
第一章绪论
1.1课题来源
1.2课题研究的目的和意义
1.3国内外研究概况
1.3.1国外研究概况
1.3.2国内研究概况
1.4论文的主要研究内容
第二章Web文本分类方法的研究
2.1 Web文本的特点
2.2 Web文本分类的过程
2.2.1 Web文本分类的定义
2.2.2文本表示
2.2.3自动分词技术
2.2.4特征提取
2.3常用的文本分类方法
2.3.1朴素贝叶斯算法
2.3.2 KNN分类算法
2.3.3支持向量机
2.4支持向量机方法的研究和实验结果分析
2.5本章小结
第三章本体理论
3.1本体概述
3.1.1本体定义
3.1.2本体的分类
3.1.3本体的描述语言
3.1.4本体建模原语
3.2本体构建方法学
3.2.1本体的建立原则
3.2.2本体构建方法
3.3本体构建工具
3.3.1本体构建工具的分类
3.3.2 Pintégé
3.4本章小结
第四章web表格信息抽取
4.1目前的Web信息抽取方法
4.2 HTML语言概述
4.2.1 SGML简介
4.2.2 HTML简介
4.2.3 HTML语言结构分析
4.2.4 HTML页面的特点
4.3 Web表格信息抽取模型
4.3.1 Web表格信息抽取概述
4.3.2 Web表格信息抽取模型
4.3.3Web表格的定位
4.3.4 Web表格结构预处理
4.3.5表格信息抽取与重构
4.3.6模型实验结果分析
4.4本章小结
第五章Web表格特征信息的抽取
5.1 Web表格特征信息的定义
5.2表格结构的识别
5.2.1表格结构的类型
5.2.2表格单元信息类型识别
.5.2.3单元信息字体特征识别
5.3表格特征信息的识别
5.4实验结果分析
5.5本章小结
第六章Web文本分类系统的设计与实现
6.1构建二次分类模型
6.2数据准备
6.3基于领域本体的分类模块
6.3.1构建基于领域本体的分类模块
6.3.2构建领域本体
6.3.3 Web表格特征信息的表示
6.3.4引入概念关联度的主题分类模板
6.3.5相似度匹配
6.4实验结果与分析
6.5本章小结
第七章结论与展望
7.1结论
7.2展望
参考文献
作者在攻读硕士学位期间公开发表的论文
作者在攻读硕士学位期间所做的项目
致谢