首页> 中文学位 >利用表格信息的Web文本分类研究与实现
【6h】

利用表格信息的Web文本分类研究与实现

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1课题来源

1.2课题研究的目的和意义

1.3国内外研究概况

1.3.1国外研究概况

1.3.2国内研究概况

1.4论文的主要研究内容

第二章Web文本分类方法的研究

2.1 Web文本的特点

2.2 Web文本分类的过程

2.2.1 Web文本分类的定义

2.2.2文本表示

2.2.3自动分词技术

2.2.4特征提取

2.3常用的文本分类方法

2.3.1朴素贝叶斯算法

2.3.2 KNN分类算法

2.3.3支持向量机

2.4支持向量机方法的研究和实验结果分析

2.5本章小结

第三章本体理论

3.1本体概述

3.1.1本体定义

3.1.2本体的分类

3.1.3本体的描述语言

3.1.4本体建模原语

3.2本体构建方法学

3.2.1本体的建立原则

3.2.2本体构建方法

3.3本体构建工具

3.3.1本体构建工具的分类

3.3.2 Pintégé

3.4本章小结

第四章web表格信息抽取

4.1目前的Web信息抽取方法

4.2 HTML语言概述

4.2.1 SGML简介

4.2.2 HTML简介

4.2.3 HTML语言结构分析

4.2.4 HTML页面的特点

4.3 Web表格信息抽取模型

4.3.1 Web表格信息抽取概述

4.3.2 Web表格信息抽取模型

4.3.3Web表格的定位

4.3.4 Web表格结构预处理

4.3.5表格信息抽取与重构

4.3.6模型实验结果分析

4.4本章小结

第五章Web表格特征信息的抽取

5.1 Web表格特征信息的定义

5.2表格结构的识别

5.2.1表格结构的类型

5.2.2表格单元信息类型识别

.5.2.3单元信息字体特征识别

5.3表格特征信息的识别

5.4实验结果分析

5.5本章小结

第六章Web文本分类系统的设计与实现

6.1构建二次分类模型

6.2数据准备

6.3基于领域本体的分类模块

6.3.1构建基于领域本体的分类模块

6.3.2构建领域本体

6.3.3 Web表格特征信息的表示

6.3.4引入概念关联度的主题分类模板

6.3.5相似度匹配

6.4实验结果与分析

6.5本章小结

第七章结论与展望

7.1结论

7.2展望

参考文献

作者在攻读硕士学位期间公开发表的论文

作者在攻读硕士学位期间所做的项目

致谢

展开▼

摘要

随着互联网等信息技术的发展和广泛应用,Web已经成为人们获取信息最重要手段之一。如何从这海量的信息资源库中快速、准确地进行分类并提取出有用的信息,变得十分迫切。Web信息抽取技术和Web文本分类技术作为Web信息处理重要的组成部分,现在也越来越得到更多人的重视。 本文首先通过对Web信息抽取技术的研究,提出了一种基于表格结构的Web表格信息抽取模型,该模型主要有表格定位模块、表格结构预处理模块和表格信息抽取与重构模块等三个模块组成,根据Web表格的结构标记和自定义的启发式规则来抽取表格信息。实验结果表明该模型能够很好的用于Web表格信息的抽取,并且可以把不标准的Web表格转换成标准的表格形式,用Excel文件格式来存储。同时为了得到表格信息中的特征信息(关键信息),本文通过观察和研究表格结构的类型,定义了一些启发式规则对表格单元信息类型进行识别,从而区分出表格信息中的特征信息和一般单元信息。 然后通过对Web文本分类技术和本体理论的研究,本文构建了关于Web表格特征信息知识的领域本体,提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类,由于设定了较高的分类阈值,一次分类后部分测试样本未确定所属类别;对于未确定所属类别的测试样本,本文抽取样本中的Web表格特征信息,与基于领域本体的分类模板进行相似度匹配,进行第二次分类。 最后通过实验,本文对比二次分类模型方法和基于支持向量机的分类方法,发现无论是在准确率上,还是在召回率上,二次分类模型方法都明显优于只使用支持向量机的分类方法,从而也验证了二次分类模型方法的可行性,更进一步表明我们可以利用Web文本中所包含的多种信息(如Web表格信息等)来对文本进行分类,提高Web文本分类的准确率和召回率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号