利用表格信息的Web文本分类研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网等信息技术的发展和广泛应用，Web已经成为人们获取信息最重要手段之一。如何从这海量的信息资源库中快速、准确地进行分类并提取出有用的信息，变得十分迫切。Web信息抽取技术和Web文本分类技术作为Web信息处理重要的组成部分，现在也越来越得到更多人的重视。本文首先通过对Web信息抽取技术的研究，提出了一种基于表格结构的Web表格信息抽取模型，该模型主要有表格定位模块、表格结构预处理模块和表格信息抽取与重构模块等三个模块组成，根据Web表格的结构标记和自定义的启发式规则来抽取表格信息。实验结果表明该模型能够很好的用于Web表格信息的抽取，并且可以把不标准的Web表格转换成标准的表格形式，用Excel文件格式来存储。同时为了得到表格信息中的特征信息(关键信息)，本文通过观察和研究表格结构的类型，定义了一些启发式规则对表格单元信息类型进行识别，从而区分出表格信息中的特征信息和一般单元信息。然后通过对Web文本分类技术和本体理论的研究，本文构建了关于Web表格特征信息知识的领域本体，提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类，由于设定了较高的分类阈值，一次分类后部分测试样本未确定所属类别；对于未确定所属类别的测试样本，本文抽取样本中的Web表格特征信息，与基于领域本体的分类模板进行相似度匹配，进行第二次分类。最后通过实验，本文对比二次分类模型方法和基于支持向量机的分类方法，发现无论是在准确率上，还是在召回率上，二次分类模型方法都明显优于只使用支持向量机的分类方法，从而也验证了二次分类模型方法的可行性，更进一步表明我们可以利用Web文本中所包含的多种信息(如Web表格信息等)来对文本进行分类，提高Web文本分类的准确率和召回率。

著录项

作者
廖涛;
展开▼
作者单位

上海大学;

展开▼
授予单位上海大学;
学科计算机应用
授予学位硕士
导师姓名刘宗田;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
Web信息抽取技术; 表格信息; 启发式规则; 文本分类; 支持向量机; 二次分类模型;

相似文献

中文文献
外文文献
专利

1. 利用表格特征信息的Web文本分类研究与实现 [J] . 桂海霞 . 计算机时代 . 2008,第012期
2. Web表格定位技术的研究与实现 [J] . 廖涛 ,刘宗田 ,孙荣 . 计算机科学 . 2009,第009期
3. 一种基于人工免疫的Web文本分类方法研究——以Web信息分类为例 [J] . 何晓庆 ,贾钊 . 图书馆理论与实践 . 2012,第011期
4. 基于信息量的Web表格信息抽取方法 [J] . 曾广朴 ,陶维安 . 西南师范大学学报（自然科学版） . 2010,第004期
5. 面向Web信息检索的虚核文本分类算法 [J] . 李静 ,杨小帆 ,孙启干 . 计算机工程 . 2012,第010期
6. 一种基于树编辑距离的Web表格信息抽取方法 [C] . 刘颖 ,胡学钢 ,吴共庆 . 第七届仪表、自动化与先进集成技术大会暨第六届测控技术与仪器仪表学术大会 . 2012
7. 利用多种信息的Web文本分类系统的设计与实现 [A] . 杨维雄 . 2013

利用表格信息的Web文本分类研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅