大规模Web信息抽取与文本分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的迅速普及，Web平台已经发展成为一个巨大的信息共享空间，如何高效的从此平台中抽取信息已经成为一个亟待解决的问题；与此同时，在这些信息中文本类信息占据着极其重要的地位，而Web文本信息的结构特点与内容特点给传统的文本分类方法带来了新的挑战。针对以上情况，本文对大规模数据环境下的Web信息抽取以及Web文本分类进行了研究，主要工作如下：
　　首先，从Web信息抽取角度出发，提出一种基于DOM树节点属性与视觉特征的大规模Web信息抽取方法。该方法主要包含以下三个模块：（1）提出剪枝与融合方法，对Web页面对应的DOM树进行简化操作；（2）定义DOM树节点的密度属性和内容块的视觉特征，根据属性值与特征值对Web页面内容进行抽取；（3）引入MapReduce计算框架，对上述方法进行并行化处理，实现大规模Web信息的抽取。实验结果表明该方法是高效且可行的。
　　其次，从Web文本分类角度出发，提出一种面向大规模文本类Web信息的分类方法。该方法主要包含以下三个模块：（1）针对Web长文本提出一种基于复杂网络的特征选择方法，网络中的节点对应于文本中的词条，网络中的边对应于词条之间的关联，通过节点的度与聚集系数来衡量对应词条的重要性从而选择特征词；（2）对于Web长文本，提出基于 kNN的SVM决策树分类方法；（3）对于Web短文本，通过构建长文本各类别的主题词集合来引导短文本的分类，将短文本的归类问题转化为基于主题的一次检索问题。实验结果表明该方法在处理大规模Web文本时表现出了较好的性能。
　　最后，基于上述的理论和方法，本文构建了面向大规模Web信息抽取与文本类Web信息的分类系统，分别从相关背景、系统结构以及各子模块展开详细的描述，包括需求分析、概要设计、详细设计及其实现流程，实验结果表明该系统具备较高的稳定性。

著录项

作者
曹攀;
展开▼
作者单位

南京邮电大学;

展开▼
授予单位南京邮电大学;
学科软件工程
授予学位硕士
导师姓名王海艳;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ;
关键词
Web平台; 信息抽取; 文本分类; 节点属性; 视觉特征;

相似文献

中文文献
外文文献
专利

1. 大规模文本分类的训练语料去噪方法研究 [J] . 高雄 ,韩红旗 ,王力 . 情报工程 . 2021 ,第004期
2. 大规模文本分类的训练语料去噪方法研究 [J] . 高雄 ,韩红旗 ,王力 . 情报工程 . 2021 ,第004期
3. GPU平台上大规模文本分类的研究 [J] . 刘勇 ,王志亮 ,黄玉龙 . 计算机工程与应用 . 2012 ,第008期
4. 大规模文本分类中特征提取方法的比较研究 [J] . 何海斌 ,司建辉 . 电脑知识与技术 . 2009 ,第021期
5. 面向大规模裁判文书结构化的文本分类算法 [J] . 翁洋 ,谷松原 ,李静 . 天津大学学报 . 2021 ,第004期
6. 基于大规模真实文本的平衡语料分析与文本分类方法 [C] . 陈克利 ,宗成庆 ,王霞 . 全国第七届计算语言学联合学术会议 . 2003
7. 大规模文本分类的若干问题研究 [A] . 李自强 . 2013

大规模Web信息抽取与文本分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅