基于分类技术的网页去噪方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网的快速发展使网络上的各种信息呈现出快速增长的趋势。如何从浩瀚的互联网文本中获取有效信息、分析网页数据之间的关联性等，是自然语言处理领域的一项挑战。网页导航、主题信息、超链接信息、版权信息等构成一个网页，其中除了网页正文信息外，其他的信息对于研究人员来说都属于噪音信息，这些噪音信息会对Web信息检索，网页分类等研究产生了不利的影响。
　　为了使自然语言处理技术更好地应用到网页信息的研究中，提高对网页正文的处理能力，同时降低网页去噪领域对于网页模板的依赖性，本文提出了一种基于网页标签位置特征与文本特征相结合的网页去噪方法。该方法将HTML网页映射为相应的DOM树，在分析DOM树结构的基础上，抽取其中每一个标签节点的位置特征以及文本特征，同时考虑正文与标题的语义相似性，将这些DOM树节点在网页中所属的块分为正文节点和噪音节点，最后将它们表示为样本数据，运用机器学习中的分类方法进行分类实验。该方法实现简单且对于网页的模板依赖较小，具有一定的通用性。
　　实验选取了决策树、朴素贝叶斯和支持向量机三种分类方法，通过对比实验验证了方法的有效性，同时实验还获得了较高的准确度，表明该方法能够较为精确地抽取出正文信息，去除网页噪音信息。最后，对实验结果进行了详细分析与讨论，总结导致误分类的原因。同时，通过特征选择实验将所选特征对于结果的贡献度及该特征的时间复杂度进行对比分析，论证特征选择对于模型训练精度和效率的重要性。

著录项

作者
李小娟;
展开▼
作者单位

贵州师范大学;

展开▼
授予单位贵州师范大学;
学科计算机科学与技术
授予学位硕士
导师姓名杨华;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
自然语言处理; 网页去噪; 机器学习; 朴素贝叶斯; 支持向量机;

相似文献

中文文献
外文文献
专利

1. 基于节点权重的网页去噪方法的研究 [J] . 王健 ,张金 . 计算机技术与发展 . 2017,第010期
2. 基于网页结构化倾向的网页分类方法研究 [J] . 万月亮 ,朱贺军 ,刘宏志 . 信息网络安全 . 2009,第009期
3. 基于多层分类器的恶意网页检测技术研究 [J] . 张士坤 . 现代计算机（专业版） . 2020,第018期
4. 基于结构和文本特征的网页分类技术研究 [J] . 顾敏 ,郭庆 ,曹野 . 中国科学技术大学学报 . 2017,第004期
5. 基于UCL的网页信息自动分类及标引技术研究 [J] . 李丹阳 . 计算机光盘软件与应用 . 2013,第007期
6. 一种基于机器学习的网页分类技术 [C] . SUN Jingchao ,孙靖超 . 第32次全国计算机安全学术交流会 . 2017
7. 基于网页特征的中文网页自动分类问题研究 [A] . 朱珠 . 2009

基于分类技术的网页去噪方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅