基于行为识别的网页文本分类算法研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来互联网快速发展，网络中出现了海量、动态、半结构化或者非结构化的信息，这些信息80％以上都是以文本形式存在。网页分类是搜索引擎、网页过滤、网络信息管理的技术基础，因此对网页分类的研究越来越重要。网页分类算法是网页分类过程中的一个重要步骤，分类算法的优劣直接影响分类效果的好坏。网页分类技术建立在文本分类的基础上，但又不同于纯文本分类技术有所差异，这是因为网页中存在“噪音”信息以及网页的半结构化特点。
　　文本分类由文本预处理，特征词库的建立、文本分类器、文本分类结果测试这几个部分组成。本文围绕搜索引擎优化对网站设计具有引导性的研究基础上，对网页进行行为分析，提出了一种新的网页文本分类算法——基于行为识别的网页文本分类算法。本文的主要研究工作如下：
　　在对网页行为的研究中发现，网站的设计受搜索引擎优化技术的影响，网站设计者为了提高网站的搜索排名，利用元标签反应网站主题，因此元标签对反映网站的主题有很大的贡献。并且在这种半结构化的文本结构中，绝大多数网页中都包含title，keywords，descriptioN,subtitle等，利用网站的这一行为特点提出了新的算法。
　　基于行为识别的网页文本分类算法充分考虑到网站中语言多元化的特点，将网页的文字编码进行统一，最大可能的消除了语言之间的区别带来的干扰。
　　本文同时完成了对该算法的测试，并同国外的类似产品进行比较。该算法正确率、召回率等都能达到90％，体现了良好的分类性能。
　　论文最终给出了基于行为识别的网页文本分类算法的具体实现，及测试工具的实现。该程序目前已对4000万的URL进行分类，包含中、英、俄、德、法等八种语言，体现了良好的性能。

著录项

作者
刘俊荣;
展开▼
作者单位

北京邮电大学;

展开▼
授予单位北京邮电大学;
学科计算机科学与技术
授予学位硕士
导师姓名白中英;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.41;
关键词
行为识别; 网页文本; 分类算法;

相似文献

中文文献
外文文献
专利

1. LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比 [J] . 李湘东 ,潘练 . 信息资源管理学报 . 2015,第004期
2. 基于特征词匹配的政策文本分类算法研究与实现 [J] . 王丽鹏 ,张鹏云 ,和志强 . 河北省科学院学报 . 2017,第003期
3. 基于WEB网页文本信息抽取研究与实现 [J] . 刘三星1 . 数据挖掘 . 2015,第004期
4. 结合文本语义图和词频统计的网页分类算法研究 [J] . 周文文 ,韩斌 ,黄树成 . 计算机与数字工程 . 2020,第006期
5. 融合LSI和支持向量聚类的网页文本分类算法 [J] . 史长琼 ,黄辉 ,王大卫 . 计算机应用研究 . 2009,第012期
6. 基于改进K最近邻分类算法的不良网页并行识别 [C] . XU Yabin ,徐雅斌 ,LI Zbuo . 2013年全国开放式分布与并行计算学术年会 . 2013
7. 基于网页块划分的Web文本分类算法研究与实现 [A] . 李猛 . 2007

基于行为识别的网页文本分类算法研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅