首页> 中文学位 >基于行为识别的网页文本分类算法研究与实现
【6h】

基于行为识别的网页文本分类算法研究与实现

代理获取

目录

文摘

英文文摘

第一章 前言

1.1 研究背景和意义

1.2 国内外文本分类发展概况

1.2.1 国外发展概况

1.2.2 国内研究发展概况

1.3 课题研究的主要内容

1.4 论文的组织结构

第二章 网页自动分类工作流程和关键技术

2.1 网页分类的基本概念

2.2 网页文本自动分类基本工作流程

2.3 建立文本集及预处理

2.3.1 网络爬虫

2.3.2 网页预处理

2.4 文本表示

2.4.1 布尔模型

2.4.2 向量空间模型

2.4.3 概率模型

2.5 特征提取

2.5.1 信息增益

2.5.2 期望交叉熵

2.5.3 互信息

2.5.4 X2统计量

2.6 常用分类算法

2.6.1 基于统计的分类方法

2.6.2 基于规则的分类方法

2.7 分类算法评估

第三章 网页行为识别研究

3.1 网页结构分析

3.1.1 网页的架构

3.1.2 搜索引擎优化的行为分析

3.2 网页文本预处理

3.2.1 网页文本预处理对象

3.2.2 网页文本编码

3.2.3 去掉网页文本特殊字符

3.2.4 网页语言大小写统一

3.3 基于行为识别的网页分类算法

3.3.1 基于行文识别的网页分类算法的提出及公式

3.3.2 分类类别介绍

第四章 基于行为识别的网页分类算法设计与实现

4.1 分类器程序

4.1.1 开发环境

4.1.2 程序功能介绍

4.2 算法实现

4.3 分类结果

第五章 分类结果分析

5.1 测试程序

5.1.1 功能介绍

5.1.2 程序流程

5.2 测试结果

第六章 总结及展望

参考文献

致 谢

攻读学位期间发表的学术论文目录

展开▼

摘要

近年来互联网快速发展,网络中出现了海量、动态、半结构化或者非结构化的信息,这些信息80%以上都是以文本形式存在。网页分类是搜索引擎、网页过滤、网络信息管理的技术基础,因此对网页分类的研究越来越重要。网页分类算法是网页分类过程中的一个重要步骤,分类算法的优劣直接影响分类效果的好坏。网页分类技术建立在文本分类的基础上,但又不同于纯文本分类技术有所差异,这是因为网页中存在“噪音”信息以及网页的半结构化特点。
   文本分类由文本预处理,特征词库的建立、文本分类器、文本分类结果测试这几个部分组成。本文围绕搜索引擎优化对网站设计具有引导性的研究基础上,对网页进行行为分析,提出了一种新的网页文本分类算法——基于行为识别的网页文本分类算法。本文的主要研究工作如下:
   在对网页行为的研究中发现,网站的设计受搜索引擎优化技术的影响,网站设计者为了提高网站的搜索排名,利用元标签反应网站主题,因此元标签对反映网站的主题有很大的贡献。并且在这种半结构化的文本结构中,绝大多数网页中都包含title,keywords,descriptioN,subtitle等,利用网站的这一行为特点提出了新的算法。
   基于行为识别的网页文本分类算法充分考虑到网站中语言多元化的特点,将网页的文字编码进行统一,最大可能的消除了语言之间的区别带来的干扰。
   本文同时完成了对该算法的测试,并同国外的类似产品进行比较。该算法正确率、召回率等都能达到90%,体现了良好的分类性能。
   论文最终给出了基于行为识别的网页文本分类算法的具体实现,及测试工具的实现。该程序目前已对4000万的URL进行分类,包含中、英、俄、德、法等八种语言,体现了良好的性能。

著录项

  • 作者

    刘俊荣;

  • 作者单位

    北京邮电大学;

  • 授予单位 北京邮电大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 白中英;
  • 年度 2010
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.41;
  • 关键词

    行为识别; 网页文本; 分类算法;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号