首页> 中文学位 >学前教育Web文档的特征提取研究
【6h】

学前教育Web文档的特征提取研究

代理获取

目录

文摘

英文文摘

声明

第1章前言

1.1研究背景

1.2研究方法

1.3主要的研究内容

1.4论文的组织结构

第2章文本自动分类技术概述

2.1 文本自动分类及其一般过程

2.2文本特征表示

2.3文本自动分类的算法

第3章WEB文档的预处理

3.1 Web文栏预处理的过程

3.2 Web文档的基本结构

3.3 Web文栏消除噪音

3.4停用词(Stop word)过滤

3.5中文文本分词

第4章学前教育Web文档的特征选择与权重计算

4.1学前教育Web资源的特点

4.2学前教育Web资源的分类体系

4.3 Web文档特征提取的原则

4.4 Web文档的特征项选择

4.5 Web文档的特征项权重计算

4.6基于HTML标记优化特征提取

4.6.1基于HTML标记优化特征权重的计算

4.6.2超链接的特征提取

第5章特征评估函数的实验

5.1学前教育Web文栏的采集

5.2评估指标

5.3特征评估函数的实验

5.4基于HTML优化特征权重的实验

第6章结论

6.1论文总结

6.2后续的研究工作

参考文献

致谢

展开▼

摘要

随着信息技术和通讯技术的飞速发展,Internet为学前教育提供了极为丰富的网页文档。这些文档大都是半结构化或无结构化的数据,要快速地从中获得所需信息非常困难。为了提高网页文档的利用效率,提高搜索的准确性,需要对海量的网页进行自动分类处理。网页文档的特征提取是自动分类的前提,文章研究网页文档的特征提取所涉及到的主要技术和方法。 文章的主要工作如下: 1.介绍特征提取的背景知识,包括文本自动分类过程,文本特征表示的模型,自动分类的概念以及分类算法。 2.阐释Web文档的预处理的过程和方法。在分析Web文档的基本结构的基础上。提出消除Web文档的噪音、过滤Web文档中的停用词的方法。 3.提出学前教育Web资源的特点及其分类体系。 4.分析Web文档特征项选择的评估函数和权重计算函数,提出基于HTML标记优化特征权重计算的方案。 5.在实验结果的基础上,认为在学前教育分类体系下,TF*IDF优于其他权重计算方法,基于HTML的特征加权算法可以优化分类器的分类效果。

著录项

  • 作者

    邱明;

  • 作者单位

    南京师范大学;

  • 授予单位 南京师范大学;
  • 学科 教育技术学
  • 授予学位 硕士
  • 导师姓名 李艺;
  • 年度 2008
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 教育技术学;
  • 关键词

    学前教育; 网页文档; 特征提取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号