首页> 外文学位 >A webpage classification system using genetic algorithm.
【24h】

A webpage classification system using genetic algorithm.

机译:一种使用遗传算法的网页分类系统。

获取原文
获取原文并翻译 | 示例

摘要

Because of an exponential increase of data available on the web, an efficient and accurate method for classifying this huge amount of data is very essential for fast information retrieval. This thesis presents a genetic algorithm approach for hierarchical web page categorization. Each category is represented by a keyword set with associated weights. Weights are evolved by the genetic algorithms, which performs a good solution for optimizing the properties of categories. Similarity formula is applied to calculate the similarity between the test webpage and the test category. Our experimental target is Yahoo.com. All 34,314 web pages under 11 different level categories are collected for training and testing. The experimental results show that our approach is very promising. Our approach relies on the existence of good quality texts for training. More work should be undertaken in the future to find the higher quality training web pages, which should lead to a better classification results.
机译:由于Web上可用数据呈指数级增长,因此,用于对大量数据进行分类的有效而准确的方法对于快速信息检索非常重要。本文提出了一种用于网页分类的遗传算法。每个类别均由具有相关权重的关键字集表示。权重是通过遗传算法进化而来的,遗传算法为优化类别的属性提供了很好的解决方案。应用相似度公式来计算测试网页和测试类别之间的相似度。我们的实验目标是Yahoo.com。收集了11个不同级别类别下的所有34,314个网页,以进行培训和测试。实验结果表明我们的方法是很有前途的。我们的方法依赖于高质量的培训文本。将来应该做更多的工作来查找质量更高的培训网页,这将导致更好的分类结果。

著录项

  • 作者

    Sun, Bo.;

  • 作者单位

    Lamar University - Beaumont.;

  • 授予单位 Lamar University - Beaumont.;
  • 学科 Computer Science.; Information Science.
  • 学位 M.S.
  • 年度 2004
  • 页码 85 p.
  • 总页数 85
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 自动化技术、计算机技术;信息与知识传播;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号