首页> 外文学位 >Building topic-specific search engines: A data mining approach.
【24h】

Building topic-specific search engines: A data mining approach.

机译:构建特定主题的搜索引擎:一种数据挖掘方法。

获取原文
获取原文并翻译 | 示例

摘要

Topic specific search engines are becoming popular with the phenomenal growth of the World Wide Web. They have higher accuracy rate than general purpose search engines, and offer functions they cannot provide. But the topic-specific search engines available nowadays have very low cost-efficiency, because they require intensive human labor, and thus enormous cost, to upkeep as well as to build. Efficient processing of the exploding information in the World Wide Web seems to call for smarter search engines, topic-specific search engines that require far less human labor while performing almost as well as those built and maintained by humans. This dissertation is a contribution towards meeting this demand. Building and maintaining topic-specific search engines with minimal human labor requires an automatic or semi-automatic information gathering system, the outputs of which can be fed to the search engines. In the dissertation, I discuss techniques for four major components of the requisite information gathering system: (1) Domain information extraction; (2) Topic expansion; (3) Topic-driven information gathering; (4) Text-classification system for web documents.; I also discuss the performance of the prototype system, a search engine for XML, that I built to test the techniques.
机译:随着万维网的迅猛发展,特定于主题的搜索引擎正变得越来越流行。它们具有比通用搜索引擎更高的准确率,并且提供了它们无法提供的功能。但是,如今可用的特定主题搜索引擎的成本效益非常低,因为它们需要大量的人工来维持和建造,因此需要巨大的成本。在万维网上高效处理爆炸信息似乎需要更智能的搜索引擎,这些主题特定的搜索引擎所需的人力更少,而性能却几乎与人类建造和维护的一样。本文是对满足这一需求的贡献。用最少的人力来构建和维护特定主题的搜索引擎需要一个自动或半自动的信息收集系统,该系统的输出可以馈送到搜索引擎。在本文中,我讨论了必要的信息收集系统的四个主要组成部分的技术:(1)领域信息提取; (2)主题扩展; (3)主题驱动的信息收集; (4)网络文档的文本分类系统。我还将讨论为测试这些技术而构建的原型系统(用于XML的搜索引擎)的性能。

著录项

  • 作者

    Yi, Jeonghee.;

  • 作者单位

    University of California, Los Angeles.;

  • 授予单位 University of California, Los Angeles.;
  • 学科 Computer Science.
  • 学位 Ph.D.
  • 年度 2001
  • 页码 153 p.
  • 总页数 153
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 自动化技术、计算机技术;
  • 关键词

  • 入库时间 2022-08-17 11:46:49

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号