首页> 中文学位 >基于文本过滤的校友信息搜索系统实现
【6h】

基于文本过滤的校友信息搜索系统实现

代理获取

摘要

Internet的飞速发展使其成为日益重要和最具潜力的资源。然而,在信息极大丰富的同时,用户也面临着信息过载和资源迷向的问题。虽然搜索引擎可以为用户提供一定程度的帮助,但是对于某些特定搜索任务而言,搜索引擎的能力仍显不足。例如,在许多情况下,学校方面需要搜集其校友的相关信息,如校庆活动发放请柬,需要知道校友目前的工作单位,在社会上的活动情况以便寻求对母校的捐赠等。但是,学校一般只有毕业校友的相关名单和当时的就业单位,无法了解每一名毕业校友在社会上的活动情况。另一方面,当今的Internet拥有海量的信息,其中不乏某些校友的资料,或是简历,或是活动报道等。虽然人们可以通过搜索引擎来实现校友信息的搜索,但是搜索引擎返回的结果集十分庞大,而且其中包括许多杂乱、未经认可的网页,甄别每一条结果的正误需要巨大的工作量。因此,实现一个自动地、全面地、准确地从Internet上进行特定任务搜索——如校友信息搜索的系统是非常实用的。 本文研究了基于文本过滤和文本分类技术的校友信息搜索方法。通过较为深入地分析校友信息搜索的特点与难点,本文在两次分类方法的基础上设计了一个基于Internet的校友信息搜索系统。主要的研究和结果如下: 1.描述了校友信息在Internet上分布的稀疏性特点,以及所导致的学习算法的泛化能力问题和维灾难问题; 2.使用两次分类方法对校友信息进行过滤,两次分类分别提高结果的召回率和准确率,克服了稀疏样本带来的问题; 3.使用启发式规则对搜索结果中的校友姓名进行识别; 4.根据上述的搜索方法,本文使用Java实现了一个校友信息搜索系统。系统可以实时搜索Internet上的校友信息,并识别出对应的校友姓名。实验表明,系统具有较高的准确率和召回率。

著录项

  • 作者

    刘磊;

  • 作者单位

    上海交通大学;

  • 授予单位 上海交通大学;
  • 学科 计算机应用技术
  • 授予学位 硕士
  • 导师姓名 李芳;
  • 年度 2006
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;TP311.13;
  • 关键词

    文本过滤; 两次分类; 校友信息搜索; 搜索引擎;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号