首页> 中文学位 >基于Bootstrapping方法的校友识别问题研究与应用
【6h】

基于Bootstrapping方法的校友识别问题研究与应用

代理获取

摘要

大学校友是高校拥有的巨大潜能的人力资源,是学校的宝贵财富,是学校良好声誉的创造者,也是学校进一步发展的重要资源,得到了越来越多的重视。然而目前校友资源的管理手段落后,不能够满足人们对校友资源利用的需求。
   互联网中所包含大量由自然语言所表述的信息,其中包含了丰富的校友信息以及最新动态。然而对于计算机来说处理这些非结构化的信息是困难的,信息抽取领域中的相关方法提供了将文本内容转换为结构化知识的途径。如何在大量的信息中正确的识别出校友面临着以下几个问题:互联网中的信息是海量的且结构复杂,互联网中的实体以及实体之间的关系是复杂的且没有标识。
   本文的工作就是要在大量的互联网信息中将正确的校友识别出来。而校友识别问题就是人和学校关系的抽取,关系抽取作为信息抽取领域的一个方法能够很好的解决本文中的校友识别问题。
   首先,本文将校友识别问题抽象为关系抽取的问题,即对人名和学校名之间的关系进行抽取。同时采用了关系抽取中的的基于SVM的监督学习的方法和基于Bootstrapping的半监督学习方法来进行校友的识别。两种方法都能够解决校友识别的问题,具有比较理想的准确率和召回率。而Bootstrapping方法由于只需要少量的训练数据,因此比监督学习的方法更加适合处理大数据量的信息。
   其次,由于传统的方法对单一的关系比较有效,而校友关系包含了多个子关系。本文针对这一问题,提出了改进的两阶段Bootstrapping方法来更好的解决校友识别问题,该方法通过对第一阶段产生的模式进行进一步的筛选,使得Bootstrapping算法更加适用于复杂关系模式的抽取。然后本文通过在小规模数据集合和大规模数据集合上验证了两阶段Bootstrapping算法的有效性和优势。
   最后,本文将算法应用到校友搜索系统上,构建了校友信息检索与分析系统。该系统是一个垂直搜索系统,能够提供对互联网中校友的识别以及校友关系的抽取,且有别与传统搜索引擎的组织方式,以关系网络的形式进行搜索结果的展示。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号