首页> 中文学位 >面向检索信息的同义词挖掘
【6h】

面向检索信息的同义词挖掘

代理获取

目录

第一个书签之前

展开▼

摘要

随着计算机技术的飞速发展,搜索引擎的应用深入到各行各业,使用搜索引擎对信息进行检索已经深入到人民群众的日常生活当中,信息的查找与获取变得越来越频繁的同时,信息的精准查找与获取也越来越有挑战性。如何从浩如烟海的信息资源库中,更加准确的理解用户想要搜索的关键词,使得关键词搜索内容能够得到拓展和更加准确的推荐,是信息检索领域一直以来的重要研究课题。 传统的信息检索服务已渐渐不能满足用户的检索需求,智能的、基于概念的信息检索系统成为未来的发展方向。识别用户搜索关键词的可替代同义词是实现智能信息检索的重要方法之一,而要实现高效的同义词拓展,就需要一个强大的同义词表。 本文中定义的同义词,是在相似的上下文语境中可以相互替代的词。随着时代的变化,语言的应用日新月异,使用传统的同义词词典查询的方法对同义词进行判别或者发现已完全不适用。使用更加智能的方法进行同义词挖掘,找到新的同义词表势在必行。 近年来,随着自然语言处理技术的进步,关于同义词的研究越来越多,需要用到同义词的领域涉及方方面面,研究者们提出了众多先进的配对同义词辨析和基于语料库的同义词集提取方法。 本文面向检索信息进行同义词挖掘,与使用基于特定业务的检索数据有一定的规则找出候选词对不同,本文通过设计对齐规则和短语对抽取规则,找到无特定业务query数据的同义词挖掘方法;将 Distributed Representation词向量应用于特征工程;通过训练机器学习模型,使用模型对同义词对做出判定,最终在浩瀚如海的信息中挖掘出同义词,提取同义词表。 本文使用这类数据来挖掘同义词表,在相当程度上克服了传统同义词表过时、无法找到新词和未登录词等弊端;结合统计特征以及 Negative Sampling的Skip-gram共现矩阵模型训练的词向量特征进行模型训练。 同义词的自动发现和识别,在基于概念的信息检索领域有着十分重大的研究意义和实际应用价值,本文在国内和国外短文本相似度算法、同义词识别算法进行研究和分析的基础上,对面向检索信息的同义词挖掘方法进行了深入研究。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号