首页> 外文OA文献 >INFORMATION RETRIEVAL En simpel søgemaskine - baseret på vektor modellen
【2h】

INFORMATION RETRIEVAL En simpel søgemaskine - baseret på vektor modellen

机译:信息检索一个简单的搜索引擎-基于向量模型。

摘要

Information RetrievalEn simpel søgemaskine - baseret på vektor modellenDette projekt beskæftiger sig med udviklingen og beskrivelsen af et simpeltsøgesystem baseret p°a Gerard Saltons vektor model. Foruden en kort gennemgangaf hoveddelene i et søgesystem, beskrives teorien bag vektor modellen ogforskellige problemstillinger ved preprocesseringen og indekseringen af dokumenter.P°a baggrund af den opn°aede viden kan vi konkludere, at det ikke er mængdenaf tilgængelig information, der giver de største problemer, men først og fremmestbehandlingen af informationen i form af preprocesseringen og indekseringen, derer afgørende for, om søgesystemet kan levere et nøjagtigt søgeresultat. Desudenspiller similaritetsm°alet en afgørende rolle for om dokumenterne bliver rangeretkorrekt, dvs om det mest relevante dokument for en søgning, bliver vist som detførste i søgeresultatet.Generelt om IR kan der siges at der ikke findes ´en perfekt m°ade at lave ensøgemaskine p°a. Alt efter hvad behovene er, bliver man nødt til at tage stillingtil hvilke egenskaber søgemaskinen skal have.Information RetrievalA simple search engine - based on the vector modelThis project deals with the specification and the development of a simple searchsystem based on Gerard Salton’s vector model. In addition to a brief examinationof a search system’s main parts, the theory of the vector model and differentproblems of document preprocessing and indexing are discussed.Based on acquired knowledge, we can conclude that the biggest problemsare not due to the amount of accessible information, but rather due to theprocessing of information through preprocessing and indexing, which are themost significant factors contributing to a search system’s supply of a precisesearch result. Yet another important factor is the similarity measure, which issignificant as regards the correct ranking of documents, i.e. whether the mostrelevant document of a search will be shown as the first search result.As regards Information Retrieval, it can generally be claimed that there isno perfect way to create a search engine. Depending on needs and purposes, itis essential to consider which characteristics and properties the search engineshould have.
机译:信息检索基于矢量模型的简单搜索引擎此项目处理基于Gerard Salton矢量模型的简单搜索系统的开发和说明。除了简要介绍搜索系统的主要部分外,还对向量模型背后的理论和各种问题进行了说明,并在文档的预处理和索引编制中进行了介绍,基于所获得的知识,我们可以得出结论,并不是造成最大问题的不是可用的信息量,但最重要的是,以预处理和索引的形式处理信息,这决定了搜索系统是否可以提供准确的搜索结果。另外,相似性度量在确定文档是否正确排序(即,与搜索最相关的文档是否在搜索结果中显示为第一)中起着至关重要的作用。 °a。根据您的需求,您将需要确定搜索引擎应具有的功能信息检索一个简单的搜索引擎-基于矢量模型该项目涉及基于Gerard Salton矢量模型的简单搜索系统的规范和开发。除了简要介绍搜索系统的主要部分外,还讨论了向量模型的理论以及文档预处理和索引的不同问题。基于获得的知识,我们可以得出结论,最大的问题不是由于可访问信息量大,而是由于而是由于通过预处理和索引处理信息,这是促使搜索系统提供精确搜索结果的最重要因素。另一个重要因素是相似性度量,这对于正确排序文档(即文档的正确性)非常重要。是否将与搜索最相关的文档显示为第一个搜索结果关于信息检索,通常可以说没有完美的方法来创建搜索引擎。根据需求和目的,必须考虑搜索引擎具有哪些特征和特性。

著录项

  • 作者

    Azmayesh Sam; Goos Jesper;

  • 作者单位
  • 年度 2005
  • 总页数
  • 原文格式 PDF
  • 正文语种 {"code":"da","name":"Danish","id":6}
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号