Information RetrievalEn simpel søgemaskine - baseret på vektor modellenDette projekt beskæftiger sig med udviklingen og beskrivelsen af et simpeltsøgesystem baseret p°a Gerard Saltons vektor model. Foruden en kort gennemgangaf hoveddelene i et søgesystem, beskrives teorien bag vektor modellen ogforskellige problemstillinger ved preprocesseringen og indekseringen af dokumenter.P°a baggrund af den opn°aede viden kan vi konkludere, at det ikke er mængdenaf tilgængelig information, der giver de største problemer, men først og fremmestbehandlingen af informationen i form af preprocesseringen og indekseringen, derer afgørende for, om søgesystemet kan levere et nøjagtigt søgeresultat. Desudenspiller similaritetsm°alet en afgørende rolle for om dokumenterne bliver rangeretkorrekt, dvs om det mest relevante dokument for en søgning, bliver vist som detførste i søgeresultatet.Generelt om IR kan der siges at der ikke findes ´en perfekt m°ade at lave ensøgemaskine p°a. Alt efter hvad behovene er, bliver man nødt til at tage stillingtil hvilke egenskaber søgemaskinen skal have.Information RetrievalA simple search engine - based on the vector modelThis project deals with the specification and the development of a simple searchsystem based on Gerard Salton’s vector model. In addition to a brief examinationof a search system’s main parts, the theory of the vector model and differentproblems of document preprocessing and indexing are discussed.Based on acquired knowledge, we can conclude that the biggest problemsare not due to the amount of accessible information, but rather due to theprocessing of information through preprocessing and indexing, which are themost significant factors contributing to a search system’s supply of a precisesearch result. Yet another important factor is the similarity measure, which issignificant as regards the correct ranking of documents, i.e. whether the mostrelevant document of a search will be shown as the first search result.As regards Information Retrieval, it can generally be claimed that there isno perfect way to create a search engine. Depending on needs and purposes, itis essential to consider which characteristics and properties the search engineshould have.
展开▼