首页> 外文期刊>電子情報通信学会技術研究報告 >検索語の重みの2段階調整手法
【24h】

検索語の重みの2段階調整手法

机译:搜索词权重的两步调整方法

获取原文
获取原文并翻译 | 示例
       

摘要

文書検索において単語の重み付けを行う方法の一つとしてTF・IDF 法があげられる.IDF は文書集合 での単語の出現しにくさを表わしており,検索対象の文書集合に依存する性質を持つ.そのため,クエリと同じ分野ではあまり出現しないためIDF が大きくなるような特定性が高い単語であっても,検索対象文書には出現しやすい単語であった場合にはIDF は小さくなってしまう問題がある.そこで本論文では,従来の検索手法を用いて検索対象の文書集合からクエリと同じ分野であると考えられる関連文書を抽出するステップと関連文書集合での出現頻度も用いて検索するステップの2 段階に分ける手法を提案する.従来手法と比較するためNTCIR-1 のIR タスクデータを用いて評価実験を行ったところ,一般的なべクトル空間モデルと比較して7.1%の精度向上が得られ,NTCIR-1で最も高精度だった結果と同等の精度が得られた.%TF·IDF method is one of the methods to weight terms in the field of document retrieval. IDF value shows the degree of how a term is difficult to appear in the document set, and depends on the document set to be retrieved. Therefore, the problem is that, even if a term is difficult to appear in the same field of document set as query (which means the term is highly specific in the document), IDF value of term which appears easily in the document set to be retrieved is small. In this paper, we propose and study two step adjustment technique of term weight. In the first step, we get documents related to query using vector space model. In the next step, we retrieve relevant documents using IDF calculated from the document set acquired in the first step. Experiments using NTCIR-1IR task collection indicate that, the precision of proposed method is improved about 7.1 percent comparing to that vector space model, and is almost the same value of the precision which get the highest in NTCIR-1.
机译:TF / IDF方法是在文档检索中对单词进行加权的方法之一。 IDF表示文档集中单词的难易程度,并具有取决于要搜索的文档集的属性。因此,即使该单词具有很高的特异性,由于它很少出现在与查询相同的字段中,因此IDF变大,如果该单词容易出现在搜索目标文档中,则IDF也会变小。在那儿。因此,在本文中,有两个步骤:使用常规搜索方法从要搜索的文档集中提取与查询处于同一字段的相关文档的步骤,以及还使用相关文档集中出现的频率进行搜索的步骤。我们提出一种划分方法。使用NTCIR-1的IR任务数据进行评估实验以与传统方法进行比较,结果与NTCIR-1中最高的通用向量空间模型相比,精度提高了7.1%。结果是相同的准确度。 %TFIDF方法是在文档检索领域加权术语的一种方法.IDF值显示术语在文档集中很难出现的程度,并取决于要检索的文档集。问题是,即使一个术语很难在与查询的文档集相同的字段中出现(这意味着该术语在文档中是高度特定的),也很容易在要检索的文档集中出现的术语的IDF值是本文提出并研究了术语权重的两步调整技术,第一步使用向量空间模型获取与查询相关的文档,下一步使用从文档集中计算出的IDF检索相关文档。使用NTCIR-1IR任务集合进行的实验表明,与矢量空间模型相比,该方法的精度提高了约7.1%,并且几乎与在NTCIR-1中获得最高精度的精度值相同。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号