...
首页> 外文期刊>電子情報通信学会技術研究報告. デ-タ工学. Data Engineering >N.M-gram:ハッシュ値付きN-gram法による転置インデックスの実現
【24h】

N.M-gram:ハッシュ値付きN-gram法による転置インデックスの実現

机译:N. M-gram:带有哈希值的N-gram方法实现移位索引

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

全文検索システムの転置インデックスを実現するにあたり,テキストデータからN-gram法によって切り出したトークンを検索キーにする手法が広く用いちれている.この手法には,言語中立性や再現率の完全性という利点がある反乱  検索対象の文讃群から抽出するトークンの数が膨大になるために.転置インデックスのサイズが肥大化して,凧効率が脚ヒするという欠点がある.検索の既にクエリから切り出した各トークンが対象文誤のテキスト内でも連接しているかどうかを判断するためには,転置インデックス内にトークンの支署内での山現佗置を記録しておくことが必要となるが,この位置情報が転置インデックスの肥大化の一因となっている.本稿では,N-gram法の欠点である転置インデックスの空偶効率を改善する手法として.N.M-gram法を提案する.N.M-gram法では,各トークンの文督内でのイ部隊情報のかわりに後続のトークンのハッシュ値を用いることによって,N-gram法の利点である言語中立性や再現率の完全性を保持したまま,空間効率を改善することができる.
机译:为了实现全文检索系统的移位索引,广泛使用了一种方法,该方法使用通过N-gram方法从文本数据中切出的令牌作为搜索关键字。该方法具有语言中立和完全记忆的优点,因为从搜索目标句子组中提取的标记数量变得巨大。缺点是易位指数的大小变大并且风筝效率降低。为了确定是否已经从搜索查询中提取的每个标记甚至在目标句子错误的文本中也被串联起来,有必要在移位索引中将Yamagen位置记录在标记的分支机构中。尽管必要,但是该位置信息有助于提高易位指数。在本文中,作为一种提高转置索引的空均匀效率的方法,这是N-gram方法的缺点。 N.我们提出了M-gram方法。 N. M-gram方法通过使用后续令牌的哈希值代替每个令牌局中的单位信息来保持语言中立性和召回完整性,这是N-gram方法的优势。在保持空间效率的同时,可以提高空间效率。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号