首页> 外文期刊>電子情報通信学会技術研究報告 >制約付きブートストラッピング法による特徴語抽出について
【24h】

制約付きブートストラッピング法による特徴語抽出について

机译:约束自举法提取特征词

获取原文
获取原文并翻译 | 示例
       

摘要

The bootstrapping method is known as an application of the ranking technique of Google for documents and words. The technique calculates a importance of the word by propagating the score of the word and the document mutually. However, sometimes the result is far away from the query word. The problem is known as " Topic drift". This paper proposes the restriction to high-ranking words in the process of bootstrapping. The method is simpler than the technique so far and generalized method such as limiting the emerging pattern of the word. It is confirmed that the method was able to prevent the topic drift, and to extract the bankruptcy reason strongly related to the query word the real bankruptcy information documents.%Googleのランキング手法を文書と単語について応用したブートストラッピング法がある。単語と文書の重要度を相互に伝搬させ、大局的な重要度を求める。しかし、結果が検索語から求職する「トピックドリフト」という問題があり、本質的な解決方法は知られていない。本稿では、単語集合と文書集合を相互に求める過程で、上位の単語に制約する方式を提案する。単語の出現パターンを限定するなどの従来手法と比べ、単純で一般的な方法である。倒産情報文書群を対象とした実験により、トピックドリフトを防ぎ、検索帯に強く関連する倒産理由を抽出できることが確認できた。
机译:自举法是Google对文档和单词的排名技术的一种应用,该技术通过传播单词和文档的分数来计算单词的重要性,但是有时结果离查询很远该问题被称为“主题漂移”。本文提出了在引导过程中对高级单词的限制。该方法比到目前为止的方法更简单,并且比一般方法(例如限制单词的出现方式)更简单。证实了该方法能够防止主题漂移,并且能够提取与真实破产信息文档的查询词密切相关的破产原因。%存在一种将Google排名方法应用于文档和单词的自举方法。 ..文字和文档的重要性相互传播,从而获得了全球重要性。然而,存在“主题漂移”的问题,其中结果从搜索词中寻找工作,并且基本的解决方案是未知的。在本文中,我们提出了一种在相互获取单词集和文档集的过程中限制高位单词的方法。与常规方法(例如,限制单词的出现方式)相比,这是一种简单而通用的方法。通过对破产信息文档的实验,可以确认可以防止主题漂移,并且可以提取与搜索区域密切相关的破产原因。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号