首页> 外文期刊>電子情報通信学会技術研究報告 >連続型HMMを用いたテキストセグメンテーション
【24h】

連続型HMMを用いたテキストセグメンテーション

机译:使用连续HMM进行文本分割

获取原文
获取原文并翻译 | 示例
       

摘要

A text segmentation method via continuous HMM is shown in this paper. In general, an HMM has output symbols of vocublary, i.e. one word will be output by one step. In contrast, our method uses an HMM whose output symbol is a vector of word counts. The vector corresponds to a sliding window on a text. We evaluate this HMM, then we confirmed that our method has higher performance than a general case HMM.%連続型HMMによるテキストセグメンテーション手法を示す.一般にHMMによるテキストセグメンテーションは,1つの単語を出力記号とし,学習データを用いて状態遷移および各状態における出力記号の確率分布を求める.これに対し本研究では,テキストデータ内のある一定の範囲をテキスト窓とし,テキスト窓内の単語の出現数をベクトルとして出力記号とする.このようなHMMを用いてテキストセグメンテーションを行い,ウェブのニュース記事が複数結合されたテキストデータに対して評価実験を行った.その結果,ランダムに話題が移り変わるようなテキストデータに対して,従来手法よりも高い性能を得ることができた.
机译:本文介绍了一种通过连续HMM进行文本分割的方法。通常,HMM具有词汇的输出符号,即一个单词将一步输出。相反,我们的方法使用HMM,其输出符号是单词的向量我们对该HMM进行了评估,然后证实了我们的方法比一般情况下的HMM具有更高的性能。%显示了通过连续HMM进行文本分割的方法。通常,在通过HMM进行文本分割时,将一个单词用作输出符号,并使用学习数据来获取每个状态下输出符号的状态转换和概率分布。另一方面,在本研究中,将文本数据中的一定范围用作文本窗口,并将文本窗口中单词出现的次数用作矢量并用作输出符号。我们使用这种HMM进行了文本分割,并对文本数据进行了评估实验,其中将Web上的多个新闻文章进行了合并。结果,我们能够获得比主题随机变化的文本数据的传统方法更高的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号