【24h】

AdaBoostを利用した字幕テキストからの定型表現文章区間抽出

机译:使用Adaboost的常量表达式文本间隔提取字幕文本

获取原文
获取原文并翻译 | 示例
       

摘要

テレビ番組のナレーションでは、「場所紹介」や「人物紹介」など特定の事柄を表現するために同じような言い回しが多用される。 このような言い回しを含む文車区間が抽出できれば、対応する番組映像区間の場所紹介や人物紹介といったメタデータを付与することができる。 そこで本稿では、番組のクローズドキャプションを対象として定型表現を含む文章区間を抽出する手法を提案する。 提案手法では、複数文のテキストデータから木構造を生成して、木構造間の類似性を木構造に含まれる部分木の椒似度により評価する。この結果を弱学習器としたAdalBoostアルゴリズムにより学習を行い定型表現か否かの判定を行う。 紀行番組のクローズドキャプションを対象として、場所を映像とともに説明する定型表現文章区間を抽出する実験を行い、提案手法の有効性を確認した。
机译:在电视节目的叙述中,同样的方式说要表达诸如“地方介绍”和“人介绍”的特定事物。如果可以提取包括此类单词的传输剖面,则可以添加元数据,例如放置相应的程序视频部分和该人介绍的介绍。因此,在本文中,我们提出了一种提取包括针对程序的隐藏标题的固定类型表示的文本部分的方法。在所提出的方法中,从多句的文本数据生成树结构,树结构之间的相似性被树结构中包含的部分树的等级评估。结果是由亚达波托算法与弱者学习的,判断它是否是固定的形成表示。用于解释具有视频的位置的正则表达式文本部分,进行实验以提取所提出的方法的位置并确认所提出的方法的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号