本发明公开了一种基于两阶段学习的多模态时间序列建模方法,用于说话人识别和语音识别,该方法在第一阶段忽略多模态时间序列数据在时间维度上的依赖性,提取每个时间步上每个模态的静态特征分布,通过多模态的融合学习技术获得各个时刻上特征的联合分布;在第二阶段通过一个递归神经网络对第一阶段获得的静态特征分布进行时序依赖建模,通过递归网络的梯度反传将静态特征分布转化为相关联的动态特征分布。由于无需估计整个时间序列的联合分布,该方法显著减少第一阶段的训练成本,结果显示更高层次的抽象特征比低层次能更有效学习到时序依赖信息,并且模型在Big Bang Theory和AVLetters数据集上取得了当前最好的成果。
展开▼