声学模型
声学模型的相关文献在1987年到2023年内共计447篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、一般工业技术
等领域,其中期刊论文136篇、会议论文43篇、专利文献152610篇;相关期刊100种,包括中国科学院研究生院学报、噪声与振动控制、电声技术等;
相关会议32种,包括中国声学学会第十一届青年学术会议、第十届中国声学学会青年学术会议、第14届中国少数民族语言文字信息处理学术研讨会等;声学模型的相关文献由904位作者贡献,包括颜永红、潘接林、张鹏远等。
声学模型—发文量
专利文献>
论文:152610篇
占比:99.88%
总计:152789篇
声学模型
-研究学者
- 颜永红
- 潘接林
- 张鹏远
- 屈丹
- 张文林
- 徐及
- 刘加
- 李图雅
- 胡郁
- 马志强
- 孙建伟
- 张晴晴
- 李超
- 胡国平
- 苏丹
- 吕勇
- 李先刚
- 李秀林
- 牛铜
- 王智超
- 艾斯卡尔·艾木都拉
- 闫红刚
- 黄斌
- M·I·洛伊德
- T·克里斯特詹森
- 刘刚
- 孙甲松
- 彭一平
- 李健
- 李真
- 杨双涛
- 杨毅
- 杨金锋
- 杨鉴
- 葛凤培
- 薛少飞
- 袁胜龙
- 贾磊
- 赵伟峰
- 邢安昊
- 郭军
- 陈梦喆
- 陶建华
- 霍昱光
- 高君效
- 黄露
- 龙星延
- H·G·梅森
- J·A·斯金德
- M·保力克
-
-
于长帅;
罗忠;
骆海涛;
何凤霞
-
-
摘要:
噪声是载人航天器的重要环境因素之一,航天器环境噪声升高会直接影响航天员工作和休息,进而影响空间科学任务。然而,以往在轨运行的载人航天器存在较多噪声过大的问题,多孔吸声材料已经在国际空间站应用并取得良好的降噪效果,我国空间站预计2022年底建成,了解声学多孔材的声学模型以及吸声机理对我空间站运营阶段的降噪具有重要的意义。基于刚性框架假设,多孔吸声材料声学等效模型分为经验模型和唯像模型,Delany-Bazley是常用的经验模型,采用此模型不能对多孔材料吸声的性能提供精确的预测,唯象模型考虑了声波在材料孔隙和空腔中的传播,可以准确预测吸声性能,因此Johnson-Champoux-Allard唯象模型被众多学者应用。流阻、孔隙率、曲率、粘胶特征长度和热特性长度等多孔材料声学特性参数是准确建立多孔材料Johnson-Champoux-Allard模型的关键,流阻测试方法包括直接气流法、声学阻抗管法、交流法和比较法;孔隙率的测试方法分为直接测试方法和声学阻抗管测试方法;曲率、粘性特征长度和热特性长度可以通过超声波进行直接测试,直接测量通常比较复杂、不太可靠并且具有破坏性,反演优化方法是获得多孔材料曲率、粘性特征长度和热特性长度的常用方法。本文概述了多孔吸声材料在国际空间站的应用情况,综述了多孔吸声材料声学等效模型的研究进展,介绍了多孔吸声材料吸声原理、声学扰动基本方程以及声学属性参数的测试方法,重点介绍了多孔吸声材料声学等效模型中的经验模型和唯像模型,进而对多孔材料声学等效模型中的声学特征参数的测试方法进行详细论述。
-
-
张伟涛;
米吉提·阿不里米提;
郑方;
艾斯卡尔·艾木都拉
-
-
摘要:
资源匮乏语言语音信息检索研究比汉语、英语等大语言进展缓慢,需要大量预处理工作。神经网络模型在低资源环境下的高效建模能力给低资源语言信息处理工作带来便利。文中以维⁃哈等低资源语言为基础,通过一系列预处理过程获得了这些语言的语音及文本资源,再利用高斯混合隐马尔可夫模型GMM⁃HMM、深度神经网络隐马尔可夫模型DNN⁃HMM等完成了关键词检索实验。实验结果表明,三音素下的DNN⁃HMM模型比GMM⁃HMM模型检索性能要好。维吾尔语的ATWV达到了0.368,MTWV达到了0.491,检索结果准确率达到了89.36%;哈萨克语的ATWV达到了0.382,MTWV达到了0.421,检索结果准确率达到了82.15%。
-
-
邵睿;
彭硕;
查文文;
陈成鹏;
辜丽川;
焦俊
-
-
摘要:
以5种猪声为研究对象,首先,用维纳滤波和端点检测对猪声进行预处理,获得有效语料;然后,提取梅尔倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)制作样本集,再构建基于BiLSTM的声学模型学习样本集;最后用训练好的模型对猪声MFCC序列进行分类,实现生猪音频识别。结果表明:(1)通过5折交叉试验验证,5组模型总体识别率均达到90%,最高组为92.52%;(2)用样本集外语料对最优组模型进行算法应用测试,模型对进食、咳嗽、发情、嚎叫和哼叫的样本识别率分别为88.35%、93.65%、90.38%、88.46%、92.63%,总体识别率为90.70%。
-
-
程高峰;
颜永红
-
-
摘要:
随着多媒体信息和通信技术的快速发展,网络上的多语言语音数据日益增多。语音识别作为语音分析与处理的核心技术,如何快速地把中文和英文等少数多资源主要语言处理能力推广到更多的低资源语言,是当前识别技术迫切需要突破的瓶颈。文中试图总结声学模型建模领域的最新进展,探讨传统语音识别技术从单语言向多语言跨越过程中可能面临的困难。并在此基础之上,探索了最新的端到端语音识别技术在关键词检索系统构建上的作用,以进一步改善系统的整体效果。最后总结了如下最新研究进展:1)基于模型参数共享的多语言声学建模;2)基于语种分类信息的多语言声学建模;3)基于帧级别对齐的端到端关键词检索技术。
-
-
马晗;
唐柔冰;
张义;
张巧灵
-
-
摘要:
语音识别使声音变得"可读",让计算机能够"听懂"人类的语言并做出反应,是人工智能实现人机交互的关键技术之一.本文介绍了语音识别的发展历程,阐述了语音识别的原理概念与基础框架,分析了语音识别领域的研究热点和难点,最后,对语音识别技术进行了总结并就其未来研究进行了展望.
-
-
张杨
-
-
摘要:
本文提出了一种改进的残差卷积神经网络音频噪声检测方法,其可有效解决音频噪声检测的准确性与高效性问题。测试结果表明,此方法在实际生产应用环境中达到98%±0.5%的准确率与450倍速的计算效率。此外,本文也提出了一种音频噪声检测系统的实现方案。
-
-
张亮永;
卢强;
肖卫国;
唐仕英;
王敏超;
方厚林;
张德志
-
-
摘要:
利用某土质场地化爆实验的声震数据,考虑地面反射和地介质耦合作用,对以经验和半经验声学模型为基础的地面爆炸当量预测方法进行了讨论。结合地震波模型,采用声震分析方法分析了地面爆炸当量的预测精度。结果表明:地介质耦合作用对声学方法的地面爆炸当量预测精度影响较大;若不考虑地介质耦合作用,土质场地的当量预测结果明显小于真实值。联合地震波数据增加额外约束进行反演,可以减小当量-爆高(埋深)折中关系,获得较高的当量估计精度。对比多种分析模型发现,采用IPM(improved parametric models)声学模型和近地面声学模型进行声震分析获得的当量预测精度最高。
-
-
肖林;
肖倩宏;
魏莉莉;
周艳云;
汪适
-
-
摘要:
随着各级电网调度数据接入规模的快速增大,调度员承担的职责和复杂性日益增多,给电网调度指令的正确下发和电网的安全稳定运行带来了严峻的挑战。调度语音识别是解决该问题的有效手段之一,也是推进电网智能化建设的重要举措。本文首先介绍了语音识别的基本概念,在调度语音大数据的背景下,引入了卷积神经网络模型和隐马尔科夫模型用于电网调度语音识别,并结合电网专业知识背景构建了电网调度语音声学词表,建立了基于大数据和CNN-HMM的电网调度语音识别声学模型,在特征计算时采用了倒谱均值方差归一化方法,以降低信道和噪声影响,提升声学模型的鲁棒性。仿真算例表明,该模型可以有效提升调度语音识别的准确性,为相关工程实践提供了一种思路。
-
-
张小峰;
谢钧;
罗健欣;
杨涛
-
-
摘要:
语音合成技术在人机交互中扮演着重要角色,深度学习的发展带动语音合成技术高速发展.基于深度学习的语音合成技术在合成语音的质量和速度上都超过了传统语音合成技术.从基于深度学习的声码器和声学模型出发对语音合成技术进行综述,探讨各类声码器和声学模型的工作原理及其优缺点,在此基础上对语音合成系统进行综述,系统综述经典的基于深度学习的语音合成系统,对基于深度学习的语音合成技术进行展望.
-
-
沈东风;
张二华
-
-
摘要:
近年来,深度学习凭借其优越的性能广泛应用于图像处理、自然语言处理、语音识别等领域,它对性能的提升远超于以往的传统方法.论文采取循环神经网络(Recurrent Neural Networks,RNN)中的长短期记忆模型(Long Short Time Memory,LSTM)实现了语音识别中的声学模型构建,并增加反向时序信息对训练的影响,构成了双向长短期记忆模型(Bi-directional Long Short Time Memory,BLSTM).语音信号是一种复杂的时变信号,而BLSTM能够在处理时间序列数据的同时,选择性地记住有效信息,丢弃无用信息,实验表明该方法的识别率较传统的高斯混合模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)有显著的提高.
-
-
-
-
-
齐耀辉;
葛凤培;
潘复平;
颜永红
- 《中国科学院声学研究所第四届青年学术交流会》
| 2012年
-
摘要:
针对真实评测数据中噪声、方言口音、信道噪声、说话随意性等不利因素,本文对声学模型进行了深入地研究:在训练数据中加入背景噪声以增强模型的抗噪声能力;采用基于说话人的倒谱均值方差规整,来降低信道及说话人个体特性的影响;用与待测语音相同地域的朗读和自然口语数据做最大后验概率(MAP)自适应,使模型带有当地方言口音的发音特点并较好地描述自然口语中比较随意的发音现象。实验结果表明,使用这些措施后,待测语音的识别正确率相对提高了44.1%,从而使机器评分和专家评分的相关系数相对提高了6.3%。
-
-
LIN Chu-xiang;
林楚湘;
MENG Qing-lin;
孟庆林
- 《2018年全国声学大会》
| 2018年
-
摘要:
人工耳蜗(cochlear implant,CI)的声学模型是指将原始声信号按照CI信号处理的某些前期步骤进行处理,并最终合成一种声刺激信号的信号处理算法或声码器(vocoder).通常可对正常听力者播放该类合成信号,用以对CI听音效果进行模拟或预测.近二十余年最常用的CI声学模型是Shannon等人在1995年在Science期刊发表的一个声码器模型.比较了不同通道数情况下,新模型和经典模型对应的言语识别效果。
-
-
-
Min Li;
李敏;
Zhenjiang Miao;
苗振江;
Cong Ma;
马聪
- 《第十三届全国人机语音通讯学术会议》
| 2015年
-
摘要:
本文首先介绍了连续语音识别系统的基本组成及HTK工具箱的原理与应用,然后利用HTK工具箱搭建了一个连续语音识别系统,并在TIMIT—一个非特定人的大词汇量连续语音数据库上进行了实验.在实验的过程中,讨论了如何选择不同的语言模型,如何选择不同的声学模型进行建模,并且对模型的高斯混合度等参数进行了一系列的改进.通过实验,可知语言模型选择统计语言模型,声学单元选择三音素进行建模及模型的混合高斯度适当增加,都会提高连续语音识别的识别率.
-
-
-