语谱图
语谱图的相关文献在1990年到2022年内共计187篇,主要集中在无线电电子学、电信技术、自动化技术、计算机技术、基础医学
等领域,其中期刊论文130篇、会议论文8篇、专利文献52812篇;相关期刊83种,包括改革与开放、中国传媒大学学报(自然科学版)、医疗卫生装备等;
相关会议6种,包括第一届全国声像资料检验鉴定技术交流会、第七届全国信号与信息处理联合会议暨首届全国省(市)级图象图形学会联合年会、第九届全国人机语言通讯学术会议等;语谱图的相关文献由481位作者贡献,包括王双维、梁士利、潘迪等。
语谱图—发文量
专利文献>
论文:52812篇
占比:99.74%
总计:52950篇
语谱图
-研究学者
- 王双维
- 梁士利
- 潘迪
- 许廷发
- 魏莹
- 李亚桐
- 王杰
- 伏娟
- 刘同来
- 张玲
- 张道行
- 曹晓琳
- 李广岩
- 潘文林
- 王晶
- 王登峰
- 王连明
- 白璐
- 缪裕青
- 蔡国永
- 谢凌云
- 邹巍
- 郑婉蓉
- 郭延蜀
- XIE Ling-yun
- ZHENG Wan-rong
- 丁俊豪
- 万红
- 代淑娴
- 刘琨
- 刘红星
- 匡镜明
- 卓嘎
- 吴飞
- 周琳
- 周鹏
- 和丽华
- 应娜
- 张二华
- 张卫东
- 张悦
- 张明键
- 张昕然
- 张晓俊
- 张杨
- 张玉金
- 张纯
- 戴蓓蒨
- 文益民
- 施振浪
-
-
张玉杰;
张赞
-
-
摘要:
为了提高声纹识别技术的识别性能,将DenseNet应用于语谱图实现声纹识别,从提高网络的运算效率和增强声纹特征的表征能力2个方面对DenseNet进行优化,提出采用深度可分离卷积来减少网络的参数量,以及增加中心损失函数项来提高声纹特征的表征能力。从训练结果可以看出,通过深度可分离卷积,网络的参数量减少了25.5%,模型大小减少了24.6%;从仿真结果可以看出,中心损失项的增加使声纹特征的聚类效果更加明显,提高了声纹特征的表征能力。因此,改进后的DenseNet在语谱图声纹识别领域取得了好的识别效果。
-
-
柏文展;
程汪鑫
-
-
摘要:
语谱图主要用于研究语音信号不同频段的信号强度随时间变化的关系。分析语谱图时,需要利用Python语言和相关库进行仿真,得到语音信号的伪彩色映射并将结果直观地显示出来,便于进一步分析、研究语音信号的特征。本文讨论语音信号的声学基础和有关特征,分析语音信号处理的发展及应用,用声卡采集湖南三个地方的方言语音信号,利用Python语言对方言语音信号语谱图进行显示,分析不同汉语方言之间的差异。该方法具有编程简单、相关功能库丰富、对设备要求低、显示结果直观等特点,为分析处理不同地区的方言语音信号提供了一种简洁高效的方法。调用Python进行仿真,能清晰地分辨出宽带信号与窄带信号的不同特性,因此可通过对频谱图的分析来识别不同地方的方言。
-
-
欧昀;
周晓彦;
李大鹏
-
-
摘要:
为了解决高校深度学习教学活动中缺乏实际案例演示的问题,设计了利用卷积神经网络(CNN)进行鸟声识别的实验。对已有常见鸟声数据库中的鸟鸣声音频进行梅尔倒谱系数(MFCC)特征提取,利用短时傅里叶变换(STFT)结果绘制出STFT语谱图,利用Python在TensorFlow框架下构建卷积神经网络的鸟声识别系统。实验过程中既可利用MFCC和STFT语谱图中2种特征参数分别在各自训练好的网络模型下进行对比实验,也可作为创新性实验,由学生自行编程设计CNN模型实现鸟声识别,通过识别结果验证模型的优劣。
-
-
赵千倩;
顾祥玉;
陈静;
李晖;
余雨
-
-
摘要:
随着国家全面二孩政策的开放,婴幼儿的监护面临着巨大挑战,基于信息通信技术的婴幼儿监护系统受到广泛关注和应用,通过对婴幼儿的啼哭声进行情绪识别显得尤为重要。文章基于语谱图的婴啼特征分析与识别算法,可对婴幼儿在不同情况下包括睡醒、换尿布、要拥抱、饥饿、要睡觉、不舒服进行特征分析和识别。结果表明,婴幼儿在各种状态下的哭声语频谱都有明显差异,在语谱图的形态、哭声基频、第一共振峰的频率等方面均有显著不同,实现对婴幼儿不同情绪状态的识别。文章提出的算法可极大增强婴幼儿监护系统中的婴啼情绪识别功能。
-
-
贾嘉敏;
潘文林
-
-
摘要:
为更有效地对低资源少数民族语言进行语音识别研究,提出一种SE-Block与Inception_Resnet_v2相结合的深度神经网络模型。该模型引入Inception结构提取语谱图特征,同时引入SE-Block增强网络对特征维度的信息通道选择能力,优化网络性能。实验结果表明,相比其他主流模型,该模型在提高模型精度与训练收敛速度的同时,增强了网络的整体学习能力。实验在佤语数据集上取得良好的学习效果,验证了该模型在数据样本数量有限的低资源少数民族语音识别中的高效性。
-
-
甘宏
-
-
摘要:
随着语音识别和自然语言处理技术的成熟,智能语音技术逐步落地到各行各业,但目前智能语音产品缺乏情感的交互,未实现真正的智能。为了提升智能语音产品的拟人性,学术界对语音情感识别的研究热度越来越高,但是多局限在使用传统特征工程以及通用深度学习模型上。在应用深度学习模型的基础上引入注意力机制对语音情感识别展开研究,选用语谱图作为输入特征,并对CNN输出的特征进行通道维度的注意力关注,分析注意力计算过程中不同池化方式对识别结果的影响,并引入残差,提升模型表现力,最终UA实现了2.83%的提升。
-
-
李兴;
朱苏青;
刘松林
-
-
摘要:
在目前油田生产信息化系统条件下,中心控制室对抽油机设备的故障监控、发现与预警的手段和方法较少,仅能通过视频的方式进行巡回检查。针对当前现状,开展抽油机故障音频及预警技术研究与应用,利用物联网、机器学习、大数据分析等技术,实现连续性的设备监控,及时、精准地发现和诊断抽油机机械故障并预警,避免机械事故的发生,减轻员工的劳动强度,提高设备信息化管理水平。
-
-
董安明;
刘宗银;
禹继国;
韩玉冰;
周酉
-
-
摘要:
随着网络音乐产业的快速发展,构筑音乐自动检索和分类系统的需求日益增加。利用计算机对音乐流派进行正确标注是实现音乐类型精准分类和保障音乐推荐系统性能的重要前提。针对卷积运算不具备提取全局表征的能力,深度卷积神经网络对音乐流派数据的全局建模能力较弱的问题,提出了一种基于视觉变换(ViT)神经网络的音乐流派自动分类方法。该方法对待分类的音频进行预处理后,利用短时傅里叶变换(STFT)转化为尺寸统一的语谱图切片,实现音乐频域特征的转换。为了避免训练过拟合,通过增加白噪声对语谱图切片集进行数据增强。然后利用所生成的语谱切片集及其增强后的数据集对所构建的ViT神经网络进行训练,从而实现音乐流派风格的自动分类。仿真结果表明,所构建的ViT网络在音乐流派分类公共数据集GTZAN上的测试识别准确率达到91.01%,比基于AlexNet、AlexNet-enhanced和VGG16等传统卷积神经网络(CNN)的音乐流派分类方法提升了1.00~5.00个百分点。
-
-
吾买尔江·麦麦提;
阿布都热孜克·热孜克
-
-
摘要:
本文通过介绍广播电台日常业务工作中的广播信号监测技术,结合当前广播信号监测技术手段以及其存在的缺点、发展方向,通过语音信号监测技术与广播信号监测工作相结合,提出了基于调制频谱的广播信号监测方法。
-
-
王鹏;
周成成;
吴文琪;
唐依静;
孙世凡
-
-
摘要:
音频的应用现已遍及家庭生活,社会宣传以及一些司法的领域,但随着语音合成技术的不断发展,音源数据的采集和开发,现实网络中已出现多种合成音,因此音频的真实性已无法得到充分的保证。针对音频在发生篡改、拼接等情况时,在语谱图的基础上,对音频信号进行音频取证,提出一种通过Python对音频信号进行预处理,分帧、加窗,并计算统计每一帧中的高频分量占比,通过分析占比波形来达到音频篡改检测的目的,验证音频的真实性和可靠性。
-
-
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
汉语方言分区研究是语言学的重要组成部分.鉴于传统基于词汇和语法的人工方言分区方法具有一定的主观性,该文研究了如何有效利用语音本身特征进行方言的自动分区.该文首先构建了江西省11个省辖市,91个下辖县级行政区的时长约1500分钟的1223条语音语料库.然后在传统的MFCC语音特征提取基础上,提出了基于CNN的自编码降维语谱图的深度学习特征提取模型,对降维后的语音特征分别采用k均值算法聚类、高斯混合聚类和层次聚类对方言自动分区.实验结果表明新型语谱图特征的聚类性能量度内部指标DBI指数以及DI指数显著优于传统MFCC特征,维度为16时语谱图和MFCC下的拼接特征聚类效果和传统人工方言分区较为接近.
-
-
ZHENG Wan-rong;
郑婉蓉;
XIE Ling-yun;
谢凌云
- 《2018年全国声学大会》
| 2018年
-
摘要:
声音和图像分别是听觉和视觉两种模态接收的输入信息,在数字信号处理领域有着各自不同的处理方法.将图像的处理方法运用到声音上,这种跨模态处理方法为视听交互和融合的相关研究提供分析思路,激发新的数字信号处理方法.已经有不少研究将图像处理的特征用于声音信号的分类.本文则提出了一种基于语谱图图像处理的语音增强方法,通过对带噪语音的语谱图进行灰度变换,可以有效滤除噪声,达到语音增强的目的.
-
-
WANG Jie;
王杰;
YAN Lin-huang;
颜霖煌
- 《2018年全国声学大会》
| 2018年
-
摘要:
由于自然界中各种噪声的存在,在实际的语音采集和传递过程中不可避免会受到干扰,对语音的去噪技术研究在现实生活中有很重要的意义.双边滤波是由Tomasi和Manduchi提出来的一种非线性图像滤波算法,它不仅利用了邻域内像素点的空间邻近度信息,还借助了灰度相似度信息,使得该算法能够在有效地平滑掉噪声的同时最大限度的保持图像边缘信息,获得了良好的图像增强效果.双边滤波在许多计算机视觉和图像应用非常普遍.最近也有研究者将类似的引导滤波用于语音去混响,取得了较好的效果,开拓了此类算法在语音信号处理中的应用.目前尚未有文献研究将双边图像滤波技术用于语音去噪.本文提出运用双边滤波技术处理语音信号的语谱图来实现语音去噪,并进行多种噪声环境下的性能评估.
-
-
ZHENG Wan-rong;
郑婉蓉;
XIE Ling-yun;
谢凌云
- 《2017首届文化科技学术会议》
| 2017年
-
摘要:
声音和图像分别是听觉和视觉两种模态接收的输入信息,在数字信号处理领域有着各自不同的处理方法.随着对视听交互的心理感知及其神经机理研究的逐渐兴起,信号处理方法的跨模态应用也开始受到关注,声音(图像)的处理方法被创造性地运用到图像(声音)对象上去.这种声音—图像的跨模态处理方法能够为视听交互和融合的相关研究提供有价值的分析思路,同时也可以激发新的数字信号处理方法.对目前已有的声音—图像跨模态处理方法的研究成果进行了概述,进行了简要分析并指出其特点,同时提出了一种将语谱图图像处理用于语音增强的新方法.
-
-
张雨
- 《第一届全国声像资料检验鉴定技术交流会》
| 2011年
-
摘要:
目前声纹鉴定技术在案件侦破工作中的应用逐渐成为提高办案效率的重要手段和途径之一,但是由于送检的语音大多受到噪声干扰和污染,大大降低了声纹鉴定结果的准确性和稳定性,尤其是低信噪比的语音,根本无法鉴定.针对这一问题,使用基于最佳短时谱估计的语音增强算法进行声纹鉴定预处理,抑制背景噪声,改善语音质量.实验结果证明,该算法提高了信号的信噪比、可懂度;从语谱图上分析,还原出更多信号的有用信息.该算法在恶劣的噪声环境下稳健性强,提高了声纹鉴定结果的正确性.
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- 哈尔滨理工大学
- 公开公告日期:2022-06-17
-
摘要:
本发明公开了一种声纹欺诈检测方法,将能量谱经由Q‑DCT和Q‑IDCT平滑处理的重构群延迟‑常数Q变换(以下称为RGD‑CQT)语谱图特征进行检测语音欺诈攻击的方法,解决了欺诈语音特征区分性不强及欺诈语音检测系统错误率高的问题。在训练时,先对语音序列进行填充或截取操作,进而将语音序列的每一位与索引序号加一的值进行相乘,获得新的语音序列。将两个语音序列分别进行常数Q变换(CQT,constant Q transform),获得两个语谱图X和Y。分别提取两张语谱图的实部和虚部,对语谱图X进行Q‑DCT和Q‑IDCT,之后进行修改的群延迟的计算,最后进行归一化和取对数得到最终的语谱图。将其作为resnet18+cbam网络的输入;然后通过交叉熵损失和Adam优化器训练出一个最优的网络模型作为用于测试的模型。最终根据网络模型的分数,如果分数大于0则认为是真实语音,反之,则判断为欺诈语音。