首页>中文会议>工业技术>无线电电子学与电信技术>第十二届全国人机语言通讯学术会议（NCMMSC`2013）

第十二届全国人机语言通讯学术会议（NCMMSC`2013）

召开年：2013
召开地：贵阳
出版时间： 2013-08-05

主办单位：中国声学学会;中国中文信息学会

会议文集：第十二届全国人机语言通讯学术会议（NCMMSC`2013）论文集

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

1.基于混合高斯归一化的语音转换算法
- SONG Peng;宋鹏;WANG Hao;王浩;ZHAO Li;赵力
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：针对非对称语料库情况下的语音转换,本文提出了一种基于混合高斯归一化的语音转换方法.首先,通过背景说话人模型,分别自适应训练得到源说话人和目标说话人模型.然后,利用训练得到的模型自适应参数,提出了基于高斯归一化的特征映射方法,为了进一步提高转换效果,进而提出了混合高斯归一化的方法.同时,针对说话人模型中未被更新的参数,采用KL散度(Kullback-Leibler divergence)方法进行了优化.最后,通过主客观实验对提出的算法的有效性进行了仿真和验证.实验结果表明,本文提出的基于混合高斯归一化的语音转换方法,无论是倒谱失真度、还是转换语音的目标倾向度以及感知质量,都在很大程度上获得了接近基于对称语音库的传统高斯混合模型(Gaussian mixture model,GMM)方法的效果.
2.基于节拍概念的语言节奏时长描述系统
- 殷治纲
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本研究从语言节奏核心问题出发,参考乐理知识,对语言的节奏时长描述体系进行了探讨.语言节奏的典型特征是准周期性,但是发现目前以音节等语言单元时长为基础的研究并不能反映节奏单元的准周期性特点,所以放弃了以“音节”为基础的韵律计时单位,而代之以独立于语言单元的“拍”的计时单位,并进而发现拍和节等乐律单位更有利于语言节奏问题的研究.以节、拍等音乐计时单位为基础,本研究建立起语言节奏新的时长描述体系,为深化韵律节奏研究提供了新的思路.
3.基于可读性的信息检索模型研究
- 张文雅;宋大为;赵晓朝;张鹏;李竞飞
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：近来,信息检索领域一个新颖研究问题是如何针对于不同用户提供既与查询需求相关又能被很好理解的文档.为了能有效的解决这个问题,本文尝试融入结果文档的可读性和用户基于不同话题的阅读水平对初次检索结果列表进行重排.具体地,通过追踪用户点击情况获取用户在不同话题上的阅读水平,再出现属于该话题的查询时则赋以相应的可读性权重进而进行重排.本文基于网络实际爬取的5696篇文档和4个用户检索日志进行了系统的可读性实验,取得了一些初步实验结果.
4.基于拼写规则和最大匹配算法的泰语分词
- LIN Xuee;林雪娥;YANG Jian;杨鉴;XIONG Yanjiao;熊艳娇;LIU Huaijing;刘怀憬;LI Shixin;李诗心;HU Xiangxing;胡湘兴
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：泰语文本中的句子由词拼接而成,词与词之间一般没有空格.句子之间用空格分开,然而空格并不都是表示句子的边界,因此分词和划分句子边界是泰语文本分析的必要环节.本文基于泰语词的拼写特点,归纳字符连缀规则,构建泰语字符连缀单元集合,在此基础上并采用前后向的最大字符匹配算法对泰语文本进行分词.实验结果表明,该泰语文本分词方案,不仅提升了分词的准确率,而且也提高了匹配算法的查找速度.
5.汉语母语背景失歌症者普通话声调感知能力初探
- Lv Huang;吕煌;Zhang Jinsong;张劲松;Sun Yue;孙悦
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文旨在探讨失歌症者的音乐音高感知缺陷是否会延伸到言语声调感知层面,以及二者之间有无相关性.文章使用蒙特利尔失歌症诊断测试作为筛选失歌症被试的工具和音乐音高感知能力的标准,通过普通话双音节词声调识别和分辨任务对被试的普通话声调感知能力进行了初步考查,研究发现失歌症被试在自然语料的普通话双音节词声调识别和分辨任务中,和非失歌症组相比均有明显差距.更重要的是,被试在蒙特利尔失歌症诊断测试中的得分与后续言语声调感知实验的结果具有很强的相关性.因此,失歌症者的音乐音高感知缺陷会延伸到言语声调层面,且失歌症者言语声调感知能力与音乐音高感知能力相关,受其影响失歌症者在日常学习生活中感知普通话声调的能力弱于常人.
6.汉语元音和日语元音的声道形态归一化
- Hong Liu;刘红;JianguoWei;魏建国;Qiang Fang;方强;Jianwu Dang;党建武;Wenhuan Lu;路文焕;Liang Ma;马良
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：减小不同研究对象声道的形态差异,将有助于发音器官的数据分析和发音模型的建立.本文采用薄板样条(TPS)的方法:归一化处理二维声道的形态差异.本文的实验数据,由Electromagnetic Midsagittal Articulographic(EMMA)系统分别采集三位中国人和三位日本人、发/a,i,u/元音时的数据.汉语元音声道形态和日语元音声道形态的两个归一化模板,是分别对两种语言、其中三个研究对象上颚和舌头的发音数据平均后得到的.然后,根据声道上定义的网格线系统,在模板上确定了44个参考点.实验结果表明,不同研究对象声道的形态差异,在水平方向和垂直方向都减小,TPS方法不仅减少说话人之间的形态差异,而且保留了说话人固有的说话特性.最后,文章比较分析不同形态差异归一化的方法,比较结果说明,TPS方法具有更好的归一化效果.
7.基于ARM平台的VoIP回声消除算法优化和开发
- Wang Yajie;王亚洁;Liu Baoguang;刘宝光;Zhao Yi;赵毅;Jiang Wenjin;蒋文锦;Wang Jing;王晶
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：随着Internet的迅速发展,语音通过网络传输成为现实,VoIP就是其中的一种新兴的语音数据通信技术.由于语音在传输过程中会产生回声,影响通话质量,在VoIP中加入回声消除模块已成必然.本文基于ARM嵌入式平台进行VoIP回声消除算法的优化和开发,并实现多路通话.本文借鉴Speex中的频域自适应回声消除算法,并对算法的重要参数进行了优化选择,在开发过程中对程序进行了定点优化和汇编优化,使其能在所采用的ARM平台上运行多路信号.实际的VoIP系统测试表明,优化后的回声消除算法能够较好的消除回声现象,可以在电话会议中改善多路用户的通话感受.
8.基于核主成分分析的话题跟踪系统
- LIU Quan;刘权;GUO Wu;郭武
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：话题跟踪是信息处理中的一项重要技术,如何提取鲁棒的话题样本特征是其中的研究重点.本文针对样本中的话题偏移问题,提出一种基于核主成分分析的算法,该算法首先利用开发集的先验知识构建加权矩阵;然后采用核主成分分析对样本进行话题偏移补偿,从而有效地去除了话题偏移的影响,提升了样本特征的鲁棒性;最后通过KNN和Rocchio算法进行分类.在Fisher英文数据库的话题跟踪测试结果表明,相对于基线系统,本文所提出的系统在检测代价上有15%～18%的相对降低.
9.基于说话人自适应训练的汉藏双语语音合成
- WANG Haiyan;王海燕;YANG Hongwu;杨鸿武;GAN Zhenye;甘振业;PEI Dong;裴东
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：根据藏语和汉语在发音上的相似性,提出了一种基于隐马尔科夫模型的汉藏双语语音合成方法.以声韵母为合成基元,采用多个普通话说话人和1个藏语说话人的语料库,利用说话人自适应训练,获得一个汉藏双语混合语言的平均音模型.通过说话人自适应变换,从混合语言的平均音模型获得普通话或藏语的说话人相关模型,从而合成出普通话或藏语语音.实验结果表明,在藏语训练语句较少的情况下,本文方法合成的藏语语音明显优于仅采用说话人相关模型合成的藏语语音.
10.采用MFCC和DTW算法的声无损检测信号听觉分类
- ZENG Kun;曾堃;CHEN Dongshen;陈东升;F.Tong;童峰;HONG Qingyang;洪青阳
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：由于墙体空鼓声无损检测信号中时频特征的不稳定性,传统的频谱特征和人工神经网络模式识别方法需要大量训练样本且识别性能有限.本文利用敲击墙体声信号的人耳听觉特性,提出利用信号Mel频率倒谱系数(MFCC)特征和动态时间规整(DTW)模板匹配的方法进行分类识别,提高检测系统性能.在实体墙体与空鼓墙体的检测实验表明,本文方法在仅需少量训练样本的条件下检测识别率达到90%以上,可满足实际检测需求.
11.大数据语音语料库的社会标注技术研究与实现
- LI HongYan;李宏言;FAN LiChun;范利春;GAO Peng;高鹏;XU Bo;徐波
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文给出了大数据语音语料库的社会标注策略.首先,引入了针对语音数据标注的六元组模型,将语音资源的自身特征考虑进去,并将标签对象扩展为更为广义的标记.然后,提出基于“兴趣+收获+报酬”的标注模式,并建立标注质量的三层检验机制.通过工程实现和应用,验证了本文方法在效率、质量和成本等方面都具有明显优势.
12.高准确度无标注的句子切分算法的研究
- ZHANG Zhinan;张志楠;LI Linlin;李琳琳;ZHANG Wei;张巍
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：高准确度,无标注的句子自动切分方法是快速构建大型语音语料库技术的核心.本文提出了一种将基于隐马尔科夫模型(HMM)的强制对齐技术(Force-alignment)和半监督学习的方法(Co_training)相融合的新的句子自动切分算法.该算法能够将篇幅语音依照对应的文本切分为独立的句子,而又不失原有的韵律特征信息.实验表明:利用该算法来构建语音语料库,句子的切分准确率能够达到96.2%,同时合成语音的表现力和自然度都会有一定程度上的提升.
13.基于HHT边际Teager能量谱的语音情感识别
- Wei Zhang;张卫;Xueying Zhang;张雪英;Ying Sun;孙颖
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：在语音情感识别系统中,语音情感特征的提取尤为重要,本文在前期已有对HHT方法研究的基础上,将HHT方法与Teager能量算子相结合,用于语音情感识别.文中首先利用Hilbert-Huang变换得到语音情感信号的Hilbert谱,再对Hilbert谱提取Teager能量并计算其边际谱,然后将不同语种的不同情感语音的边际Teager能量通过一组Mel滤波器,提出了一种新的情感特征:Hilbert边际Teager能量谱系数,最后利用SVM分类方法对不同语种的不同情感进行识别,实验结果表明,该方法有很好的识别结果.
14.基于HMM语音识别和语音合成的发音人转换系统
- Yanjiao Xiong;熊艳娇;Jian Yang;杨鉴;Huaijing Liu;刘怀璟;Xue’e Lin;林雪娥
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：语音转换的目标是改变一个发音人的语音个性特征,使之具有另外一个发音人的语音个性特征.发音人转换是语音转换的基础.本文利用语音识别结果,提出基于声韵母时长的韵律标记规则,以实现韵律自动标记.在此基础上,给出基于HMM语音合成器构建发音人转换系统的方案和过程.实验结果表明:采用本文提出的规则实现韵律自动标记,其可接受率已达到HMM语音合成的要求.本文发音人转换系统的初步MOS主观评测得分最高为集内4.2,集外3.9,说明转换后的合成语音自然度已基本到达可以接受的水平.
15.基于PLDA的“一对多”下的说话人确认方法研究
- Xu Yunfei;许云飞;Huang Houjun;黄厚军;Jin Yizhu;金怡珠;Li Guilian;李桂莲;Zhou Ruohua;周若华
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文介绍了总变化因子技术以及PLDA系统。提出了五种“一对多”策略和一种得分规整技术。将注册说话人的所有语音拼接，混入质量较差的语音会带来性能下降。提取因子虽然有较好的性能，但是没有考虑因子的不确定性(均值)，并且无法使用本文提出的得分规整技术。得分平均会带来漏检问题。E平均和得分取中值克服了漏检问题，有一定容错能力，相对更为鲁棒。得分规整技术显著提升了说话人识别性能。
16.基于SVM一对一分类的语种识别方法
- Wang Xianliang;王宪亮;Wu Zhigang;吴志刚;Yang Jinchao;杨金超;Zhou Ruohua;周若华;Yan Yonghong;颜永红
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：语种识别系统通常采用支持向量机(SVM)一对多加高斯后端分类器的方法进行分类.传统的SVM一对一分类在进行线性鉴别性分析(LDA)时特征值矩阵往往为奇异的,识别性能很低.本文提出一种改进的一对一分类方法,对SVM一对一得分重新建模,识别性能明显提高.在美国国家标准技术署(NIST)2011年语种识别评测(LRE)30s数据集上的实验结果表明,在采用SVM的ivector和SVM-GSV语种识别系统上,本方法比一对多性能更好,两种方法线性融合能明显提升性能.
17.基于X光的汉语单音节舌位轮廓运动数据库
- Minghao Yang;杨明浩;Jianhua Tao;陶建华;Dawei Zhang;张大伟;Hao Li;李昊
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：尽管目前出现了很多面向发音器官病理诊治和观测的医学设备,X光图像序列作为一种有效的发音器官运动的观测手段,对于发音病理分析和嗓音诊治依然不可或缺.本研究建立了一个X光的汉语单音节女性的发音舌位运动轮廓数据库,该数据库包含了两个母语为汉语的女性朗读舌位运动数据,涵盖了常见的汉语单音节标准发音过程.本工作借助半自动的舌位轮廓提取方法,建立了实时的半自动舌位精确轮廓提取和编辑工具,在时序上构建发音与舌位运动的音视频同步再现手段,形成了女性汉语单音节发音舌位运动轮廓数据库和可视化展示工具.本研究成果作为展示舌位运动的音视频同步观测和分析工具,对于观测人体发音过程、探索人体发音机理具有重要的价值,也为研究汉语发音的病理语音提供了来自X图像序列的数据支持.
18.基于辨别性深度信念网络的说话人分割
- Yong Ma;马勇;Chang-chun Bao;鲍长春;Bing-yin Xia;夏丙寅
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文在语音信号的超矢量特征空间,提出了一种基于Fisher 准则的可辨别性深度信念网络(DDBN)训练方法,得到了优于传统深度信念网络(DBN)的说话人码本矢量特征,并利用这些码本特征对多说话人的音段进行了聚类与分割.由TIMIT数据库生成的多说话人语音分割的实验结果表明,本文所提出的基于Fisher准则函数的DDBN说话人分割算法的性能明显好于传统的贝叶斯信息判决(BIC)法和DBN法.
19.基于调制频谱特征的自动语音情感识别
- Zhang Dingtian;张鼎天;Xu Mingxing;徐明星
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文采用调制频谱特征来自动识别人的语音中的情感信息.受人耳听觉系统启发,语音信号通过听觉滤波器组以及调制滤波器组得到长时频域-时域表示,从而获得声学频率和时域调制频率的信息,进而提取出调制频谱特征.通过将该特征在演员表演的德语Berlin语音库和采集自真实生活的中文情感语音库上进行语音情感分类实验,发现该特征与传统的短时频谱特征,如梅尔频率倒谱系数和感知线性预测系数相比,具有良好的性能和应用前景.
20.基于多音素类模型的文本无关短语音说话人识别
- Chenhao Zhang;张陈昊;Thomas Fang Zheng;郑方;Linlin Wang;王琳琳
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：对于基于GMM-UBM方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降.为了充分利用本文内容信息,本文提出了一种基于多音素类模型混合的建模方法.这种方法分为两个阶段,首先音素识别阶段和说话人识别阶段:在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决.不同的音素类定义方法在本文中进行了比较.实验结果显示,当测试语音时长小于2秒时,对比GMM-UBM基线系统,本文提出的方法的等错误率(EER)相对下降38.60%.
21.基于改进声调核模型的汉语普通话声调识别
- 毛峡;魏鹏飞;薛雨丽
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文提出了一种改进的声调核模型用于汉语普通话的声调识别.在改进的声调核模型中,基频曲线被划分为起始野值段,起始过渡段,声调核,末尾过渡段,末尾野值段.其中,声调核最能体现声调的基频变化趋势,是决定声调类型的关键部分.本文提出的自适应声调核提取算法,首先利用Viterbi算法自适应的将基频曲线划分为若干部分,并根据自相关函数移除首尾的野值段,再利用T假设检验合并相邻的线性部分,得到最终的分段结果.根据不同分段情况,提取基频曲线中的声调核.利用HMMs的说话人无关的声调识别对比试验表明,利用本文提出的模型和算法得到的4种声调的平均识别率比利用整个基频曲线的声学特征得到的4种声调的平均识别率提高了10.8%.实验结果表明利用改进的声调核模型和自适应声调核提取算法可有效提高4种声调的平均识别率.
22.基于条件随机场的维吾尔人名识别方法
- Askar Rozi;艾斯卡尔·肉孜;Zong cheng qing;宗成庆;Guljamal Mamateli;姑丽加玛丽·麦麦提艾力;Abdurehim Mahmut;热合木·马合木提;Askar Hamdulla;艾斯卡尔·艾木都拉
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：人名识别是自然语言处理中具有挑战性的任务之一,本论文研究实现了基于条件随机场的维吾尔人名识别新方法.论文首先从对维吾尔语黏着性特点的分析入手,研究总结了维吾尔人名的构成特点,实现了以词形、词性、词干、后缀、首音节、最后一个音节和最近一个动词等为特征、基于条件随机场的维吾尔语人名识别方法,并设计了选取最佳特征模板的贪婪算法.实验结果表明,本文提出的方法达到了较高的性能,识别维吾尔人名的准确率、召回率和F-值分别达到了90.03%、82.96%和86.35.
23.基于噪声估计和能量比的双讲检测方法
- 吴超;付强;颜永红
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：声学回声消除中,为了保证通信质量和系统稳定,自适应滤波器在双讲情况下应该缓慢或停止更新,而在其他条件下快速更新,一个可靠的双讲检测算法对声学回声消除起着至关重要的作用.本文提出一种对噪声鲁棒的双讲检测方法,从自适应滤波后的信号中估计背景噪声,利用滤波后信号与估计噪声的能量比、消除回声与麦克风信号能量比进行联合判决,实现双讲检测.实验结果表明本文提出的算法相对于传统的基于互相关的算法和基于能量比的算法有更好的性能.
24.结合电声门图的语音合成研究
- Lijiang Chen;陈立江;Xia Mao;毛峡;Angelo Compare;Angelo Compare
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：目的:本文结合电声门图,提高低码率共振峰语音合成的自然度.方法:采用电声门图的反相波形作为共振峰语音合成的声门激励信息;结合电声门图和语音信号进行静音段、清音段和浊音段的划分,增加共振峰合成参数的提取精度.结果:根据主观MOS评分及与原始语音信号对比实验,与传统的采用脉冲信号和逆滤波信号作为声门激励相比,结合电声门图的共振峰合成语音自然度更高,更接近原始语音.结论:结合电声门图的共振峰语音合成能够提高合成语音的自然度.
25.蒙古民歌的嗓音分析初探
- Gegentana;格根塔娜;YU Hongzhi;于洪志;HU Axu;胡阿旭;Urihan;乌日罕
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文通过提取基频、开商和速度商等参数对蒙古长短调的嗓音特征进行分析,旨在探讨蒙古民歌的发声技巧的生理表现,并对比分析男女声嗓音特征的异同,从而总结长短调的不同发声方式的嗓音特点及参数之间的相互关系,为今后更系统、深入地研究歌唱发声类型提供理论基础.
26.能量参数解码端HMM估计算法
- 计哲;JI Zhe;高圣翔;GAO Shengxiang;唐昆;TANG Kun;金鑫;JIN Xin
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：在低速率语音编码算法中,如何对特征参数进行有效地量化表示是影响声码器合成语音质量的关键因素.为此,本文提出一种能量参数解码端恢复算法,它利用线谱频率(line spectral frequency,LSF)和清浊音判决参数(unvoiced/voiced decision,U/V)估计能量参数的变化轨迹.该算法利用特征参数之间的相关性,采用隐马尔可夫模型(hidden Markov model,HMM)描述LSF、U/V和能量参数之间的统计特性,通过对能量进行解码端恢复,省去量化其所需的比特数,从而提高特征参数的整体量化性能.测试结果表明,能量参数解码端恢复算法能够将150 bps 混合激励线性预测编码算法(mixed excitation linear prediction,MELP)的合成语音平均意见得分(mean opinion score,MOS)提高0.042,说明了将该算法应用于超低速率声码器参数量化的可行性.
27.普通话单元音的共振峰数据测量方法研究
- 李爽;熊子瑜
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本研究基于大规模语音数据库,通过设计Praat脚本程序自动提取并分析普通话单元音的共振峰数据.研究发现,设置不同的共振峰分析上限频率,即Maximum Frequency(下文中简称MF)值,会严重影响到第二共振峰(F2)的数据分析结果.基于这一发现,本研究通过设置不同的MF值,提取出相应的共振峰数据,再通过数据统计分析和声学元音图来考察如何合理设置MF值,以提取出更为准确有效的共振峰数据.研究结果表明,针对不同的单元音,可以设置不同的MF值以提取更为准确有效的共振峰数据.
28.普通话双音节V1n#C2V2音节间逆向协同发音
- LI Yinghao;李英浩;KONG Jiangping;孔江平
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文使用动态电子腭位(EPG)研究普通话V1n#C2V2双音节中后续音节C2和V2对前鼻韵尾/n/以及V1的逆向协同发音影响.实验结果发现:(1)C2舌前音和舌面后塞音决定前鼻尾的发音部位和舌形姿态,一般不存在V2对V1的逆向影响.(2)C2为双唇音和舌尖中音条件下,存在V2对V1n的逆向影响,前者表现为在V1后过渡段舌体动作就开始向V2过渡,后者只出现在鼻音时段后部.(3)C2为舌面后擦音和唇齿擦音的时候,前鼻尾发音部位一般不同化或部分同化,这与发音人的发音策略有关.上述结果支持普通话辅音的协同发音阻力等级序列,同时对建立普通话发音生理模型奠定理论基础.
29.日本学生汉语发音方式偏误的自动评测初探
- DUAN Richeng;段日成;ZHANG Jinsong;张劲松;Cao Wen;曹文;Xie Yanlu;解焱陆
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：在计算机辅助发音训练(CAPT)系统中,对二语学习者的偏误发音给出纠正方法等反馈信息非常重要.本文旨在研究日本学生学习汉语时由于发音方式偏误而导致汉语音素发音偏误的自动评测.从发音方法不准确的角度出发,对发音方式偏误进行建模,然后采用自动语音识别(ASR)技术来检测学习者的发音,最后根据检测结果给出发音偏误的诊断结果和纠正方法.实验结果表明,此方法能够较好的检测出日本学生常见的音素发音偏误,并给出相应的纠正方法.
30.日本学生汉语阳平和上声的知觉训练——训练效果的初步分析
- Yue Sun;孙悦;Yue Sun;张劲松;Yanlu Xie;解焱陆;Wen Cao;曹文
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文在先行研究—对日本学生阳平和上声的知觉训练实验结果的基础上,试分析适应性知觉训练和高变异语音训练的训练效果,发现两种知觉训练方法对不同声母发音方式类型和韵母结构类型的音节有不同的训练效果,且高变异语音训练的效果受训练强度的影响较大.探索每种训练方法适合的音节类型,能够为有目的的调整训练方法,提高知觉训练的效果打好基础.
31.山东方言焦点语音实现的共性和差异性特征——以济南、聊城、淄博方言为例
- DUAN Wenjun;段文君;JIA Yuan;贾媛;RAN Qibin;冉启斌
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文选取山东方言西齐区的济南、聊城、淄博为实验研究对象,采用声学实验方法对比分析3个方言在焦点语音实现方面的异同,并在实验结果的基础上探讨了山东方言内部焦点实现的共性和差异性特征.研究结果表明:在焦点实现方面,3 个方言焦点后位置F0音域的压缩是普遍现象;而在焦点位置上,济南、聊城的F0音域有显著扩展,淄博的F0音域无显著变化.3个方言点中,时长和音强受焦点的影响变化不显著.
32.说话人基频与生理参数关系初探
- Cao Honglin;曹洪林;Kong Jiangping;孔江平;Wang Yingli;王英利
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：为研究发音人基频参数与生理参数之间的关系,本文通过对70位男性发音人所讲汉语普通话的篇章语料进行分析,提取基频,计算每位发音人基频的均值、中位数、众数和标准差,分析其与发音人的身高、体重、全头高、头长、头宽、颈前弧长、肩宽、头围、颈围、胸围等12种生理参数之间的相关性.实验结果表明,基频的均值、众数和中位数与发音人生理参数之间没有显著相关性;而基频的标准差与发音人的身高、体重、肩宽、颈围和胸围5种参数之间都存在显著负相关关系.由此可知,基频的标准差可以用来预测发音人的体形大小.
33.泰语文本自动分词与罗马化的实现
- LIU HuaiJing;刘怀璟;YANG Jian;杨鉴;XIONG YanJiao;熊艳娇;LIN Xuee;林雪娥
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：泰语是声调语言,也是分析型、孤立型语言,目前有6000多万人口使用,基本词汇多由单音节词构成.作为泰语文语转换(TTS)系统的前端,本文构建一本泰语词典,用前后向最大匹配算法进行泰语分词,再替换成音节信息;针对未匹配到的词语(即未登陆词),设计基于泰语音节拼写规则的处理方法;在皇家泰语转写系统的基础上,提出一个新的适用于TTS的泰语罗马化编码方案,并对泰语文本实现自动编码.实验结果表明,初步分词正确率达到78%,论文提出的泰语罗马化编码方案能更准确地表达泰语语音信息.
34.斜率相关参数对T2+T2词重音感知的影响
- LIU Min;刘敏;ZHANG Jinsong;张劲松;LI Ya;李雅;TAO Jianhua;陶建华;DUAN Richeng;段日成
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文旨在探讨斜率相关参数对T2+T2双音节词的重音的影响.通过对6000句大规模语料库中的1282个T2+T2双音节词的重音标注和声学分析,本文发现,除了两音节的音域差、高低音点差、时长差、平均音高差等影响重音感知外,两音节的音高升幅差、音高上升部分时长差和斜率差等斜率相关参数与T2+T2双音节词的重音类别有较高的相关性,它们能够为区分前重和后重词提供线索;斜率相关参数在不同的韵律边界前对词重音的影响不同;本文进一步得出了不同韵律边界下斜率相关参数的重音感知边界.
35.新疆民族学生汉语普通话中介语单元音分析
- Xi ZHAO;赵茜;Yali LIU;刘亚丽
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文研究了新疆民族学生汉语普通话中介语语音特征,测量分析了中介语单元音的共振峰数据,把数据按照不同性别,不同年龄,不同语境等语音生态因素分类,并绘制声学元音图进行对比.发现各生态因素对新疆民族学生汉语普通话中介语均有影响:(1)年龄和性别因素只对单元音共振峰频率值有影响,对其元音格局影响较小;(2)在不同语境下中介语的单元音音位分布略有不同;(3)民族因素对其影响较少.
36.信息检索系统性能对数据集特性的依赖性分析
- 孟烨;Ye Meng;张鹏;Peng Zhang;宋大为;Dawei Song;王雷;Lei Wang
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：信息检索技术使得用户可以快捷有效地进行在线文档查找、浏览以及探索.尚未解决的重要问题是,文档集的固有特征与信息检索系统性能之间有何联系,进而这些联系可否被系统有效的方法辨识.本文旨在发展文档集的侧写理论及方法框架,并探索和发掘对信息系统效果有显著影响的数据集特征.将着重于研究基本语言学和统计特征,例如:数据集规模、文档长度、词项分布等众所周知对检索性能有影响的特征,并探索这些数据集特征和信息检索系统性能之间的关联.
37.言语产生胸腹呼吸机制研究
- YANG Feng;杨锋;HOU Xingquan;侯兴泉;KONG Jiangping;孔江平
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文通过胸呼吸和腹呼吸信号研究言语产生的胸腹呼吸机制以及呼吸与韵律间的关系.实验结果表明:言语以胸腹联合式呼吸为主,腹呼吸重置时间早于胸呼吸重置时间和语音起始时间,呼气相时长约等于语音时长.吟诵所需气息量比朗读中大.胸呼吸主要作用是保证足够的气息量,在发音时胸腔保持扩张状态至发音结束.腹呼吸主要作用是,通过腹肌和膈肌稳健收缩,控制气流持续释放,以获得连续的语音.韵律句起始处对应一个胸腹呼吸重置,当韵律句过长时需增加一个呼吸重置.韵律短语边界对应胸腹呼吸间断.多个韵律句或一个段落对应一个呼吸群,一个呼吸群由一个一级呼吸重置和若干个二级、三级呼吸重置构成.本项研究对言语呼吸生理机制的认识和理解具有重要意义,为言语产生呼吸生理建模提供研究基础.
38.一种基于MDT特征补偿的噪声鲁棒语音识别算法
- Xu-Yan Hu;胡旭琰;Yue-XianZou;邹月娴;Wen-Ming Wang;王文敏
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文针对噪声环境下语音识别系统性能下降的问题,提出了一种新的基于语音时频相关性的Mel特征矢量聚类补偿算法(TF-CBFC).该算法首先基于时频点信噪比实现了掩码估计,利用纯净语音信号时域和频域的相关性,实现了时频块(TFB)的有效划分和TFB语音特征聚类.在此基础上,对带噪语音的TFBMel语谱进行特征补偿.采用HTK工具和TiDigits数据库加入不同类别噪声的带噪语音测试结果表明,本文提出的TF-CBFC算法在不同信噪比条件下,获得了较基于频域相关性聚类特征补偿算法更好的语音识别性能.
39.一种基于语音生态学分析的计算机辅助汉语学习系统
- 潘兴德;PAN Xingde
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：以少数民族双语教育和对外汉语教育为应用背景,针对现有计算机辅助汉语学习技术存在的问题,以汉语语音生态学分析结果为基础,结合语音识别、语音评价技术,并融合E-Learning和M-Learning技术,推出一种支持泛平台(包括Windows、Linux、iOs和Android等平台)的计算机辅助汉语学习系统.
40.一种新的检测语音端点及基音的概率模型及方法
- 胡波;肖熙
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文提出了一种基于语音幅度概率模型与隐含马尔科夫模型(HMM)的语音时域分析方法,它同时完成对语音端点的检测、清浊音的判断与基音频率计算.实验表明这种算法在10dB上信噪比的条件下可以得到准确的基音频率和端点位置.
41.语调短语预测中长度约束模型的对比研究
- ZHOU You;周游;LIU Fangzhou;刘方舟
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：从文本中准确地预测语调短语是提高合成语音自然度的关键之一.当前的语调短语预测方法多从词法或浅层句法信息入手,然而自然语流中语调短语的划分不仅与语法结构相关,也受其长度分布规律的约束.本文详细地比较了基于规则和基于概率、嵌入式和后接式、全局最优和局部最优等多种语调短语长度约束模型.实验结果表明,口语中语调短语的规划是一种短时的局部规划,并且对短语长度独立建模的效果优于将短语长度信息直接加入统计分类模型的特征集.
42.元音部分对日本学习者感知普通话鼻韵母的影响
- 张劲松;Zhang Jinsong;汪航;Wang Hang;王祖燕;Wang Zuyan;解焱陆;Xie Yanlu;曹文;Cao Wen
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本研究通过感知实验就元音部分对中日被试感知普通话鼻音尾音节的影响进行了考察研究.实验分为两个部分:音节辅音段+元音稳定段+对应鼻音韵尾段合成语音的感知听辨;音节辅音段+元音稳定段+对应鼻化元音段合成语音的感知听辨.实验结果表明,中日被试对元音部分的依赖性各不相同.中国被试主要依赖鼻化元音段来感知鼻音尾音节,在没有鼻化元音段的情况下,元音稳定段能为中国被试提供一定的前后鼻音感知线索.但是日本学习者在听辨鼻音尾韵母时所依赖的元音特征段倾向不明显,他们倾向于整合整个音节的信息来判断鼻音类型.
43.噪声环境下麦克风阵列语音增强与HMM识别联合处理
- ZHOU Yue-hai;周跃海;LI Fang-lan;李芳兰;TONG Feng;童峰;HONG Qing-Yang;洪青阳
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：针对噪声环境下隐马尔科夫(Hidden Markov Model,HMM)语音识别算法性能急剧下降,传统的麦克风阵列语音增强等信号域消噪算法可通过提高语音信号信噪比进行改善.但是,由于传统的语音增强和特征提取、模式识别是互相独立的两个过程,信号域语音增强处理易造成语音信号中有用信息的丢失,使得信噪比提高后反而导致识别性能下降.本文提出一种信号域语音增强和HMM识别的联合处理方法,该方法首先采用麦克风阵列进行语音增强,然后以带噪语音和增强语音的HMM模型概率似然得分差值作为反馈控制因子从滤除的噪声中提取补偿信息进行语音信号的补偿,从而改善消噪语音的模型匹配性能.噪声背景下的实验结果表明了该方案的有效性.
44.汉语朗读语音中言语情感产生机制与计算模型研究——阶段性结果
- Gao Yingying;高莹莹;Zhu Weibin;朱维彬
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：针对言语情感的生成与衍化问题,以汉语朗读语音为对象,采用言语数据库分析和心理语言学、感知语音学实验相结合的方法,构建言语情感多视角描述方案,并探索各视角内部的组成成分及相互间的关联关系;在此基础上,利用机器学习等计算方法,构建言语情感计算模型,以解决多尺度特征处理及动态衍化过程刻画等关键技术问题.
45.汉语语篇代词回指和名词回指的语音特性研究
- HOU Luying;厚露莹;JIA Yuan;贾媛
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：通过语音实验和统计分析,本文从语音角度对汉语朗读语篇中代词回指与名词回指进行了考察.主要发现有:(1)第三人称代词回指形式“ta”的音高与时长表现与句法位置密切相关,且“ta”位于句首或分句首位置时,其语音表现与篇章层级有关;(2)位于分句首的先行词比名词回指形式要重读,且之前的停顿时长更长.本研究属于语音层面与句法及以上层面的接口研究,可从语音角度丰富汉语篇章回指领域的研究、加深对汉语篇章回指现象的理解,所得结果在语音合成领域具有应用价值.
46.汉语作为第二语言的自然口语韵律的发展研究
- CHENMo;陈默
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：口语韵律特征的设置模式是第二语言学习者言语控制和组织能力发展的主要表现.本文对中、高级汉语水平的美国留学生汉语口语产出的韵律模式进行了多重比较和相关性分析,并将汉语母语者的发音语料作为基线数据进行比较.研究结果表明,美国留学生口语产出的韵律模式跟汉语母语者的既有相似之处,又存在着一定的差异.而且在不同的语言习得阶段,美国留学生口语产出的韵律模式也不同.言语产出的普遍性和第二语言言语产出的自动化程度共同制约着汉语作为第二语言的口语韵律的发展.
47.基于合成质量预测的单元挑选语音合成系统优化方法研究
- Yang Song;宋阳;Zhen-Hua Ling;凌震华;Li-Rong Dai;戴礼荣
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：近年来提出的基于隐马尔科夫模型的单元挑选语音合成方法,较好的解决了传统拼接合成中存在的依赖较多人工干预以及合成效果不稳定性的问题.但在该方法中,综合不同声学统计模型度量时使用的模型权值无法自动训练获得,且人工优化较为困难.本文提出了一种基于合成质量预测的模型权值优化方法.该方法首先收集较少的人工测听结果并采用多元自适应回归样条构建针对不同权值下合成语音质量的预测模型,然后基于该预测模型利用模式搜索算法自动搜索最优权值.实验证明该方法可以有效优化模型权值并改善合成语音的自然度.
48.基于全局词汇信息的中文口语句子标点生成
- CHEN Xiao;陈萧;KE Dengfeng;柯登峰;XU Bo;徐波
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：标点生成对语音识别非常重要,它既增加了文本的可读性和用户体验,又有利于后续自然语言处理模块.本文提出了一种利用纯文本信息添加中文口语句子句末标点的方法.该方法从句子的不同粒度角度,建模全局词汇信息与标点的关系,并使用多层感知器来融合在不同粒度下得到的标点模型,从而实现标点(句号、问号和叹号)生成.实验显示,本文提出的方法相对于基线系统,无加权正确率绝对提高8.9%,达到85.9%, 加权正确率绝对提高4.7%,达到92.2%.此外,本文还考查了训练语料的规模对性能的影响.实验显示,随着训练数据的增加,性能得到一致性的提升.
49.病理声音诊断系统的设计与实现
- FANG Chun-Ying;房春英;LI Hai-Feng;李海峰;ZHANG Man-Cai;张满彩
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：通过听病人的声音、语言、呼吸、咳嗽等各种声响,探究人体的病理变化,是一种医学上的重要诊断手段.有学者运用声谱仪,语声仪等设备对病人的上述声音进行分析.但这些设备需要专业知识强等应用不便之处.本文设计了一种基于声音的计算机辅助诊断系统,从语音信号分析和处理的技术来研究不同疾病所发出的病理声音的差异性,提供客观的量化诊断标准,避免主观和客观因素的干扰,建立基于病理声音的诊断模型,以达到对病症辨别的目的.
50.大词汇量连续语音识别解码器优化研究与实现
- Xiangang Li;李先刚;Chengwei Zhang;张晨炜;Zaihu Pang;庞在虎;Xihong Wu;吴玺宏
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文针对动态扩展解码空间的大词汇量连续语音识别解码器的优化展开研究工作.在不改变识别结果的条件下,分别从声学模型似然打分,词尾语言模型得分查找,语言模型look-ahead得分计算三个方面入手,采用了SSE、GPU加速,非保序完美哈希,静态的look-ahead得分表等方法.特别地,针对静态的look-ahead得分表的方法,提出了基于文法词历史中词的联合概率进行筛选的策略.实验证明上述方法能够在一定程度上提高解码速度,综合使用上述方法,能够使得系统由2.0倍实时提高到约1.3倍实时.
51.非特定人的藏语电话语音数据库及识别实验
- Kong Changqing;孔常青;Guo Wu;郭武
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：语音数据库是语音研究工作的基础,尤其是在语音识别的工作中.在大语种语音数据库比较齐备的情况下,为了促进小语种的研究发展,本文介绍了一个用于非特定人大规模连续藏语电话语音识别数据库的构建工作,采用电话信道录制了超过200人的自然对话过程中双方的语音,长度将近30小时,并且采用标准的藏语对其进行标注.在这个数据库基础上进行了初步的识别实验,采用基于GMM-HMM(基于混合高斯模型的隐马尔科夫模型)的单声韵母结构,得到了38.84%的音素识别正确率.
52.关键词检出的双向跨词解码算法
- Yuchen Liu;刘雨辰;Mingxing Xu;徐明星
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：基于子词声学建模的关键词检出系统具有实时性好、词表可灵活配置的优点。在解码过程中，展开的词内搜索网络在词的首尾未能充分利用上下文相关的子词模型，而跨词的搜索网络具有难展开、展开规模大、复杂性高的缺点。本文在词内搜索网络上进行跨词搜索，通过反向搜索网络，逆向输入语音，与正向搜索交汇的双向搜索方法来降低剪枝风险。实验结果表明，跨词搜索算法相较于词内搜索有显著的性能提升，在两个测试集上分别相对提高27.8%、18.4%，双向搜索策略对有剪枝的跨词搜索有一定的性能提升，分别相对提高1.9%、1.7%。
53.汉语口语语篇结构表示体系构建
- 贾媛;李爱军;党建武
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：面向口语语篇中丰富的语言学和副语言学信息,本研究提出口语语篇结构的分层表示体系,内容主要包括:句型句式结构表示体系、语篇修辞结构表示体系以及语篇信息结构的表示体系.通过这一表示体系的描述,可以对口语语篇中从句子层面到语篇层面的结构信息和交际信息的类型进行描述,并从中抽取特征集合,为语篇信息建模和识别提供可供计算的参数.
54.基于HMM语音合成的语调控制
- WANG Yongxin;王永鑫;JIA Jia;贾珈;ZHANG Yuchen;张雨辰;CAI Lianhong;蔡莲红
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：语调是语音分析和合成领域关注的重要课题,可计算的语调模型是实现语调控制的关键.本文分析了大规模语句的音节音高在句子中的变化,归纳了语调模式.陈述语调主要表现为基调的升降和音高下倾;疑问语调主要特点是疑问焦点的音高提升和调型变化.本文提出了一种陈述语调归一化描述方法,以及疑问语调调型差异模型.利用HMM语音合成系统的控制机制,实现了对语调的控制.试验表明,基于陈述句语调归一化描述方法模拟了陈述句语调的变化,基于疑问语调调型差异模型实现了陈述到疑问语调的转换.语调控制使合成语音的表现力得到了提高.
55.基于PLAR的说话人确认系统的噪音鲁棒性研究
- YIN Cong;尹聪;BAI Jing;白静;GONG Cheng;龚宬;ZHANG Chen Hao;张陈昊;ZHENG Thomas Fang;郑方;Waleed H.Abdulla;Waleed H.Abdulla
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：针对MFCC特征的说话人确认系统在干净语音环境下具有很高识别率,但在噪音环境下急剧下降的缺点,本文构建了基于PLAR特征的说话人确认系统,并对系统的噪音鲁棒性进行研究.PLAR又称为感知对数面积比系数,是一种运用人类听觉感知原理来表征说话人的个性信息的特征,具有运算速率快、抗噪性能强等特点.结果表明,PLAR特征具有较强的噪音鲁棒性,但抗噪性能与噪声种类相关,对平稳噪声的敏感度高于非平稳噪声.通过将PLAR与MFCC进行特征域和分数域的融合,体现出两者之间存在着互补性,二者的融合有效提高了说话人确认系统的识别性能.
56.基于SDTW和后验特征的中文语音模式发现
- Peng Yang;杨鹏;Lei Xie;谢磊;Hongjie Chen;陈虹洁
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：语音模式发现是从语音流中检测出重复出现的音节、词或短语等语音单元的任务,是众多语音与语言处理任务中的一项基础工作.本文基于分段DTW(SDTW)算法,尝试直接在中文语料上进行语音模式发现.主要工作包括两方面:1)MFCC特征在衡量两个语音片段声学相似度上不够鲁棒,特别是针对多说话人语料,语音模式发现的效果大打折扣.为此,本文尝试了基于音素后验概率(Posteriorgram)的特征表示方法.实验表明,在多说话人和单说话人的语料上,音素后验特征均可以得到比MFCC更好的效果.2)SDTW算法靠人工设定的滑动窗在连续的语流上进行分段匹配,效果受限,且计算复杂度大.为此,本文尝试了用词边界确定分段进行语音模式发现,这种设置可以看作基于DTW进行模式发现的效果上限.实验表明,在预知词边界的情况下,效率和正确率都得到了明显提升.
57.基于Viterbi-GMM的文本提示型说话人识别系统
- Lv Weichen;吕伟辰;Hong Qingyang;洪青阳;Wang Sheng;王胜;Liang Dawei;梁大为
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：目前,说话人识别的方法多种多样,性能也是各有特色.其中,基于高斯混合模型和通用背景模型(GMM-UBM)的识别方法以其独特的鲁棒性,在众多说话人识别方法中脱颖而出.与此同时,录音回放攻击也一直是说话人识别技术的一大安全隐患,GMM-UBM系统也不断受到来自录音冒充者的困扰.为此,本文在GMM-UBM系统的基础上提出一种文本提示型的方法来克服这一难题.本文采用Viterbi切分语音的方法,从顺序结构的语音中分离出每个字的语音片段,将语音波形拼接获得语音句子,将其训练后得到该句子模型,识别时就类似于文本相关的方法.实验表明,该说话人识别系统不仅可以有效的防止录音冒充,而且具有很好的识别性能.
58.基于词位信息的HMM中文分词算法
- 刘善峰;李雅;陶建华
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：由字构词的分词方法现在已经是中文分词中的常用的分词方法,隐马尔科夫模型(Hidden Markov Model,HMM)也被广泛的应用于各种领域,其中包括中文信息处理.为了解决由字构词的分词方法与HMM相结合时所产生的问题,本文提出了一种改进的HMM分词方法,即加窗的HMM分词算法.该方法有效的解决了词位信息和HMM算法结合时由HMM算法自身的独立性问题所带来的分词的准确率不高的问题,能很好的结合上下文的统计信息,使基于词位信息的HMM分词在准确率和召回率上有了很大的提高,并且在未登录词的识别上也有了一定的提高.
59.基于多GPU的深层神经网络快速训练方法
- XUE Shaofei;薛少飞;SONG Yan;宋彦;DAI Lirong;戴礼荣
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：近年来,深层神经网络(Deep Neural Network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型.然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时.为提高DNN的训练效率,本文研究了基于多图形处理器(Graphic Processing Unit,GPU)的DNN快速训练算法.在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法,在4个GPU下训练速度相比单GPU有约3.3倍的提升.实验结果表明该快速训练方法可以显著提升DNN模型的训练速度.
60.基于耳蜗滤波器倒谱参数的音频频带扩展方法
- Liu Xin;刘鑫;Bao Changchun;鲍长春
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：音频频带扩展可以根据接收到的宽带信号在解码端人为地重建出丢失的高频成分,提升重建音频的听觉质量.本文基于耳蜗滤波器倒谱参数提出了一种新的盲目式音频频带扩展方法.该方法模拟人耳外耳听觉系统,提取耳蜗滤波器倒谱系数来描述宽带音频的频谱信息,并利用高斯混合模型对高频成分频谱包络进行估计.最终结合基于最近邻匹配的高频谱细节恢复方法,实现了宽带向超宽带音频的有效扩展.主客观测试结果表明,所提方法的重建音频质量优于基于传统音频特征的扩展方法.
61.基于古音系统的汉语方言语音合成研究
- Xiaoming Huang;黄小明;Ziyu Xiong;熊子瑜
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本研究采用HTS语音训练合成工具和STRAIGHT语音合成器,尝试在未知某方言(或土语)的实际语音系统的条件下开展相应的语音训练合成工作.为实现这一目标,本研究提出一种采用古音系统来转写汉语字音,并在此基础上设计相应的问题集以实现语音训练合成的方法,并开展了以下工作:(1)设计了一套面向汉语方言语音合成的通用发音文本;(2)录制了一些汉语方言点的合成语音语料库;(3)搭建了一套基于古音系统的汉语方言语音合成平台.普通话的合成实验结果表明:基于古音系统训练合成出来的语音,在可懂度和音质上跟基于普通话拼音系统训练合成出来的语音非常接近.这表明基于古音系统进行汉语方言语音合成的方法是有效的、可行的.
62.基于无监督迁移分量分析的语种识别
- 徐嘉明;张卫强;刘加;夏善红
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：训练数据和测试数据之间由于信道等差异而引起的不匹配会严重影响语种识别的性能.而在实际应用中,通常只能获得少量的和测试数据匹配的标注数据(目标域数据),以及大量的和测试数据不匹配的标注数据(源域数据).本文利用迁移学习的方法,通过无监督迁移分量分析(unsupervised transfer component analysis,UTCA),可以合理利用上述两种数据寻找到一个低维子空间,在该空间中,源数据和目标数据之间的分布差异最小,而且数据中有利于分类的属性得以保留,从而提高系统识别性能.实验表明,相对于基线系统,该算法对30秒和10秒语音的识别性能分别有24.7%和8%的提高.
63.基于音节的维吾尔语大词汇连续语音识别系统
- Nurmemet Yolwas;努尔麦麦提·尤鲁瓦斯;Wushour Silamu;吾守尔·斯拉木;Reyiman.Tursun;热依曼.吐尔逊
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：维吾尔语是一种黏着语,基于单词的语言模型不太适合于维吾尔语大词汇连续语音识别任务.本文提出了更适合维吾尔语的基于音节的语言模型,并且引入了最大匹配分词算法,评价了音节语言模型在大词汇连续语音识别任务中的单词识别性能.实验结果表明,基于音节的语言模型在未登录词和模型复杂度等方面表现出比基于单词的语言模型更加优越的性能,并且使识别系统的单元错误率比基于单词的系统相对减少了50%.因此,在有些语音识别任务上可以将音节作为识别单元.
64.计算机田野调查及处理系统
- Han Xia;韩夏;Li Long;李龙;潘悟云
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：计算机辅助语言的田野调查和校对整理工作的关键在于批量录音、记音和声音听辨相结合.本系统是一款面向汉语方言和少数民族语言的田野调查及语料处理系统,通过将多语言点管理、调查录音、记音、声学分析、语料校对、归纳音系等多种调查和整理功能相结合,并按照严格的国际音标记音规范对语料进行自动检测修正,不仅极大地提高了语言调查、整理效率和准确性,更有效地促进了语言资料的交流使用能力,是一套完整的语料采集和处理方案.
65.码书分类重排矢量量化方法及其应用研究
- Fenglian Li;李凤莲;Xueying Zhang;张雪英;Zizhong John Wang;王子中;Hongchun Li;李红春
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：矢量量化可有效降低语音编码速率,但目前已有的多级分裂矢量量化、转换分类分裂矢量量化方法等都存在存储需求、计算复杂度以及解码语音质量等不能达到良好折衷的缺陷,为此,本文提出了一种码书分类重排矢量量化方法,该方法通过将设计好的码书进行分类重排以降低码书搜索范围,并将该方法与多级分裂矢量量化结合,提出了码书分类重排多级分裂矢量量化方法.在量化比特及码书大小不变的前提下,实验结果表明,该方法可达到透明量化效果,量化时的计算复杂度最大降幅可达到多级分裂矢量量化方法的90.24%.
66.蒙古语韵律短语的分类研究
- 敖敏;白音门德;熊子瑜
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：文本基于蒙古语朗读语音数据库,系统地考察了蒙古语的韵律短语分类问题.研究表明,在蒙古语的朗读语句中,有必要进一步划分韵律大短语和韵律小短语.这两类韵律短语在其边界末的停顿时长和音阶特性等方面都存在系统差异:在韵律短语末的停顿时长方面,有无显著停顿是区分韵律大短语和韵律小短语的重要线索;在韵律短语末的音阶特性方面,韵律大短语的末尾音高值通常会降得更低.
67.普通话“中轻重”词语轻声感知的初步研究——以L_H调境(“老实说”等)为例
- 胡瀚;HU Han;曹文;CAO Wen;张劲松;ZHANG Jinsong
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本研究的主要任务是探讨普通话“中轻重”模式的词语中,轻声音节的音高和时长对“L+N+H”声调组合感知的影响.实验以普通话“老实说”为原始语音样本,调节“实”的音高和时长,合成新的语音,并由15名中国被试进行听辨.结果发现:1.当中字音节基频起点为0st及6st时,它易被听辨为阳平和轻声;当中字基频起点为12st时,它易被听辨为阴平和去声.2.不同的基频区间范围内,时长对轻声感知的影响不同,基频起点越低,时长的影响越大;基频起点越高,时长的影响越小.3.调形的升降起伏对轻声的感知存在影响,降调调形在听辨结果中所占比例最大,升调最小.
68.情感语音的嗓音参数提取与分析
- Li Xiangwei;李向伟;Fang Qiang;方强;Li Aijun;李爱军;Wang Hong;王红
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文主要寻找嗓音音质中能够区分情感的因素,为下一步的情感语音合成作准备.基于同一发音人的七种不同情感(七种情感分别为:悲伤、高兴、害怕、厌恶、生气、惊讶、中性)语音样本提取了基频抖动jitter、振幅抖动shimmer、谐波噪声率HNR、基频均值meanF0、声门波震动幅度Pulse Amp、声门波形最大下降率MFDR等与嗓音声源密切相关的8个声学参数并进行统计分析.结果表明在不同情感下一些参数如NAQ,MFDR具有显著性差异,而其他参数如shimmer,h1-h2差异较小.在两种具体情感对组合的分析过程中,各个参数表现出的差异性也有所不同.
69.日本学生汉语发音节奏的自动评测初探
- SHI Shuju;时书菊;ZHANG Jinsong;张劲松;Xie Yanlu;解焱陆
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：现有研究显示,受自身第一语言影响,第二语言学习者的目标语发音节奏不同于母语发音者,而节奏对话语者的发音表达和听话者的听觉感知都有重要的作用.为了给汉语学习者提供及时客观的反馈,提高他们的学习效率,本文基于对日本学生汉语发音语料库的分析,结合描述节奏属性的参数,提出了一种客观评价日本学生汉语发音节奏的方法.在本部分实验中,实现了语料种类识别和日本学生汉语发音节奏水平的自动评价.其中语料种类使用GMM模型,识别正确率为78.3%,自动评价打分使用LDA模型,人机相关性系数为0.55.实验结果表明,所使用的实验方法和模型较为有效,但是节奏的自动评价的实现较为复杂,还有更多问题有待进一步研究.
70.融合LPC和MFCC的说话人识别技术研究
- Yanhu Mao;毛燕湖;Yicheng Zeng;曾以成;Yuying Chen;陈雨莺
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：语音个性特征提取是说话人识别技术中最重要的一环.本文针对传统特征参数LPCC和MFCC的优缺点,将基于声道模型的线性预测系数LPC和基于听觉机理的美尔倒谱系数MFCC融合,得到新的特征参数LPMFCC.特征参数LPMFCC既能反映出说话人的声道特性,又同时具有了与MFCC一样的鲁棒性和利用人耳听觉原理的特点.为避免时间规整问题,本文采用了矢量量化法的说话人识别系统.通过MATLAB仿真,结果表明,提出的特征参数LPMFCC较单独使用MFCC或将LPCC系数和MFCC系数加权组合在识别率上有显著的提升.
71.山东方言区英语学习者附加疑问句的语调特征
- SHAO Pengfei;邵鹏飞;JIA Yuan;贾媛;LI Aijun;李爱军
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文通过考察山东方言区的英语学习者和美国发音人的附加疑问句的语调特征差异,发现英语学习者很少在附加疑问部分用降调,用升调表达的方式和美国发音人比较,音高域值较大,句末音高值要比美国发音人高,在附加疑问之前的最后一个单词的重读音节上,都有一个抬高音高的趋势.另一个明显的特征就是英语学习者在附加疑问之前停顿时间更长.本文也考察了英语学习者一般疑问句的语调特征,句末升调部分和美国发音人的差异不如附加疑问句的升调部分和美国发音人的差异明显.
72.说话人识别系统的特征参数提取方法及优化
- Tiantian Wang;王甜甜;Honglian Li;李红莲
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文旨在从说话人的语音信号中获得一组能够描述语音信号特征参数的特征值.在处理语音信号时,我们必须先对大量的样本进行参数化,也就是提取较少的有代表性的部分数据来表征某一段语音信号,这个过程就是特征提取.本文介绍了在语音识别中较为常用的特征参数,MEL倒谱系数MFCC的一般求取过程,并在此基础上着重介绍了在语音识别中取得一定良好效果的Mel倒谱提取的改进算法,平滑MFCC参数的提取方法.
73.太原新派南郊方言单元音实验研究
- 张超;Zhang Chao;贾媛;Jia Yuan;白静茹;Bai Jingru;李爱军;Li aijun
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：受普通话普及,城市化发展等因素的影响,太原南郊方言有了一定的变化.本文采用声学实验的方法对以小店区为代表的太原新派南郊方言单元音进行研究,通过听辨及对语图的观察,发现太原南郊方言的单元音由老派方言的九个单元音变化为新派的六个,分别为:[?]、[i]、[?]、[?]、[u]、[y],根据从实验中提出F1、F2数据,对这六个单元音进行客观的声学描写,并在此基础上绘制出元音声学图.
74.维吾尔语浊塞音的声学特征分析
- Askar Hamdulla;艾斯卡尔·艾木都拉;Sardar Yalkun;赛尔达尔·雅力坤;Zulpiye Aman;祖丽皮亚·阿曼;Dilmurat Tursun;地里木拉提·吐尔逊
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文从实验语音学的角度出发,利用“维吾尔语语音声学参数库”,选择其中包含浊塞音b、d、g的466个单音节及多音节词,对它们声学参数进行统计分析,归纳了其共振峰,音强,时长,嗓音起始时间和无声段的分布模式.根据声学语音学的规律对各浊塞音的声学特点进行了深入的研究,通过分别对浊塞音发生清化和保持原来浊特点时的特征参数同其对立清塞音相应的特征参数进行比较,探讨了浊塞音的清化现象.
75.新疆民族地区小学生汉语普通话声调感知和发音分析
- LIU Yali;刘亚丽;GUO Jingsui;郭径遂;MENG Zihou;孟子厚
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：通过听觉感知和发声的现场实验调查和录音分析,考察了新疆民族地区小学生汉语普通话声调习得的特点和主要问题.实验结果表明:在听觉感知上,阴平和阳平、阳平与上声容易混淆;阴平和上声、上声与去声听辨率最好;在发声上,声调调域而非调形是习得的主要问题;地域、经济、性别、民族、年龄、学校教学资源以及母语等因素均不同程度的影响该民族地区小学生汉语普通话的语音习得.
76.新闻朗读的呼吸节奏与音高的关系初探
- Zhang Chunlian;张春连;Kong Jiangping;孔江平
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文在汉语音高相关研究的基础上,通过呼吸带传感器所记录的呼吸节奏变化,来分析呼吸节奏与音高(基频)之间的关系.本文按照大、中、小呼吸单元(一、二、三级呼吸)来对语料进行统计分析.一般情况下一个自然段为一个大呼吸单元,自然段里的复句对应中级呼吸单元,分句或句子成分对应小呼吸单元.依据呼吸重置研究了基频重置的情况,总体而言:1)呼吸重置和基频重置是规律对应的;2)在三个级别的呼吸节奏中,呼吸的重置(截距)相对比较稳定;3)一级呼吸重置中的基频重置并不大于二、三级呼吸重置的基频重置;4)基频的斜率和时长成正比;5)基频的斜率和截距成反比.
77.行车环境下基于二值语谱图的声学事件检测
- 朱强华;郑铁然;韩纪庆
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：对行驶中的无人驾驶车辆而言,其车外声音信号中包含有许多重要的声学事件,感知这些声学事件对智能行车决策有重要的意义.然而该声音也往往伴随着很强的噪声,且其具有多变性和持续性等特点.由于短时声学特征极易被这种强噪声污染,因而采用传统的基于短时特征的模式识别方法来检测这些声学事件,效果并不理想.本文利用在含噪声音的语谱图中目标声学事件的变化轨迹在视觉上极易辨别的特点,提出一种行车环境下的声学事件检测方法.该方法把声音转换为对应的二值语谱图,然后采用图像包含检测算法进行检测.实验表明,在行车环境下该方法较基于MFCC长时统计特征和SVM分类器的方法,识别性能和鲁棒性明显提高.
78.一种基于单AVS的空间目标语音增强方法
- Yue Xian ZOU;邹月娴;Peng WANG;王鹏;Wen Min WANG;王文敏
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：空间目标语音增强技术在移动语音应用中具有重要的实用价值.为有效地抑制空间干扰语音和背景噪声,本文利用声学矢量传感器(AVS)结构的特殊性和其各输出分量间的三角函数关系,在频率域设计阻塞滤波器获得非目标语音信号分量的估计,借助从非语音段获得的背景噪声信息以及AVS各输出分量之间的函数关系,推导目标语音信号的功率谱,从而实现了对AVS全向分量的最佳维纳滤波获得增强语音.仿真实验表明,该方法能够有效抑制非相干的空间语音干扰源和背景噪声.本方法采用单AVS,计算复杂度低,具备移动设备上的应用优势.
79.一种嵌入式中文语音合成系统非周期成分音节层建模方法
- Chaomin Wang;王朝民;Xiang Xie;谢湘;Jingming Kuang;匡镜明
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：当前主流参数化语音合成系统大多采用混合激励的源-滤波器模型,而非周期成分是影响合成音音质的重要参数.面临的问题一个是如何更有效的对非周期成分建模;另外在嵌入式语音合成系统中非周期成分的模型规模也需要尽可能压缩.本文通过分析得出非周期成分在中文音节中前后帧存在较强相关性,所以在一个音节内一段固定频段上,可以对非周期成分形成的一条连续轨迹通过离散余弦变换(DCT)来拟合.实验证明,通过本文提出的方法,保持合成音音质与基线系统相当的情况下,BAP模型的大小可以压缩到原来的6.64%.
80.引入领域知识的基于《知网》词语语义相似度计算
- Xinyuan Feng;冯新元;Jianguo Wei;魏建国;Wenhuan Lu;路文焕;Jianwu Dang;党建武
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：词语的语义相似度计算是语义处理的基础之一,在知识抽取、文本分类、词义排歧、基于实例的机器翻译等各领域有广泛应用.本文通过引入敏感词集的概念即引入领域知识,解决了传统的基于《知网》的相似度计算方法中没有考虑词语间相似度与领域知识相关的不足,实现了对词语在不同知识领域赋予不同的相似度.同时,提出了一种新的义原相似度计算方式,该方法定义了两个义原间三种不同的相对位置关系,并据此给出三种相应的计算方法.实验表明本研究的计算结果更符合《知网》的结构.
81.语音驱动虚拟说话人的自然头动生成
- Bingfeng Li;李冰锋;Lei Xie;谢磊;Pengcheng Zhu;朱鹏程;Bo Fan;樊博
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文研究了从语音信号预测伴随头动的方法.基于HMM的头动合成方法的效果有赖于头动模式的划分和头动模式的正确识别.为此,本文尝试了不同头动模式划分方法的头动合成效果.由于语音和头动之间是非确定性的多对多的映射关系,很难用固定的类别描述清楚,因此该类方法的头动模式识别率不高,头动合成效果受限.为此,本文尝试采用BP神经网络的非线性回归方法,学习语音与头动之间的映射关系,实现语音信号到头动参数之间的直接连续映射,避免了HMM方法中头动模式不明确、头动模式识别错误带来的负面影响.实验表明,基于BP神经网络的回归方法有效地提高了语音到头动预测的准确度和头动合成的自然度.
82.元音归一化的对数商模型
- Zhou Xuewen;周学文
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：本文对1位普通话发音人、2位彝语发音人以朗读语速发音的元音的三个共振峰F1、F2、F3和66个美国英语发音人元音的三个共振峰F1、F2、F3的平均值的相对关系进行了分析.结果显示,元音共振峰之间存在的对数商关系(以下称Z值)是元音归一化的理想方法,即同一元音的F2的对数与F1的对数的商(Z1=logF2/logF1)、F3的对数与F2的对数的商(Z2=logF3/logF2)保持着非常稳定的关系,它们的标准差与平均值之比在3%以内,不同发音人Z值的波动幅度在3%以内.实验结果说明元音共振峰的Z值反映了元音本身的特性,与发音人无关,是元音归一化的理想方法,在语音比较、语音识别、语音合成等领域具有广泛的应用前景.
83.基于鉴别性向量空间模型的语种识别
- LIU Weiwei;刘巍巍;ZHANG Wei-Qinag;张卫强;LIU Jia;刘加
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：传统语种识别中训练数据库的规模庞大,对于语种分类有鉴别性的信息有大量重叠,且训练数据的不同信道条件、不同来源都会对训练和测试有一定干扰.针对这些问题,提出一种鉴别性向量空间模型(Discriminative-Vector Space Models,D-VSMs)建模方法.D-VSMs能够自动过滤训练集中信息重叠的数据,使得每一个支持向量机的训练数据都很有针对性,用很少的训练数据能取得很好的分类效果.在美国国家标准技术局2009年语种识别测试(NIST LRE 2009)中,D-VSMs只用了原测试数据的30%参与训练,计算量是传统平行音素识别器后接向量空间模型(PPRVSM)的10%,等错率在30s、10s和3s的测试条件下分别比传统PPRVSM下降了12.75%、15.89%以及7.33%,是一种有效的语种识别技术.
84.基于卷积记忆模型的汉语知觉训练分析
- Chen Yue;陈月;Xie Yanlu;解焱陆;Zhou Zhaolian;周照莲;Yu Xueping;俞雪萍;Sun Yue;孙悦;Jinsong Zhang;张劲松
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：传统的艾宾浩斯遗忘记忆模型能够分析语音知觉训练中单次刺激教学的场景,但对多次学习和记忆的情况难以分析.本文提出了一种基于卷积的多次记忆模型,该模型将人的记忆能力和语音刺激样本分别模拟为卷积运算中的系统函数和输入函数,将记忆的情况模拟为输出函数,从而模拟和衡量在多次刺激样本下的输出记忆情况.通过模拟实验发现,所提出的模型能够较好的拟合六名汉语学习者学习汉语二三声调的记忆情况.通过该模型,分析被试语言的学习记忆情况,能够拟合出在特定时间点被试的记忆量,进而可以制定合理的学习刺激点.该模型也为研究学习和记忆的关系提供了一个新的思路.
85.基于空间声场扩散信息的混响抑制方法
- Wang Xiaofei;王晓飞;Jiang Kaiyu;姜开宇;Guo Yanmeng;国雁萌;Fu Qiang;付强;Yan Yonghong;颜永红
- 《第十二届全国人机语言通讯学术会议（NCMMSC`2013）》 | 2013年
摘要：在远讲语音应用中,房间混响严重影响了语音的质量和主观听觉感受.在信号源与系统均未知的前提下,当前的混响抑制方法普遍存在混响不能准确建模的问题.本文利用双通道混响语音信号,根据语音直达声和混响声所反映出的声场扩散信息,提出一种基于空间声场扩散信息的时频递归平均混响功率谱估计方法,并通过谱增强的方法实现对混响声的有效抑制.本文提出的算法在实录的房间冲击响应(RIR)上实验,算法在分段信混比(Segmental SRR)、对数谱距离(LSD)以及主观语音质量评估(PESQ-MOS)方面都有性能提升.