摘要:难度适当,体积精简,富含各类语音单元的中介语录音语料库,不仅仅能节约录音时间,减少录音成本,间接影响后续标注,还为研究二语学习者的语音产出现象及产出规律,研究二语学习者的发音偏误等奠定了基础.针对传统中介语语料库文本冗余,语音单元类型覆盖不全,分布不均匀的问题以及汉语二语学习者在连续语流中特定音段,连读变调等发音困难的特点,本文设计了小体积的涵盖所有可能的中文音节类型和韵律边界下的声调三音子类型中介语语料库.通过改进的least-to-most-ordered算法从14本初级二语教材中选取了103个句子,涵盖394种声韵母类型和174种声调三音子类型,缺失19种不常见的声韵母类型,6种句中不会出现的声调三音子类型.相对于传统的301句中介语语料库,语音单元类型更全面,分布更均衡,且只用了约一半数量的字词句.且通过统计发现所得中介语语料库中,83.5%的词语难度在HSK4词表以下,13.8%在HSK5,HSK6词表难度,剩下的2.7%为拟声词,人名地名等.