摘要:在统计机器翻译系统中,目标语言的语言模型一般以词为基本单位。然而面对汉语、日语等存在不同分词标准、词语颗粒度不易确定、存在切分不一致和容易产生分词错误的语言来说,语言模型的单位难以取舍。本文研究了两种语言模型:基于词和基于字的语言模型,比较他们各自的优缺点,以比分析分词对语言模型质量的影响,然后提出方法将这两种语言模型融合到SMT解码中。实验结果表明,基于字的语言模型在测试集上的交叉熵要低于基于词的语言模型。当应用于SMT时,基于字的语言模型和基于词的语言模型相比,尤其在是语言模型领域和机器翻译测试语料的领域一致时,机器翻译的性能较高。而无论是否领域一致,融合两种语言模型总能得到最优的翻译结果。