摘要:本文提出一种利用单语言网页挖掘辅助汉英人名反向音译的方法。该方法由两个阶段组成:第一个阶段是矫正过程,统计音译结果被划分成音节,然后将这些音节组成查询,利用基于音节的搜索过程从一个大规模Web词典中搜索与音译候选相似的单词,使得错误的音译候选得到纠正,从而提高召回率;第二个阶段是重排序过程,将矫正过的音译候选作为查询在Web中提取其上下文信息和点击率信息,然后利用AdaBoost分类器判断其是否是正确的音译。这个阶段可以调整每个音译候选的得分,使之更合理.从而提高音译的精确率。实验结果显示,通过矫正过程,音译的封闭测试top-100召回率从72.52%提升到85.78%,开放测试Top-100召回率从41.73%提升到59.28%。通过重排序过程,音译的封闭测试top-5精确率从42.83%提升到76.35%,开放测试top-5精确率从19.69%提升到52.19%。实验结果显示,这种方法适合于反向音译任务。