语言建模中最小化样本风险算法的研究和改进

袁伟; 高剑峰; 步丰林

首页> 中文期刊> 《软件学报》 >语言建模中最小化样本风险算法的研究和改进

语言建模中最小化样本风险算法的研究和改进

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

目前,一些主流的判别学习算法只能优化光滑可导的损失函数,但在自然语言处理(natural language processing,简称NLP)中,很多应用的直接评价标准(如字符转换错误数(character error rate,简称CER))都是不可导的阶梯形函数.为解决此问题,研究了一种新提出的判别学习算法--最小化样本风险(minimum sample risk,简称MSR)算法.与其他判别训练算法不同,MSR算法直接使用阶梯形函数作为其损失函数.首先,对MSR算法的时空复杂性作了分析和提高;同时,提出了改进的算法MSR-II,使得特征之间相关性的计算更加稳定.此外,还通过大量领域适应性建模实验来考察MSR-II的鲁棒性.日文汉字输入实验的评测结果表明:(1) MSR/MSR-II显著优于传统三元模型,使错误率下降了20.9%;(2) MSR/MSR-II与另两类主流判别学习算法Boosting和Perceptron表现相当;(3) MSR-II不仅在时空复杂度上优于MSR,特征选择的稳定性也更高;(4) 领域适应性建模的结果证明了MSR-II的良好鲁棒性.总之,MSR/MSR-II是一种非常有效的算法.由于其使用的是阶梯形的损失函数,因此可以广泛应用于自然语言处理的各个领域,如拼写校正和机器翻译.

著录项

来源
《软件学报》 |2007年第2期|196-204|共9页
作者
袁伟; 高剑峰; 步丰林;
展开▼
作者单位

上海交通大学;

计算机科学与工程系;

上海;

200230;

Natural Language Processing Group;

Microsoft Research;

Redmond 98052;

USA;

上海交通大学;

计算机科学与工程系;

上海;

200230;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
语言建模; 判别训练算法; 输入法编辑器; 最小化样本风险; 领域适应性建模;

相似文献

中文文献
外文文献
专利

1. 一种改进的非凸秩最小化算法及其在矩阵恢复中的应用 [J] . 汪太月 ,戴燕青 . 湖北理工学院学报 . 2015,第001期
2. 一种改进的非凸秩最小化算法及其在矩阵恢复中的应用 [J] . 汪太月 ,戴燕青 . 湖北理工学院学报 . 2015,第001期
3. 模糊K近邻分类器在邻域风险最小化算法中的应用 [J] . 杞娴 ,殷英 ,戴琳 . 昆明理工大学学报：理工版 . 2007,第6期
4. 基于WEKA的序列最小化算法的改进研究 [J] . 王朝辉 ,黎鑫 . 工业控制计算机 . 2012,第008期
5. 改进遗传算法在计算机数学建模中的应用研究 [J] . 张琳娜 . 电子设计工程 . 2021,第019期
6. 模糊邻域风险最小化算法 [C] . 杞娴 ,胡光华 ,徐天泽 . 第四届中国Rough集与软计算学术研讨会 . 2004
7. 最小化样本风险算法在语言建模中的应用 [A] . 袁伟 . 2006

语言建模中最小化样本风险算法的研究和改进

摘要

著录项

相似文献

相关主题

期刊订阅