一种基于EM非监督训II练的自组织分词歧义解决方案

王伟; 钟义信; 孙建; 杨力

首页> 中文期刊>中文信息学报 >一种基于EM非监督训II练的自组织分词歧义解决方案

一种基于EM非监督训II练的自组织分词歧义解决方案

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

摘要：本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想，每个句子所对应的所有(或一定范围内)的分词结果构成训练集，通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法，对于每个句子至少带有一个歧义的测试集的正确切分精度达到85.36％(以句子为单位)。%This paper is mainly to present a word segmentation ambiguity resolution scheme based on unsupervised training. According to the idea of EM, a language model is built increasingly by collection the fractional counts of patterns (such as bigram pair)from the augmentations of all the segmentation candidates of a sentence. The learned language model is incorporated into a statistical segmentor. Experiments show that this scheme can resolve 85.36 96 ambiguity on test set each sentence of which has at least one ambiguous part(and the accuracy rate is based on sentence).

著录项

来源
《中文信息学报》|2001年第2期|38-44|共7页
作者
王伟; 钟义信; 孙建; 杨力;
展开▼
作者单位

北京邮电大学智能中心181#??北京??100876;

北京邮电大学智能中心181#??北京??100876;

北京邮电大学智能中心181# 北京 100876;

北京邮电大学智能中心181# 北京 100876;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
EM算法; 分词歧义; 非监督;

相似文献

中文文献
外文文献
专利

1. 试析句子阅读中的分词加工——含"交集歧义"语段的非歧义句二语习得实验研究 [J] . 陈凡凡 . 云南师范大学学报（对外汉语教学与研究版） . 2008,第003期
2. 基于无监督学习的专业领域分词歧义消解方法 [J] . 修驰 ,宋柔 . 计算机应用 . 2013,第003期
3. 一种基于词频歧义消解的通用中文分词法 [J] . 彭琦 ,朱新华 ,陈意山 . 广西师范大学学报（自然科学版） . 2016,第001期
4. 基于词语搭配关系的一种中文分词歧义性消除方法 [J] . 郭丙华 ,俞亚 ,李中华 . 计算机应用与软件 . 2016,第010期
5. 一种基于局部歧义词网格的快速分词算法 [J] . 张国兵 ,李淼 . 计算机工程与应用 . 2008,第012期
6. 基于最大匹配和歧义检测的中文分词粗分方法 [C] . 李国和 ,刘光胜 ,吴卫江 . 2010全国文档信息处理学术会议 . 2010
7. 基于带词长的词典机制和规则判定的歧义消解算法的中文分词技术的研究 [A] . 王崇 . 2013

一种基于EM非监督训II练的自组织分词歧义解决方案

摘要

著录项

相似文献

相关主题

期刊订阅