要解决的问题:提供一种在不遗漏信息的情况下缩短句子的方法。解决方案:用于生成用于训练统计机器翻译的训练数据的方法28设有用于准备包括多个规定语言的句子的语料库的步骤,用于将语料库12中的相似句子聚类为多个的步骤。在簇16中,从多个簇16中选择的用于选择粒径的簇的步骤18,在所选择的粒径的各个簇中,选择满足规定标准的长度的一个句子的步骤18,步骤18,用于使所选句子大小的各个簇中的每个句子和一个所选句子成对。
版权:(C)2004,日本特许厅和日本国家唱片公司
公开/公告号JP2004252495A
专利类型
公开/公告日2004-09-09
原文格式PDF
申请/专利号JP20020272481
申请日2002-09-19
分类号G06F17/28;
国家 JP
入库时间 2022-08-21 23:29:42