要解决的问题:提供一种复合单词中断估计装置,方法和程序,用于估计预先在词典中注册的单词以及未注册的单词是否是复合单词,并且估计适当的单词。当单词是复合单词时,请中断位置。
解决方案:该复合词中断估计装置包括:学习数据存储部,用于存储表示多个词中的每一个是否是由多个词素构成的复合词以及多个词之间的中断位置的信息。在复合词的情况下构成复合词的语素的变化;相似度计算部分,用于计算通过向量化处理部分使用包含在单词中的每个字符的特征值而矢量化的未知单词的向量与存储在多个学习数据存储部分中的已知单词的每个向量之间的相似度;估计部分,用于估计未知词是否是复合词,并且基于相似度来估计作为复合词的未知词的词素之间的中断位置。
版权:(C)2010,日本特许厅&INPIT