要解决的问题:提供一种汉字复合词分割方法和汉字复合词分割装置,其中,能够以超高精度正确地分割包括日语文件中包括的连续汉字串的汉字复合词,并且各个分开的汉字串的可靠性提高到可以实际使用汉字串的程度。
解决方案:汉字复合词划分方法被配置为通过参考日语字典来划分划分对象的汉字复合词,其中在划分包括连续汉字的汉字复合词时,基本词是基础字符串和与基本单词相对应的词性相互关联并记录,并且分词模式词典中包含划分模式,该划分模式指示在划分后配置的各个汉字字符串的字符数阵列汉字复合词与词性阵列模式的划分模式中存在的模式相互关联,该模式表示与在划分汉字复合词之后配置的各个汉字字符串相对应的部分语音,并按汉字复合词的字符数分类并记录。
版权:(C)2011,日本特许厅&INPIT
公开/公告号JP5648956B2
专利类型
公开/公告日2015-01-07
原文格式PDF
申请/专利权人 学校法人神奈川大学;
申请/专利号JP20100222057
申请日2010-09-30
分类号G06F17/27;
国家 JP
入库时间 2022-08-21 15:27:42