要解决的问题:提供一种词映射技术,用于处理大量信息源并提高估计的不同未注册词的概念向量的质量。
解决方案:单词划分装置11将语素分析应用于文本集。概念向量估计装置12搜索存储词的概念库16和该词的概念向量对的集合以确定该词是已注册词是还是未注册词,形成包括不同未注册词的文本集对于任意一个不同的未注册词,获取集合中该不同注册词的概念向量,使该概念向量作为参数对应于该不同未注册词,然后使该不同未注册词的概念向量最小化求和将集合中每个文本中的概念向量的平均值与集合中所有文本中每个概念向量之间的距离的平方和相加,即可得出未注册词的估计概念向量。
版权:(C)2008,日本特许厅&INPIT
公开/公告号JP2008015640A
专利类型
公开/公告日2008-01-24
原文格式PDF
申请/专利权人 NIPPON TELEGR & TELEPH CORP NTT;
申请/专利号JP20060183986
申请日2006-07-04
分类号G06F17/28;
国家 JP
入库时间 2022-08-21 20:22:18