要解决的问题:使加权能够反映单词的语义,而不是仅基于单词表示法的方法。
解决方案:在这种方法中,文本分为单词单元;对于每个不同的单词w,在单词w的出现位置取1,在其他位置取0。估计使用该分布作为观察值分布的概率密度函数;单词w的权重是根据概率密度函数的熵来计算的。
版权:(C)2005,JPO&NCIPI
公开/公告号JP2005135110A
专利类型
公开/公告日2005-05-26
原文格式PDF
申请/专利权人 NIPPON TELEGR & TELEPH CORP NTT;
申请/专利号JP20030369439
发明设计人 BESSHO KATSUTO;
申请日2003-10-29
分类号G06F17/28;
国家 JP
入库时间 2022-08-21 22:35:05