要解决的问题:使加权能够反映单词的语义,而不是仅基于单词表示法的方法。
解决方案:在这种方法中,文本分为单词单位;对于每个不同的单词w,在单词w的出现位置取1,在其他位置取0。估计使用该分布作为观察值分布的概率密度函数;单词w的权重是根据概率密度函数的熵来计算的。
版权:(C)2005,JPO&NCIPI
公开/公告号JP4114594B2
专利类型
公开/公告日2008-07-09
原文格式PDF
申请/专利权人 日本電信電話株式会社;
申请/专利号JP20030369439
发明设计人 別所 克人;
申请日2003-10-29
分类号G06F17/28;
国家 JP
入库时间 2022-08-21 20:18:13