有效地提取与特定类别对应的合适特征词。解决方案:第一出现频率指示多个文档数据中包括多个单词数据中的单词对同时出现的文档数据数量,第二出现频率指示多个文档数据中多个单词对同时出现的文档数据数量。计算与指定类别相对应的文档数据。通过将第一出现频率除以第二出现频率而获得的值被计算为同时发生的程度。生成以单词为节点,并发发生程度为边的网络数据作为矩阵数据,该矩阵数据是N次的对称矩阵。 N.将生成的矩阵数据的最大固有值计算为聚集度。提取聚类,该聚类是根据与计算的聚合度相对应的固有向量确定的多个单词的集合。计算每个单词对聚类的归属程度。提取具有超过阈值的归因度的多个节点作为表达指定类别的特征的特征词。
版权:(C)2011和JPO&INPIT
公开/公告号JP5331723B2
专利类型
公开/公告日2013-10-30
原文格式PDF
申请/专利权人 株式会社エヌ・ティ・ティ・データ;
申请/专利号JP20100024718
申请日2010-02-05
分类号G06F17/30;
国家 JP
入库时间 2022-08-21 16:56:01