要解决的问题:解决基于频率的常规共现表达提取的问题,该方法提取通用词之间的大量冗余共现表达,而在差异分析中作为一种方法如果消除冗余组合,那么当无法使用先验知识(例如意见类型)时,从中提取差异的层就不言自明。
解决方案:在共现表达式提取设备中,特征部分通过使用时间变化作为参考,以从具有时间序列信息的文本数据中提取的候选单词作为参考,例如在Web公告板上书写,以及何时通过在特征部分的文本和非特征部分的文本之间进行差异分析,可以实现冗余度大大降低的共现提取。
版权:(C)2011,日本特许厅&INPIT