要解决的问题:提供一种即使将口语“放松和非正式表达”所描述的文本信息分类到适当类别中的文本分类程序,并提供一种方法和文本分析服务器。
解决方案:文本分类程序包括:参考文本存储装置,其将多个参考文本信息分类为多个类别并存储它们;以及未知词提取装置,将包含未知词的分类对象的目标文本信息划分为词素,并提取未知词;搜索关键字生成装置,生成包括未知单词以及前后相邻的语素的搜索关键字。校正规则搜索装置,对于每个参考文本信息类别,使用搜索关键字来搜索一个或多个类似于未知单词的校正规则候选;校正规则候选者选择装置,针对每个参考文本信息类别,基于文本组成索引选择一个校正规则候选者;类别选择装置,根据校正规则的文字构成索引选择得分最高的类别。文本分类装置将对象文本信息分类为所选择的类别。
版权:(C)2011,日本特许厅&INPIT
公开/公告号JP5339628B2
专利类型
公开/公告日2013-11-13
原文格式PDF
申请/专利权人 株式会社KDDI研究所;
申请/专利号JP20100009725
申请日2010-01-20
分类号G06F17/30;G06F17/27;
国家 JP
入库时间 2022-08-21 16:12:56