要解决的问题:提供一种新的传记表达识别技术,即使在无法从传记词典中获得其姓氏的传记表达的情况下,也可以识别个人姓名,同时防止由于姓氏相同但名字不同的人。
解决方案:将要处理的文档分成单词单元,以获得单独的单词信息;根据单词信息和用于提取传记表达的规则,获得要处理的文档中提及的任何传记表达,其中的单词数目以及与名称相关的信息。例如,假设由一个单词组成的传记表达作为缩写传记表达,并且提取包括缩写传记表达的传记表达作为正式传记表达的候选。如果对于每个简短的传记表达,没有正式的传记表达的候选者,则将缩写的表达确定为不具有正式的表达;如果存在正式表达的候选者,则确定为正式表达;如果有两个候选人,则将具有相应的姓名相关信息的候选人确定为正式的传记表达。
版权:(C)2003,日本特许厅
公开/公告号JP2003216605A
专利类型
公开/公告日2003-07-31
原文格式PDF
申请/专利权人 NIPPON TELEGR & TELEPH CORP NTT;
申请/专利号JP20020016280
申请日2002-01-25
分类号G06F17/27;
国家 JP
入库时间 2022-08-22 00:15:38