本发明涉及自然语言处理技术领域,具体是一种基于词对齐的历史典籍分词方法,该方法包括以下步骤:首先对平行语料中的现代汉语进行分词,对古文进行逐字拆分,并将古文和现代汉语使用IBM Model 3模型进行词对齐;其次,对上一步中得到的对齐结果进行预处理,消除标点符号及副词的干扰;再次,根据上一步经预处理得到的对齐结果对古文单字进行合并;最后,对分词结果中由三个或者三个以上的字构成的词进行校验。本发明有效解决了在缺少古汉语标注语料的前提下对历史典籍进行分词的难题,其分词准确率比使用现代汉语标注语料训练的分词方法有显著提高。
展开▼