首页> 中国专利> 一种基于词对齐的历史典籍分词方法

一种基于词对齐的历史典籍分词方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及自然语言处理技术领域，具体是一种基于词对齐的历史典籍分词方法，该方法包括以下步骤：首先对平行语料中的现代汉语进行分词，对古文进行逐字拆分，并将古文和现代汉语使用IBM Model 3模型进行词对齐；其次，对上一步中得到的对齐结果进行预处理，消除标点符号及副词的干扰；再次，根据上一步经预处理得到的对齐结果对古文单字进行合并；最后，对分词结果中由三个或者三个以上的字构成的词进行校验。本发明有效解决了在缺少古汉语标注语料的前提下对历史典籍进行分词的难题，其分词准确率比使用现代汉语标注语料训练的分词方法有显著提高。

著录项

公开/公告号CN107229611B

专利类型发明专利
公开/公告日2020-06-30

原文格式PDF
申请/专利权人大连大学;
展开▼

申请/专利号CN201710351463.6
发明设计人车超;吴晓婷;
展开▼

申请日2017-05-18
分类号G06F40/289(20200101);
代理机构21226 大连八方知识产权代理有限公司;
代理人卫茂才
地址 116622 辽宁省大连市开发区学府大街10号
入库时间 2022-08-23 11:03:28

法律信息

法律状态公告日

法律状态信息

法律状态
2020-06-30

授权

授权
2017-11-03

实质审查的生效 IPC(主分类):G06F17/27 申请日:20170518

实质审查的生效
2017-10-03

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种基于词对齐的历史典籍分词方法 [P] . 中国专利： CN107229611B . 2020.06.30
2. 一种计算机中译英翻译中基于分词网的词对齐融合方法 [P] . 中国专利： CN102193915B . 2012.11.28
3. METHOD AND APPARATUS FOR NEURAL NETWORK-BASED WORD SEGMENTATION AND PART-OF-SPEECH TAGGING, DEVICE AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020206913A1 . 2020-10-15

机译：基于神经网络的词分词和词性标记，设备和存储介质的方法和装置
4. METHOD AND DEVICE FOR WORD SEGMENTATION PROCESSING ON BASIS OF WEBPAGE CONTENT CLASSIFICATION [P] . 世界知识产权组织专利： WO2015149533A1 . 2015-10-08

机译：基于网页内容分类的词分词处理方法及装置
5. Search-based word segmentation method and device for language without word boundary tag [P] . 美国专利： US8131539B2 . 2012-03-06

机译：基于搜索的无词边界标签语言分词方法及装置