首页> 中国专利> 古籍文本断句方法与装置、古籍文本断句模型训练方法

古籍文本断句方法与装置、古籍文本断句模型训练方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种古籍文本断句方法与装置、古籍文本断句模型训练方法，上述古籍文本断句方法包括：将预处理古籍文本输入语言模型，以便语言模型对预处理古籍文本进行初编码后输出初编码字向量；基于初编码字向量、原始古籍文本中汉字的字型结构特征对应的字符表征向量，获得融合特征向量；将融合特征向量输入风格化编码网络，以便通过风格化编码网络对融合特征向量进行古文风格化的特征转换后输出风格化特征向量；对风格化特征向量进行头尾语义特征提取和双仿射注意力机制处理后得到特征结果矩阵；基于对特征结果矩阵进行解码处理后得到的解码结果，对预处理古籍文本或原始古籍文本进行断句处理并添加标点符号，以输出目标古籍文本。

著录项

公开/公告号CN115577680A

专利类型发明专利
公开/公告日2023-01-06

原文格式PDF
申请/专利权人天津恒达文博科技股份有限公司;河南文数保智能科技研究院有限公司;
展开▼

申请/专利号CN202211567901.X
发明设计人刘冠辰;金沛然;马晋;闫升;田宁;徐健;王锘然;韩国民;
展开▼

申请日2022-12-08
分类号G06F40/126;G06F40/30;
代理机构中科专利商标代理有限责任公司;
代理人樊晓
地址 300384 天津市滨海新区华苑产业区榕苑路15号1-B-701、702、703、704、705、706
入库时间 2023-06-19 18:14:35

法律信息

法律状态公告日

法律状态信息

法律状态
2023-01-06

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种神经网络模型训练方法及装置、文本标签确定方法及装置 [P] . 中国专利：
2. 文本断句模型建立方法、断句方法、装置及计算机设备 [P] . 中国专利： CN107247706B . 2021-06-25
3. 文本断句模型建立方法、断句方法、装置及计算机设备 [P] . 中国专利： CN107247706A . 2017-10-13
4. ANNOTATED TEXT DATA EXPANDING METHOD, ANNOTATED TEXT DATA EXPANDING COMPUTER-READABLE STORAGE MEDIUM, ANNOTATED TEXT DATA EXPANDING DEVICE, AND TEXT CLASSIFICATION MODEL TRAINING METHOD [P] . 美国专利： US2019317986A1 . 2019-10-17

机译：带注释的文本数据扩展方法，带注释的文本数据扩展计算机可读存储介质，带注释的文本数据扩展设备以及文本分类模型训练方法
5. ANNOTATION ADDED TEXT DATA EXPANDING METHOD, ANNOTATION ADDED TEXT DATA EXPANDING PROGRAM, ANNOTATION ADDED TEXT DATA EXPANDING APPARATUS, AND TRAINING METHOD OF TEXT CLASSIFICATION MODEL [P] . 日本专利： JP2019185551A . 2019-10-24

机译：注释附加文本数据扩展方法，注释附加文本数据扩展程序，注释附加文本数据扩展设备以及文本分类模型的训练方法
6. TEXT DETECTION MODEL TRAINING METHOD AND APPARATUS, TEXT REGION DETERMINATION METHOD AND APPARATUS, AND TEXT CONTENT DETERMINATION METHOD AND APPARATUS [P] . 世界知识产权组织专利： WO2020221298A1 . 2020-11-05

机译：文本检测模型训练方法和设备，文本区域确定方法和设备以及文本内容确定方法和设备