首页> 中国专利> 一种PDF文本解析方法及装置

一种PDF文本解析方法及装置

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及计算机技术领域，尤其涉及一种PDF文本解析方法及装置，所述方法包括：获取预设数量的PDF文本段落内容；根据预设的分句规则对PDF文本段落内容进行分句，获得第一文本；根据第一文本，构造句子对，获得正样本数据；对正样本数据进行拼接，在预设的文本位置处随机插入换行符，获得第二文本；根据第二文本，构造句子对，获得负样本数据；通过预训练语言模型对正样本数据和负样本数据进行模型训练，得到训练好的目标模型；获取目标PDF文本段落内容，输入到训练好的目标模型中，获取目标模型的输出信息。该方法主要应用于批量自动处理PDF文件转文本的场景，目标模型能够有效识别并处理语料中非正常的换行符，保留段落间的换行符，恢复正常的语境。

著录项

公开/公告号CN115577697A

专利类型发明专利
公开/公告日2023-01-06

原文格式PDF
申请/专利权人中国建设银行股份有限公司;建信金融科技有限责任公司;
展开▼

申请/专利号CN202211093106.1
发明设计人罗奕康;戴菀庭;聂砂;张士存;郑江;王伊妍;
展开▼

申请日2022-09-08
分类号G06F40/205;G06F40/211;G06F40/191;G06F40/103;G06F40/30;
代理机构北京市兰台律师事务所;
代理人张峰
地址 100033 北京市西城区金融大街25号
入库时间 2023-06-19 18:13:00

法律信息

法律状态公告日

法律状态信息

法律状态
2023-01-06

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 基于PDF文档的数据下载方法及装置、存储介质、终端 [P] . 中国专利：
2. 一种基于对抗训练的文本解析方法、装置及电子设备 [P] . 中国专利： CN114398869A . 2022-04-26
3. 一种文本解析方法、装置、电子设备及存储介质 [P] . 中国专利： CN114398870A . 2022-04-26
4. PDF file management system, PDF file management server, PDF file data acquisition server, PDF file management method, PDF file data acquisition method, PDF file management program, and PDF file data acquisition program [P] . 日本专利： JP6534355B2 . 2019-06-26

机译： PDF文件管理系统，PDF文件管理服务器，PDF文件数据获取服务器，PDF文件管理方法，PDF文件数据获取方法，PDF文件管理程序和PDF文件数据获取程序
5. PDF FILE MANAGEMENT SYSTEM, PDF FILE MANAGEMENT SERVER, PDF FILE DATA ACQUIRING SERVER, PDF FILE MANAGEMENT METHOD, PDF FILE DATA ACQUIRING METHOD, PDF FILE MANAGEMENT PROGRAM, AND PDF FILE DATA ACQUIRING PROGRAM [P] . 日本专利： JP2017151913A . 2017-08-31

机译： PDF文件管理系统，PDF文件管理服务器，PDF文件数据获取服务器，PDF文件管理方法，PDF文件数据获取方法，PDF文件管理程序和PDF文件数据获取程序
6. PDF PDF ELECTRONIC TERMINAL APPARATUS FOR COPYING TO KEEP THE SHAPE OF THE CHARACTER IN THE PDF DOCUMENT AND METHOD FOR COPYING TO KEEP THE SHAPE OF THE CHARACTER IN THE PDF DOCUMENT OF THE ELECTRONIC TERMINAL APPARATUS [P] . 韩国专利： KR101758098B1 . 2017-07-14

机译： PDF PDF用于在PDF文档中保持字符形状的电子终端设备以及用于在PDF电子文档中保持字符形状的方法