首页> 中国专利> 一种PDF文本解析方法及装置

一种PDF文本解析方法及装置

摘要

本发明涉及计算机技术领域,尤其涉及一种PDF文本解析方法及装置,所述方法包括:获取预设数量的PDF文本段落内容;根据预设的分句规则对PDF文本段落内容进行分句,获得第一文本;根据第一文本,构造句子对,获得正样本数据;对正样本数据进行拼接,在预设的文本位置处随机插入换行符,获得第二文本;根据第二文本,构造句子对,获得负样本数据;通过预训练语言模型对正样本数据和负样本数据进行模型训练,得到训练好的目标模型;获取目标PDF文本段落内容,输入到训练好的目标模型中,获取目标模型的输出信息。该方法主要应用于批量自动处理PDF文件转文本的场景,目标模型能够有效识别并处理语料中非正常的换行符,保留段落间的换行符,恢复正常的语境。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-06

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号