首页> 中国专利> 合同审核方法、合同审核系统和可读存储介质

合同审核方法、合同审核系统和可读存储介质

摘要

本发明提供了一种合同审核方法、合同审核系统和可读存储介质,其中,合同审核方法包括:获取合同模板;接收合同模板审核通过信息;接收签署合同,签署合同为签署后的纸质合同的图片或扫描文件;计算合同模板与签署合同的相似度;将相似度与预设相似度范围阈值进行对比,以判定签署合同是否通过审核。本申请通过对合同模板和签署合同都进行上传,而后人工只需要审核一遍合同模板即可,无需再耗费大量的人力去审核签署合同,大大减少了审核人员的工作量,提高了合同审核的效率,避免了人工需要对大量的签署合同进行逐字逐句地审核,耗时长、易遗漏地问题。

著录项

  • 公开/公告号CN114842493A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 用友薪福社云科技有限公司;

    申请/专利号CN202210449692.2

  • 发明设计人 姚姝;

    申请日2022-04-27

  • 分类号G06V30/418(2022.01);G06V10/75(2022.01);G06F16/33(2019.01);G06F16/583(2019.01);G06F40/186(2020.01);G06F40/194(2020.01);G06F40/289(2020.01);G06K9/62(2022.01);G06Q10/10(2012.01);G06Q50/18(2012.01);

  • 代理机构北京友联知识产权代理事务所(普通合伙) 11343;北京友联知识产权代理事务所(普通合伙) 11343;

  • 代理人唐应梅;尚志峰

  • 地址 330036 江西省南昌市红谷滩区嘉言路668号语音服务中心二楼YY-C02003室

  • 入库时间 2023-06-19 16:14:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06V30/418 专利申请号:2022104496922 申请日:20220427

    实质审查的生效

说明书

技术领域

本发明涉及计算机技术领域,具体而言,涉及一种合同审核方法、合同审核系统和可读存储介质。

背景技术

合同是证明合同签署方存在合同关系的重要证据,有利于保护签署方的利益,避免签署方在履行过程中产生争议,预防合作方对业务员的职务行为不予认可。合同审核可以避免因合同拟定有误而引起的争议和就纠纷,降低法律风险。现有技术中常用的人工审核方法存在着效率低,成本高,准确率低的情况。由于合同文档的特殊性,使得人工审核的过程中需要关注的关键要素和风险点非常多,包括合同内容前后一致性,实际签署合同与合同管理内容一致性,合同本身撰写和表述的规范性等。审核人员需要对合同的每一个条款和事项进行逐条审阅,消耗大量的精力和时间,合同的多样性也导致人工审核很容易出现遗漏。

因此,如何提出一种可以替代人工进行合同审核,提高审核效率和准确率的方案成为目前亟待解决的问题。

发明内容

为解决上述技术问题,本发明的第一方面提出了一种合同审核方法。

本发明的第二方面还提出了一种合同审核系统。

本发明的第三方面还提出了一种合同审核系统。

本发明的第四方面还提出了一种可读存储介质。

有鉴于此,本发明第一方面提出了一种合同审核方法,包括:获取合同模板;接收合同模板审核通过信息;接收签署合同,签署合同为签署后的纸质合同的图片或扫描文件;计算合同模板与签署合同的相似度;将相似度与预设相似度范围阈值进行对比,以判定签署合同是否通过审核。

根据本发明提供的合同审核方法,通过对合同模板进行获取,即人工将合同模板上传至合同审核系统,以供专门的合同审核人员进行合同模板的审核;而后对合同模板审核通过信息进行接收,以便于进行下一步操作;通过对签署合同进行接收,即签署完成的纸质合同以图片或扫描文件的形式上传至系统;而后对合同模板与签署合同之间的相似度进行计算,并将计算出的相似度与预设的相似度范围阈值进行对比,在满足预设相似度范围要求时,判定签署合同审核通过。本申请通过对合同模板和签署合同都进行上传,而后人工只需要审核一遍合同模板即可,无需再耗费大量的人力去审核签署合同,大大减少了审核人员的工作量,提高了合同审核的效率,避免了人工需要对大量的签署合同进行逐字逐句地审核,耗时长、易遗漏地问题。

另外,本发明提供的上述技术方案中的合同审核方法还可以具有如下附加技术特征:

在上述技术方案中,合同审核方法在计算合同模板与签署合同的相似度步骤之前,还包括:将签署合同经过文字识别转化为可编辑文本。

在该技术方案中,通过将图片或扫描文件格式的签署合同的内容,经过文字识别之后转换为可编辑文本,以此对签署合同的文字进行获取,便于进行合同模板和签署合同之间的内容比对,解决了签署合同与合同模板的内容获取问题。

在上述技术方案中,计算合同模板与签署合同的相似度的步骤具体包括:采用余弦相似度算法计算合同模板与签署合同的相似度。

在该技术方案中,通过余弦相似度算法进行合同模板和签署合同之间的相似度计算。余弦相似度是通过计算两个向量的夹角余弦值来进行相似度的判断。将向量根据坐标值,绘制到向量空间中,进而利用余弦定理求得两个向量之间的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性,其中,余弦定理不仅适用于二维向量的计算,同时适用于n维向量的计算。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。因此,我们可以通过夹角的大小,来判断向量间的相似程度。夹角越小,就代表越相似。

在上述技术方案中,计算合同模板与签署合同的相似度的步骤具体包括:对合同模板进行分词,以得到第一词集;对签署合同进行分词,以得到第二词集;将第一词集和第二词集合并为第三词集;对第三词集中的词语进行编码,使得词语和数值之间具备一一对应关系;根据词语与数值之间的对应关系,将第一词集和第二词集转换为数值表示形式;根据第一词集和第二词集的数值表示形式,对第一词集和第二词集进行词频编码;根据词频编码后的第一词集和第二词集进行相似度计算,以得到合同模板与签署合同的相似度。

在该技术方案中,通过对合同模板和签署合同都进行分词处理,以将合同模板和签署合同的全部内容转换为两个词集,即第一词集和第二词集,进而将两个词集整合为一个总词集,即第三词集;进而对第三词集的全部词进行编码,例如将词集中出现的词语依次从0逐个加1进行编码,使得每个词都具有对应的编码,以此为每个词进行赋值,进而根据第三词集中词与数值的关系,将第一词集和第二词集转换为数值表示形式,进而对第一词集和第二词集进行词频编码,即根据第一词集和第二词集中每个词出现的次数统计词频;而后进行词频编码后的第一词集和第二词集就可以作为两个多维向量,采用余弦相似度计算方法进行相似度计算,以得到合同模板和签署合同之间的相似度,解决了如何计算合同模板和签署合同之间的相似度的问题。

在上述任一技术方案中,预设相似度范围阈值根据合同模板与签署合同之间的一致程度分为第一范围阈值、第二范围阈值、第三范围阈值、第四范围阈值和第五范围阈值;第一范围阈值为签署合同使用的模板与合同模板不一致时的相似度;第二范围阈值为签署合同使用的模板与合同模板一致,但存在不一致内容时的相似度;第三范围阈值为签署合同使用的模板与合同模板一致,但缺少连续段落或连续条款时的相似度;第四范围阈值为签署合同使用的模板与合同模板一致,但页码顺序不一致时的相似度;第五范围阈值为签署合同使用的模板与合同模板一致,但增加了签署方的相关信息时的相似度;将相似度与预设相似度范围阈值进行对比,以对签署合同是否审核通过进行判定的步骤具体包括:将相似度与预设相似度范围阈值进行对比;当相似度大于第一范围阈值、第二范围阈值和第三范围阈值,且大于等于第四范围阈值和第五范围阈值时,判定签署合同通过审核。

在该技术方案中,预先存储有人工测算出的签署合同与合同模板之间不同的一致程度对应的相似度范围,根据合同模板与签署合同之间的一致程度,划分出的第一范围阈值、第二范围阈值、第三范围阈值、第四范围阈值和第五范围阈值。其中,签署合同时使用的合同模版与审核通过的合同模版完全不一致,即签署合同所使用的模板并不是上传至系统的合同模板,通过测算得到此类情况通常相似度在第五范围阈值内;签署合同时使用的合同模版与审核通过的合同模版有部分内容不一致,即签署合同和合同模板中的内容部分相同,其余部分的内容不同,例如,签署合同的内容包括O和P,合同模板的内容包括O和Q,其中P和Q就是不一致内容,通过测算得到此类情况通常相似度在第四范围阈值内;签署合同时使用的合同模版与审核通过的合同模版基本一致,但缺少部分连续段落或关键条款,例如签署合同的内容包括O,合同模板的内容包括O和Q,其中Q就是缺少的部分连续段落或关键条款,通过测算得到此类情况通常相似度在第三范围阈值内;签署合同时使用的合同模版与审核通过的合同模版是一致的,但是上传时模版的页码顺序与合同的页码顺序不一致,通过测算得到此类情况通常相似度在第二范围阈值内;签署合同时使用的合同模版与审核通过的合同模版是一致的,但是签署中增加了签署方的相关信息,例如,签署合同的内容包括O和P,合同模板的内容包括O,其中P就是增加的签署方的相关信息,通过测算得到此类情况通常相似度在第一范围阈值内。而上述情况中只有相似度大于第一范围阈值、第二范围阈值和第三阈值,且大于等于第四范围阈值和第五范围阈值时,才视作合同与模版一致,可以通过审核,因此只有当相似度满足上述条件时,才视为相似性达标,相似性审核通过。因而通过将计算得到的签署合同和合同模板之间的相似度与预设相似度范围阈值进行对比,当相似度大于第一范围阈值、第二范围阈值和第三阈值,且大于等于第四范围阈值和第五范围阈值时,判定签署合同审核通过,以此解决了如何判定计算出的签署合同和合同模板之间的相似度是否符合审核通过的标准的问题。

在上述任一技术方案中,合同审核方法在将相似度与预设相似度范围阈值进行对比的步骤之前还包括:合同模板的字数分为多个等级,不同的字数等级一一对应有不同的预设相似度范围阈值;根据合同模板的字数选取与该字数等级对应的预设相似度范围阈值。

在该技术方案中,将合同模板字数进行等级划分,由于相似度是根据先分词而后进行词频统计的原理计算的,当合同总文本长度越短,缺少一个词或一个句对合同相似度的影响越高,因此需要根据合同模版的字数多少来匹配不同的相似度范围阈值,以使得根据相似度来判断合同是否审核通过能够更加精准可靠。

进一步地,合同模板的字数分为0字-200字、200字-600字、600字-1200字、1200字-2000字和2000字及以上五个等级,每个等级一一对应有各自的预设相似度范围阈值。

在该技术方案中,根据实际审核的经验,分别以合同模版字数为0字-200字,合同模版字数为200字-600字,合同模版字数为600字-1200字,合同模版字数为1200字-2000字,合同模版字数为2000字及以上几个等级,分别对将第一范围阈值至第五范围阈值进行计算,进而得到适配于合同模版字数为0字-200字的第一范围阈值至第五范围阈值,适配于合同模版字数为200字-600字的第一范围阈值至第五范围阈值,适配于合同模版字数为600字-1200字的第一范围阈值至第五范围阈值,适配于合同模版字数为1200字-2000字的第一范围阈值至第五范围阈值,适配于合同模版字数为2000字及以上的第一范围阈值至第五范围阈值。进而就能过在进行相速度于预设相似度范围阈值对比之前,先根据合同模板的字数选取对应的预设相似度范围阈值,即适配于合同模版字数为2000字及以上的第一范围阈值至第五范围阈值,而后再进行相似度判断,使得合同审核的过程更加的可靠、准确。

本发明的第二方面提供了一种合同审核系统,包括:获取模块,用于获取合同模板;接收模块,用于接收合同模板审核通过信息,接收签署合同,签署合同为签署后的纸质合同的图片或扫描文件;计算模块,用于计算合同模板与签署合同的相似度;判定模块,用于将相似度与预设相似度范围阈值进行对比,以判定签署合同是否通过审核。

根据本发明的技术方案提供的合同审核系统,包括获取模块、接收模块、计算模块和判定模块。其中,获取模块用于获取合同模板;接收模块用于接收合同模板审核通过信息,接收签署合同,签署合同为签署后的纸质合同的图片或扫描文件;计算模块用于计算合同模板与签署合同的相似度;判定模块用于将相似度与预设相似度范围阈值进行对比,以判定签署合同是否通过审核。同时,根据本发明的技术方案提供的合同审核系统,由于其用于实现本发明的第一方面提供的合同审核方法的步骤,因而该合同审核系统具备该合同审核方法的全部技术效果,在此不再赘述。

在上述任一技术方案中,合同审核系统还包括:文字识别模块,用于将签署合同经过文字识别转化为可编辑文本。

在该技术方案中,通过将图片或扫描文件格式的签署合同的内容,经过文字识别之后转换为可编辑文本,以此对签署合同的文字进行获取,便于进行合同模板和签署合同之间的内容比对,解决了签署合同与合同模板的内容获取问题。

在上述任一技术方案中,计算模块具体用于:采用余弦相似度算法计算合同模板与签署合同的相似度。

在该技术方案中,通过余弦相似度算法进行合同模板和签署合同之间的相似度计算。余弦相似度是通过计算两个向量的夹角余弦值来进行相似度的判断。将向量根据坐标值,绘制到向量空间中,进而利用余弦定理求得两个向量之间的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性,其中,余弦定理不仅适用于二维向量的计算,同时适用于n维向量的计算。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。因此,我们可以通过夹角的大小,来判断向量间的相似程度。夹角越小,就代表越相似。

在上述任一技术方案中,计算模块具体用于:对合同模板进行分词,以得到第一词集;对签署合同进行分词,以得到第二词集;将第一词集和第二词集合并为第三词集;对第三词集中的词语进行编码,使得词语和数值之间具备一一对应关系;根据词语与数值之间的对应关系,将第一词集和第二词集转换为数值表示形式;根据第一词集和第二词集的数值表示形式,对第一词集和第二词集进行词频编码;根据词频编码后的第一词集和第二词集进行相似度计算,以得到合同模板与签署合同的相似度。

在该技术方案中,通过对合同模板和签署合同都进行分词处理,以将合同模板和签署合同的全部内容转换为两个词集,即第一词集和第二词集,进而将两个词集整合为一个总词集,即第三词集;进而对第三词集的全部词进行编码,例如将词集中出现的词语依次从0逐个加1进行编码,使得每个词都具有对应的编码,以此为每个词进行赋值,进而根据第三词集中词与数值的关系,将第一词集和第二词集转换为数值表示形式,进而对第一词集和第二词集进行词频编码,即根据第一词集和第二词集中每个词出现的次数统计词频;而后进行词频编码后的第一词集和第二词集就可以作为两个多维向量,采用余弦相似度计算方法进行相似度计算,以得到合同模板和签署合同之间的相似度,解决了如何计算合同模板和签署合同之间的相似度的问题。

在上述任一技术方案中,预设相似度范围阈值根据合同模板与签署合同之间的一致程度分为第一范围阈值、第二范围阈值、第三范围阈值、第四范围阈值和第五范围阈值;第一范围阈值为签署合同使用的模板与合同模板不一致时的相似度;第二范围阈值为签署合同使用的模板与合同模板一致,但存在不一致内容时的相似度;第三范围阈值为签署合同使用的模板与合同模板一致,但缺少连续段落或连续条款时的相似度;第四范围阈值为签署合同使用的模板与合同模板一致,但页码顺序不一致时的相似度;第五范围阈值为签署合同使用的模板与合同模板一致,但增加了签署方的相关信息时的相似度;判断模块具体同于:将相似度与预设相似度范围阈值进行对比;当相似度大于第一范围阈值、第二范围阈值和第三范围阈值,且大于等于第四范围阈值和第五范围阈值时,判定签署合同通过审核。

在该技术方案中,预先存储有人工测算出的签署合同与合同模板之间不同的一致程度对应的相似度范围,根据合同模板与签署合同之间的一致程度,划分出的第一范围阈值、第二范围阈值、第三范围阈值、第四范围阈值和第五范围阈值。其中,签署合同时使用的合同模版与审核通过的合同模版完全不一致,即签署合同所使用的模板并不是上传至系统的合同模板,通过测算得到此类情况通常相似度在第五范围阈值内;签署合同时使用的合同模版与审核通过的合同模版有部分内容不一致,即签署合同和合同模板中的内容部分相同,其余部分的内容不同,例如,签署合同的内容包括O和P,合同模板的内容包括O和Q,其中P和Q就是不一致内容,通过测算得到此类情况通常相似度在第四范围阈值内;签署合同时使用的合同模版与审核通过的合同模版基本一致,但缺少部分连续段落或关键条款,例如签署合同的内容包括O,合同模板的内容包括O和Q,其中Q就是缺少的部分连续段落或关键条款,通过测算得到此类情况通常相似度在第三范围阈值内;签署合同时使用的合同模版与审核通过的合同模版是一致的,但是上传时模版的页码顺序与合同的页码顺序不一致,通过测算得到此类情况通常相似度在第二范围阈值内;签署合同时使用的合同模版与审核通过的合同模版是一致的,但是签署中增加了签署方的相关信息,例如,签署合同的内容包括O和P,合同模板的内容包括O,其中P就是增加的签署方的相关信息,通过测算得到此类情况通常相似度在第一范围阈值内。而上述情况中只有相似度大于第一范围阈值、第二范围阈值和第三阈值,且大于等于第四范围阈值和第五范围阈值时,才视作合同与模版一致,可以通过审核,因此只有当相似度满足上述条件时,才视为相似性达标,相似性审核通过。因而通过将计算得到的签署合同和合同模板之间的相似度与预设相似度范围阈值进行对比,当相似度大于第一范围阈值、第二范围阈值和第三阈值,且大于等于第四范围阈值和第五范围阈值时,判定签署合同审核通过,以此解决了如何判定计算出的签署合同和合同模板之间的相似度是否符合审核通过的标准的问题。在上述任一技术方案中,合同模板的字数分为多个等级,不同的字数等级一一对应有不同的预设相似度范围阈值,合同审核系统还包括:选择模块,用于根据合同模板的字数选取与该字数等级对应的预设相似度范围阈值。

在该技术方案中,将合同模板字数进行等级划分,由于相似度是根据先分词而后进行词频统计的原理计算的,当合同总文本长度越短,缺少一个词或一个句对合同相似度的影响越高,因此需要根据合同模版的字数多少来匹配不同的相似度范围阈值,以使得根据相似度来判断合同是否审核通过能够更加精准可靠。

进一步地,合同模板的字数分为0字-200字、200字-600字、600字-1200字、1200字-2000字和2000字及以上五个等级,每个等级一一对应有各自的预设相似度范围阈值。

在该技术方案中,根据实际审核的经验,分别以合同模版字数为0字-200字,合同模版字数为200字-600字,合同模版字数为600字-1200字,合同模版字数为1200字-2000字,合同模版字数为2000字及以上几个等级,分别对将第一范围阈值至第五范围阈值进行计算,进而得到适配于合同模版字数为0字-200字的第一范围阈值至第五范围阈值,适配于合同模版字数为200字-600字的第一范围阈值至第五范围阈值,适配于合同模版字数为600字-1200字的第一范围阈值至第五范围阈值,适配于合同模版字数为1200字-2000字的第一范围阈值至第五范围阈值,适配于合同模版字数为2000字及以上的第一范围阈值至第五范围阈值。进而就能过在进行相速度于预设相似度范围阈值对比之前,先根据合同模板的字数选取对应的预设相似度范围阈值,即适配于合同模版字数为2000字及以上的第一范围阈值至第五范围阈值,而后再进行相似度判断,使得合同审核的过程更加的可靠、准确。

本发明的第三方面提供了一种合同审核系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,程序被处理器执行时实现上述任一技术方案的合同审核方法限定的步骤。

根据本发明的技术方案提供的合同审核系统,包括存储器和处理器及存储在存储器上并可在处理器上运行的程序,程序被处理器执行时实现上述任一合同审核方法限定的步骤。同时,由于本申请的合同审核系统能够实现上述任一合同审核方法限定的步骤,因此本技术方案提供的合同审核系统具有上述任一技术方案中提供的合同审核方法的全部有益效果。

本发明的第四方面提供了一种可读存储介质,其上存储有程序和/或指令,程序和/或指令被处理器执行时实现上述任一技术方案中的合同审核方法的步骤。

根据本发明的技术方案提供的可读存储介质,由于其上存储的程序和/或指令被处理器执行时可实现上述任一技术方案中的合同审核方法的步骤,因而具有上述合同审核方法的全部有益技术效果,在此不再赘述。

本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1是根据本发明的实施例的合同审核方法的流程示意图;

图2是根据本发明的实施例的合同审核系统的方框图;

图3是根据本发明的实施例的合同审核系统的方框图;

图4是根据本发明的另一实施例的余弦相似度算法的示意图;

图5是根据本发明的又一实施例的合同审核结果的示意图。

其中,图2和图3中附图标记与部件名称之间的对应关系为:

200合同审核系统,202获取模块,204接收模块,206计算模块,208判定模块,300合同审核系统,302存储器,304处理器。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1至图5描述本发明一些实施例中的合同审核方法、合同审核系统和可读存储介质。

本发明第一方面实施例提出了一种合同审核方法,如图1所示,包括:

S102,获取合同模板;

S104,接收合同模板审核通过信息;

S106,接收签署合同,签署合同为签署后的纸质合同的图片或扫描文件;

S108,计算合同模板与签署合同的相似度;

S110,将相似度与预设相似度范围阈值进行对比,以判定签署合同是否通过审核。

根据本实施例提供的合同审核方法,通过对合同模板进行获取,即人工将合同模板上传至合同审核系统,以供专门的合同审核人员进行合同模板的审核;而后对合同模板审核通过信息进行接收,以便于进行下一步操作;通过对签署合同进行接收,即签署完成的纸质合同以图片或扫描文件的形式上传至系统;而后对合同模板与签署合同之间的相似度进行计算,并将计算出的相似度与预设的相似度范围阈值进行对比,在满足预设相似度范围要求时,判定签署合同审核通过。本申请通过对合同模板和签署合同都进行上传,而后人工只需要审核一遍合同模板即可,无需再耗费大量的人力去审核签署合同,大大减少了审核人员的工作量,提高了合同审核的效率,避免了人工需要对大量的签署合同进行逐字逐句地审核,耗时长、易遗漏地问题。

在上述实施例中,合同审核方法在计算合同模板与签署合同的相似度步骤之前,还包括:将签署合同经过文字识别转化为可编辑文本。

在该实施例中,通过将图片或扫描文件格式的签署合同的内容,经过文字识别之后转换为可编辑文本,以此对签署合同的文字进行获取,便于进行合同模板和签署合同之间的内容比对,解决了签署合同与合同模板的内容获取问题。

在上述实施例中,计算合同模板与签署合同的相似度的步骤具体包括:采用余弦相似度算法计算合同模板与签署合同的相似度。

在该实施例中,通过余弦相似度算法进行合同模板和签署合同之间的相似度计算。余弦相似度是通过计算两个向量的夹角余弦值来进行相似度的判断。将向量根据坐标值,绘制到向量空间中,进而利用余弦定理求得两个向量之间的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性,其中,余弦定理不仅适用于二维向量的计算,同时适用于n维向量的计算。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。因此,我们可以通过夹角的大小,来判断向量间的相似程度。夹角越小,就代表越相似。

在上述实施例中,计算合同模板与签署合同的相似度的步骤具体包括:对合同模板进行分词,以得到第一词集;对签署合同进行分词,以得到第二词集;将第一词集和第二词集合并为第三词集;对第三词集中的词语进行编码,使得词语和数值之间具备一一对应关系;根据词语与数值之间的对应关系,将第一词集和第二词集转换为数值表示形式;根据第一词集和第二词集的数值表示形式,对第一词集和第二词集进行词频编码;根据词频编码后的第一词集和第二词集进行相似度计算,以得到合同模板与签署合同的相似度。

在该实施例中,通过对合同模板和签署合同都进行分词处理,以将合同模板和签署合同的全部内容转换为两个词集,即第一词集和第二词集,进而将两个词集整合为一个总词集,即第三词集;进而对第三词集的全部词进行编码,例如将词集中出现的词语依次从0逐个加1进行编码,使得每个词都具有对应的编码,以此为每个词进行赋值,进而根据第三词集中词与数值的关系,将第一词集和第二词集转换为数值表示形式,进而对第一词集和第二词集进行词频编码,即根据第一词集和第二词集中每个词出现的次数统计词频;而后进行词频编码后的第一词集和第二词集就可以作为两个多维向量,采用余弦相似度计算方法进行相似度计算,以得到合同模板和签署合同之间的相似度,解决了如何计算合同模板和签署合同之间的相似度的问题。

在上述任一实施例中,预设相似度范围阈值根据合同模板与签署合同之间的一致程度分为第一范围阈值、第二范围阈值、第三范围阈值、第四范围阈值和第五范围阈值;第一范围阈值为签署合同使用的模板与合同模板不一致时的相似度;第二范围阈值为签署合同使用的模板与合同模板一致,但存在不一致内容时的相似度;第三范围阈值为签署合同使用的模板与合同模板一致,但缺少连续段落或连续条款时的相似度;第四范围阈值为签署合同使用的模板与合同模板一致,但页码顺序不一致时的相似度;第五范围阈值为签署合同使用的模板与合同模板一致,但增加了签署方的相关信息时的相似度;将相似度与预设相似度范围阈值进行对比,以对签署合同是否审核通过进行判定的步骤具体包括:将相似度与预设相似度范围阈值进行对比;当相似度大于第一范围阈值、第二范围阈值和第三范围阈值,且大于等于第四范围阈值和第五范围阈值时,判定签署合同通过审核。

在该实施例中,预先存储有人工测算出的签署合同与合同模板之间不同的一致程度对应的相似度范围,根据合同模板与签署合同之间的一致程度,划分出的第一范围阈值、第二范围阈值、第三范围阈值、第四范围阈值和第五范围阈值。其中,签署合同时使用的合同模版与审核通过的合同模版完全不一致,即签署合同所使用的模板并不是上传至系统的合同模板,通过测算得到此类情况通常相似度在第五范围阈值内;签署合同时使用的合同模版与审核通过的合同模版有部分内容不一致,即签署合同和合同模板中的内容部分相同,其余部分的内容不同,例如,签署合同的内容包括O和P,合同模板的内容包括O和Q,其中P和Q就是不一致内容,通过测算得到此类情况通常相似度在第四范围阈值内;签署合同时使用的合同模版与审核通过的合同模版基本一致,但缺少部分连续段落或关键条款,例如签署合同的内容包括O,合同模板的内容包括O和Q,其中Q就是缺少的部分连续段落或关键条款,通过测算得到此类情况通常相似度在第三范围阈值内;签署合同时使用的合同模版与审核通过的合同模版是一致的,但是上传时模版的页码顺序与合同的页码顺序不一致,通过测算得到此类情况通常相似度在第二范围阈值内;签署合同时使用的合同模版与审核通过的合同模版是一致的,但是签署中增加了签署方的相关信息,例如,签署合同的内容包括O和P,合同模板的内容包括O,其中P就是增加的签署方的相关信息,通过测算得到此类情况通常相似度在第一范围阈值内。而上述情况中只有相似度大于第一范围阈值、第二范围阈值和第三阈值,且大于等于第四范围阈值和第五范围阈值时,才视作合同与模版一致,可以通过审核,因此只有当相似度满足上述条件时,才视为相似性达标,相似性审核通过。因而通过将计算得到的签署合同和合同模板之间的相似度与预设相似度范围阈值进行对比,当相似度大于第一范围阈值、第二范围阈值和第三阈值,且大于等于第四范围阈值和第五范围阈值时,判定签署合同审核通过,以此解决了如何判定计算出的签署合同和合同模板之间的相似度是否符合审核通过的标准的问题。

在上述任一实施例中,合同审核方法在将相似度与预设相似度范围阈值进行对比的步骤之前还包括:合同模板的字数分为多个等级,不同的字数等级一一对应有不同的预设相似度范围阈值;根据合同模板的字数选取与该字数等级对应的预设相似度范围阈值。

在该实施例中,将合同模板字数进行等级划分,由于相似度是根据先分词而后进行词频统计的原理计算的,当合同总文本长度越短,缺少一个词或一个句对合同相似度的影响越高,因此需要根据合同模版的字数多少来匹配不同的相似度范围阈值,以使得根据相似度来判断合同是否审核通过能够更加精准可靠。

进一步地,合同模板的字数分为0字-200字、200字-600字、600字-1200字、1200字-2000字和2000字及以上五个等级,每个等级一一对应有各自的预设相似度范围阈值。

在该实施例中,根据实际审核的经验,分别以合同模版字数为0字-200字,合同模版字数为200字-600字,合同模版字数为600字-1200字,合同模版字数为1200字-2000字,合同模版字数为2000字及以上几个等级,分别对将第一范围阈值至第五范围阈值进行计算,进而得到适配于合同模版字数为0字-200字的第一范围阈值至第五范围阈值,适配于合同模版字数为200字-600字的第一范围阈值至第五范围阈值,适配于合同模版字数为600字-1200字的第一范围阈值至第五范围阈值,适配于合同模版字数为1200字-2000字的第一范围阈值至第五范围阈值,适配于合同模版字数为2000字及以上的第一范围阈值至第五范围阈值。进而就能过在进行相速度于预设相似度范围阈值对比之前,先根据合同模板的字数选取对应的预设相似度范围阈值,即适配于合同模版字数为2000字及以上的第一范围阈值至第五范围阈值,而后再进行相似度判断,使得合同审核的过程更加的可靠、准确。

本发明的第二方面实施例提供了一种合同审核系统200,如图2所示,包括:获取模块202,用于获取合同模板;接收模块204,用于接收合同模板审核通过信息,接收签署合同,签署合同为签署后的纸质合同的图片或扫描文件;计算模块206,用于计算合同模板与签署合同的相似度;判定模块208,用于将相似度与预设相似度范围阈值进行对比,以判定签署合同是否通过审核。

根据本发明的实施例提供的合同审核系统,包括获取模块202、接收模块204、计算模块206和判定模块208。其中,获取模块202用于获取合同模板;接收模块204用于接收合同模板审核通过信息,接收签署合同,签署合同为签署后的纸质合同的图片或扫描文件;计算模块206用于计算合同模板与签署合同的相似度;判定模块208用于将相似度与预设相似度范围阈值进行对比,以判定签署合同是否通过审核。同时,根据本发明的实施例提供的合同审核系统,由于其用于实现本发明的第一方面实施例提供的合同审核方法的步骤,因而该合同审核系统具备该合同审核方法的全部技术效果,在此不再赘述。

在上述任一实施例中,合同审核系统还包括:文字识别模块,用于将签署合同经过文字识别转化为可编辑文本。

在该实施例中,通过将图片或扫描文件格式的签署合同的内容,经过文字识别之后转换为可编辑文本,以此对签署合同的文字进行获取,便于进行合同模板和签署合同之间的内容比对,解决了签署合同与合同模板的内容获取问题。

在上述任一实施例中,计算模块206具体用于:采用余弦相似度算法计算合同模板与签署合同的相似度。

在该实施例中,通过余弦相似度算法进行合同模板和签署合同之间的相似度计算。余弦相似度是通过计算两个向量的夹角余弦值来进行相似度的判断。将向量根据坐标值,绘制到向量空间中,进而利用余弦定理求得两个向量之间的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性,其中,余弦定理不仅适用于二维向量的计算,同时适用于n维向量的计算。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。因此,我们可以通过夹角的大小,来判断向量间的相似程度。夹角越小,就代表越相似。

在上述任一实施例中,计算模块206具体用于:对合同模板进行分词,以得到第一词集;对签署合同进行分词,以得到第二词集;将第一词集和第二词集合并为第三词集;对第三词集中的词语进行编码,使得词语和数值之间具备一一对应关系;根据词语与数值之间的对应关系,将第一词集和第二词集转换为数值表示形式;根据第一词集和第二词集的数值表示形式,对第一词集和第二词集进行词频编码;根据词频编码后的第一词集和第二词集进行相似度计算,以得到合同模板与签署合同的相似度。

在该实施例中,通过对合同模板和签署合同都进行分词处理,以将合同模板和签署合同的全部内容转换为两个词集,即第一词集和第二词集,进而将两个词集整合为一个总词集,即第三词集;进而对第三词集的全部词进行编码,例如将词集中出现的词语依次从0逐个加1进行编码,使得每个词都具有对应的编码,以此为每个词进行赋值,进而根据第三词集中词与数值的关系,将第一词集和第二词集转换为数值表示形式,进而对第一词集和第二词集进行词频编码,即根据第一词集和第二词集中每个词出现的次数统计词频;而后进行词频编码后的第一词集和第二词集就可以作为两个多维向量,采用余弦相似度计算方法进行相似度计算,以得到合同模板和签署合同之间的相似度,解决了如何计算合同模板和签署合同之间的相似度的问题。

在上述任一实施例中,预设相似度范围阈值根据合同模板与签署合同之间的一致程度分为第一范围阈值、第二范围阈值、第三范围阈值、第四范围阈值和第五范围阈值;第一范围阈值为签署合同使用的模板与合同模板不一致时的相似度;第二范围阈值为签署合同使用的模板与合同模板一致,但存在不一致内容时的相似度;第三范围阈值为签署合同使用的模板与合同模板一致,但缺少连续段落或连续条款时的相似度;第四范围阈值为签署合同使用的模板与合同模板一致,但页码顺序不一致时的相似度;第五范围阈值为签署合同使用的模板与合同模板一致,但增加了签署方的相关信息时的相似度;判定模块208具体同于:将相似度与预设相似度范围阈值进行对比;当相似度大于第一范围阈值、第二范围阈值和第三范围阈值,且大于等于第四范围阈值和第五范围阈值时,判定签署合同通过审核。

在该实施例中,预先存储有人工测算出的签署合同与合同模板之间不同的一致程度对应的相似度范围,根据合同模板与签署合同之间的一致程度,划分出的第一范围阈值、第二范围阈值、第三范围阈值、第四范围阈值和第五范围阈值。其中,签署合同时使用的合同模版与审核通过的合同模版完全不一致,即签署合同所使用的模板并不是上传至系统的合同模板,通过测算得到此类情况通常相似度在第五范围阈值内;签署合同时使用的合同模版与审核通过的合同模版有部分内容不一致,即签署合同和合同模板中的内容部分相同,其余部分的内容不同,例如,签署合同的内容包括O和P,合同模板的内容包括O和Q,其中P和Q就是不一致内容,通过测算得到此类情况通常相似度在第四范围阈值内;签署合同时使用的合同模版与审核通过的合同模版基本一致,但缺少部分连续段落或关键条款,例如签署合同的内容包括O,合同模板的内容包括O和Q,其中Q就是缺少的部分连续段落或关键条款,通过测算得到此类情况通常相似度在第三范围阈值内;签署合同时使用的合同模版与审核通过的合同模版是一致的,但是上传时模版的页码顺序与合同的页码顺序不一致,通过测算得到此类情况通常相似度在第二范围阈值内;签署合同时使用的合同模版与审核通过的合同模版是一致的,但是签署中增加了签署方的相关信息,例如,签署合同的内容包括O和P,合同模板的内容包括O,其中P就是增加的签署方的相关信息,通过测算得到此类情况通常相似度在第一范围阈值内。而上述情况中只有相似度大于第一范围阈值、第二范围阈值和第三阈值,且大于等于第四范围阈值和第五范围阈值时,才视作合同与模版一致,可以通过审核,因此只有当相似度满足上述条件时,才视为相似性达标,相似性审核通过。因而通过将计算得到的签署合同和合同模板之间的相似度与预设相似度范围阈值进行对比,当相似度大于第一范围阈值、第二范围阈值和第三阈值,且大于等于第四范围阈值和第五范围阈值时,判定签署合同审核通过,以此解决了如何判定计算出的签署合同和合同模板之间的相似度是否符合审核通过的标准的问题。在上述任一实施例中,合同模板的字数分为多个等级,不同的字数等级一一对应有不同的预设相似度范围阈值,合同审核系统还包括:选择模块,用于根据合同模板的字数选取与该字数等级对应的预设相似度范围阈值。

在该实施例中,将合同模板字数进行等级划分,由于相似度是根据先分词而后进行词频统计的原理计算的,当合同总文本长度越短,缺少一个词或一个句对合同相似度的影响越高,因此需要根据合同模版的字数多少来匹配不同的相似度范围阈值,以使得根据相似度来判断合同是否审核通过能够更加精准可靠。

进一步地,合同模板的字数分为0字-200字、200字-600字、600字-1200字、1200字-2000字和2000字及以上五个等级,每个等级一一对应有各自的预设相似度范围阈值。

在该实施例中,根据实际审核的经验,分别以合同模版字数为0字-200字,合同模版字数为200字-600字,合同模版字数为600字-1200字,合同模版字数为1200字-2000字,合同模版字数为2000字及以上几个等级,分别对将第一范围阈值至第五范围阈值进行计算,进而得到适配于合同模版字数为0字-200字的第一范围阈值至第五范围阈值,适配于合同模版字数为200字-600字的第一范围阈值至第五范围阈值,适配于合同模版字数为600字-1200字的第一范围阈值至第五范围阈值,适配于合同模版字数为1200字-2000字的第一范围阈值至第五范围阈值,适配于合同模版字数为2000字及以上的第一范围阈值至第五范围阈值。进而就能过在进行相速度于预设相似度范围阈值对比之前,先根据合同模板的字数选取对应的预设相似度范围阈值,即适配于合同模版字数为2000字及以上的第一范围阈值至第五范围阈值,而后再进行相似度判断,使得合同审核的过程更加的可靠、准确。

本发明的第三方面实施例提供了一种合同审核系统300,如图3所示,包括:存储器302、处理器304及存储在存储器上并可在处理器上运行的程序,程序被处理器304执行时实现上述任一实施例的合同审核方法限定的步骤。

根据本发明的实施例提供的合同审核系统300,包括存储器302和处理器304及存储在存储器上并可在处理器上运行的程序,程序被处理器执行时实现上述任一合同审核方法限定的步骤。同时,由于本申请的合同审核系统能够实现上述任一合同审核方法限定的步骤,因此本实施例提供的合同审核系统具有上述任一实施例中提供的合同审核方法的全部有益效果。

本发明的第四方面实施例提供了一种可读存储介质,其上存储有程序和/或指令,程序和/或指令被处理器执行时实现上述任一实施例中的合同审核方法的步骤。

根据本发明的实施例提供的可读存储介质,由于其上存储的程序和/或指令被处理器执行时可实现上述任一实施例中的合同审核方法的步骤,因而具有上述合同审核方法的全部有益技术效果,在此不再赘述。

下面结合另一具体实施例来进一步介绍本申请提供的合同审核方法。

本实施例提供了一种合同审核方法,合同文档普遍存在可标准化、结构性强、重复性高的特点。其中重复性的特点体现在实际拟定和签署过程中。而实际签署过程通常如下:

1.拟定一份未进行签署的标准合同模版

2.确定模版中的条款内容,书写规范等没有问题之后

3.将模版打印出来,供合同的甲乙方进行签署

在这个过程中,存在多份合同使用同一个模版的情况。

本实施例提供的合同审核方法是在人工进行合同模版审核后,对模版及使用该模版签署的合同进行智能比对,若合同是使用这份模版签署的,并且没有内容篡改则智能审核通过。

而在此过程中需解决多个问题,如合同与合同模版的内容获取问题、合同与合同模版相似性的识别问题、合同的相似性识别是否达标的问题。

合同与合同模版的内容获取问题:

通过系统流程设计,合同的提供方需要先在系统提交一份供审核方进行人工审核的模版,等待模版通过审核后,再将使用该模版签署完成的纸质合同以图片或扫描文件的格式上传至系统。因系统无法将图片文件直接进行比对,在智能审核开始前,需要先通过OCR(文字识别)的方法,将图片或者扫描文件中的文字识别成可编辑的文本。

合同与合同模版相似性的识别问题:

采用余弦相似度算法对比两个文本的相似性。

1.计算原理:

余弦相似度是通过计算两个向量的夹角余弦值来评估二者的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间,如图4所示。

将向量根据坐标值,绘制到向量空间中。如最常见的二维空间。求得二者的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。因此,可以通过夹角的大小,来判断两个向量的相似程度。夹角越小,就代表越相似。

以二维空间为例,图4中的a和b是两个向量,我们要计算它们的夹角θ。余弦定理告诉我们,可以用如下公式求得:

数学家已经证明,余弦的这种计算方法对n维向量也成立。假定X和Y是两个n维向量,X是{x

2.计算步骤

将OCR识别出的合同模版内容和签署合同内容进行比对。

以两句话举例:

合同模版内容A:您应当遵守您与某公司签订的任何书面协议的约定。

签署合同内容B:您必须遵守与某公司签订的协议内容。

第一步,分词:

使用NLP(自然语言处理)分词对上面两个句子分词后,分别得到两个列表:

listA={您,应当,遵守,与,某公司,签订,的,任何,书面,协议,约定}listB={您,必须,遵守,与,某,公司,签订,的,协议,内容}

第二步,列出所有词

将listA和listB放在一个set(集合)中,得到:

set={您,应当,必须,遵守,与,某,公司,签订,的,任何,书面,协议,内容,约定}

将上述set转换为dict(词典),key为set中的词,value为set中词出现的位置

dict1={您

第三步,分词编码:

将listA和listB进行编码,将每个字转换为出现在set中的位置,转换后为:

listAcode={0,1,3,0,4,5,6,7,8,9,10,11,8,13}

listBcode={0,2,3,4,5,6,7,8,11,12}

分析listAcode,结合dict1,可以看到8对应的字是“的”,4对应的字是“某”,9对应的字是“任何”,就是句子A和句子B转换为用数字来表示。

第四步,词频向量化:

对listAcode和listBcode进行词频统计,就是计算每个分词出现的次数。统计后得到的结果如下:

listAcodeFre={2,1,0,1,1,1,1,1,2,1,1,1,0,1}

listBcodeFre={1,0,1,1,1,1,1,1,1,0,0,1,1,0}

第五步,套用余弦函数计量两个句子的相似度:

得出两个句子的词频向量之后,计算两个向量之间夹角的余弦值,得到合同与模版的相似性数值。至此解决了签署合同与合同模版相似性的识别问题。

合同的相似性识别是否达标的问题:

根据第二个问题的处理结果,可得签署合同与合同模版的相似性数值为A,但不可知A是否代表两者相似度符合标准。

通常合同审核当中常遇到的合同与模版之间的情况有:

1.签署合同时使用的模版与审核通过的模版完全不一致,并通过测算得到此类情况通常相似度得分在B以下。

2.签署合同时使用的模版与审核通过的模版有部分内容不一致,并通过测算得到此类情况通常相似度得分在C以下。

3.签署合同时使用的模版与审核通过的模版基本一致,但缺少部分连续段落或关键条款,并通过测算得到此类情况通常相似度得分在D以下。

4.签署合同时使用的模版与审核通过的模版是一致的,但是上传时模版的页码顺序与合同的页码顺序不一致,并通过测算得到此类情况通常相似度得分在E以下。

5.签署合同时使用的模版与审核通过的模版是一致的,但是签署中增加了签署方的相关信息,并通过测算得到此类情况通常相似度得分在F以下。

由上述可知,1,2,3情况是不允许合同审核通过的,4,5可以视作合同与模版一致,可以审核通过的,因此当A满足>B,C,D且≥D,E的情况下可以视为相似性达标,相似性审核通过。

除上述情况外,由于相似度是根据分词进行词频统计的原理计算的,当合同总文本长度越短,缺少一个词或一个句对合同相似度的影响越高,因此上述的BCDEF几个分数,都需要根据合同模版的长短不同而有所不同。根据实际审核的经验,将BCDEF的分数分别以模版长度0字-200字,模版长度200字-600字,模版长度600字-1200字,模版长度1200字-2000字,模版长度2000字及以上几个档位,分别测算,得到经验值BCDEF(200字),BCDEF(600字),BCDEF(1200字),BCDEF(2000字),BCDEF(2000字以上)。

对比A与BCDEF的大小时,也要先根据审核通过的模版文字数量选择档位进行比对,比如当模版文字数量在2000字以上时,将A与BCDEF(2000字以上)进行比对,并且满足A满足>B,C,D且≥D,E的情况下可以视为相似性达标,相似性审核通过。经由上述判定,解决了合同的相似性识别是否达标的问题,达标智能审核结果通过,未达标得到智能审核结果不通过。

经过实验验证,使用纸质合同智能审核技术后,合同提供方共上传了43408份合同,3400份模版,模版通过审核后,由智能审核系统自动审核了43408份合同,平均每份合同审核时间20秒,如图5所示,上方是智能审核完成时间,下方是开始智能审核时间,审核耗时总计20秒。使用技术初期为验证智能审核的准确率,采用人工复审的方式进行了准确性验证,经验证在43408份经过智能审核的合同中,人工复审与智能审核意见不一致的只有2147份,人工复审与智能审核意见一致的有41261份,智能审核的准确率95%。

由于合同提供方在实际签署场景下会使用一个合同模版与不同乙方签署合同。使用智能审核技术前,审核方需要对所有合同逐字逐句进行审阅,耗时长,易遗漏。使用智能审核技术后,合同提供方将上传一份合同的签署模版和多份合同,审核方只需要审核一份合同模版,智能审核系统将自动完成对应几十甚至上百份合同的审核,大大减少了审核人员的工作量,提高了审核效率。

在本说明书中,术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中,术语“一个实施例”、“一些实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号