首页> 中国专利> 一种基于语义分析的档案自动开放鉴定方法及系统

一种基于语义分析的档案自动开放鉴定方法及系统

摘要

本发明公开了一种基于语义分析的档案自动开放鉴定方法及系统,其中,所述方法包括:获得批量集待鉴定档案信息;将批量集待鉴定档案信息转换为批量集纯文本档案信息;将批量集纯文本档案信息输入格式语义库,获得第一训练结果和第二训练结果;将第二批次纯文本档案信息输入关键词库,获得第三训练结果和第四训练结果;将第四批次纯文本档案信息输入语义知识库,获得第五训练结果和第六训练结果;将第六批次纯文本档案信息发送至人工审核端进行内容语义审核,生成第一审核结果;获得可开放档案信息。解决了现有技术中的基于单一的光学字符识别技术对档案进行开放鉴定,使得鉴定结果存在误判率高、准确率低的缺陷的技术问题。

著录项

  • 公开/公告号CN112989018A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 江苏联著实业股份有限公司;

    申请/专利号CN202110542853.8

  • 申请日2021-05-19

  • 分类号G06F16/332(20190101);G06F16/335(20190101);G06F16/38(20190101);G06F40/30(20200101);G06F40/151(20200101);G06K9/62(20060101);

  • 代理机构32471 无锡苏元专利代理事务所(普通合伙);

  • 代理人王清伟

  • 地址 210006 江苏省南京市秦淮区中山南路501号通服大厦1502室

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及档案开放鉴定技术领域,尤其涉及一种基于语义分析的档案自动开放鉴定方法及系统。

背景技术

档案工作的根本目的是整合各种档案信息资源以便于社会大众的利用,档案开放是社会大众获取和利用档案信息最基本也是最重要的途径。随着科技的日新月异,电子信息技术也给档案工作带来了巨大的变革,新技术的引进和运用不会改变档案工作的根本目的,而是为了更加高效、更加便捷地为社会大众服务。

但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:

现有技术中存在基于单一的光学字符识别技术对档案进行开放鉴定,使得鉴定结果存在误判率高、准确率低的缺陷的技术问题。

发明内容

本申请实施例通过提供一种基于语义分析的档案自动开放鉴定方法及系统,解决了现有技术中的基于单一的光学字符识别技术对档案进行开放鉴定,使得鉴定结果存在误判率高、准确率低的缺陷的技术问题,通过基于字符识别系统,将待鉴定档案转换为纯文本档案,进而基于格式语义库进行第一轮的格式检索,基于关键词库进行第二轮的关键词检索,基于语义知识库进行第三轮的预设语义检索,最终将可开放档案发送至人工审核端进行最后一道防线的人工审核,确保档案开放鉴定的准确性,达到了在不增加鉴定成本的基础上,进一步提高档案开放鉴定的准确率和覆盖率的技术效果。

本申请实施例提供一种基于语义分析的档案自动开放鉴定方法,其中,所述方法应用于档案自动开放鉴定系统,且所述系统与字符识别系统、语义识别系统通信连接,所述方法还包括:获得批量集待鉴定档案信息;基于所述字符识别系统,将所述批量集待鉴定档案信息转换为批量集纯文本档案信息;将所述批量集纯文本档案信息输入格式语义库进行训练,用标识的特殊格式对输入信息进行训练,获得第一训练结果和第二训练结果,其中,所述第一训练结果为符合所述特殊格式的第一批次纯文本档案信息,所述第二训练结果为不符合所述特殊格式的第二批次纯文本档案信息,且所述格式语义库包含于所述语义识别系统;将所述第二批次纯文本档案信息输入关键词库进行训练,用标识的关键词集合对输入信息进行训练,获得第三训练结果和第四训练结果,其中,所述第三训练结果为包含所述关键词集合的第三批次纯文本档案信息,所述第四训练结果为不包含所述关键词集合的第四批次纯文本档案信息,且所述关键词库包含于所述语义识别系统;将所述第四批次纯文本档案信息输入语义知识库进行训练,用标识的预设语义信息对输入信息进行训练,获得第五训练结果和第六训练结果,其中,所述第五训练结果为符合所述预设语义信息的第五批次纯文本档案信息,所述第六训练结果为不符合所述预设语义信息的第六批次纯文本档案信息,且所述语义知识库包含于所述语义识别系统;将所述第六批次纯文本档案信息发送至人工审核端进行内容语义审核,生成第一审核结果;根据所述第一审核结果,获得所述批量集待鉴定档案信息中的可开放档案信息。

另一方面,本申请还提供了一种基于语义分析的档案自动开放鉴定系统,其中,所述系统包括:第一获得单元:所述第一获得单元用于获得批量集待鉴定档案信息;第一转换单元:所述第一转换单元用于基于所述字符识别系统,将所述批量集待鉴定档案信息转换为批量集纯文本档案信息;第一输入单元:所述第一输入单元用于将所述批量集纯文本档案信息输入格式语义库进行训练,用标识的特殊格式对输入信息进行训练,获得第一训练结果和第二训练结果,其中,所述第一训练结果为符合所述特殊格式的第一批次纯文本档案信息,所述第二训练结果为不符合所述特殊格式的第二批次纯文本档案信息,且所述格式语义库包含于所述语义识别系统;第二输入单元:所述第二输入单元用于将所述第二批次纯文本档案信息输入关键词库进行训练,用标识的关键词集合对输入信息进行训练,获得第三训练结果和第四训练结果,其中,所述第三训练结果为包含所述关键词集合的第三批次纯文本档案信息,所述第四训练结果为不包含所述关键词集合的第四批次纯文本档案信息,且所述关键词库包含于所述语义识别系统;第三输入单元:所述第三输入单元用于将所述第四批次纯文本档案信息输入语义知识库进行训练,用标识的预设语义信息对输入信息进行训练,获得第五训练结果和第六训练结果,其中,所述第五训练结果为符合所述预设语义信息的第五批次纯文本档案信息,所述第六训练结果为不符合所述预设语义信息的第六批次纯文本档案信息,且所述语义知识库包含于所述语义识别系统;第一发送单元:所述第一发送单元用于将所述第六批次纯文本档案信息发送至人工审核端进行内容语义审核,生成第一审核结果;第二获得单元:所述第二获得单元用于根据所述第一审核结果,获得所述批量集待鉴定档案信息中的可开放档案信息。

本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

通过基于字符识别系统,将待鉴定档案转换为纯文本档案,进而基于格式语义库进行第一轮的格式检索,基于关键词库进行第二轮的关键词检索,基于语义知识库进行第三轮的预设语义检索,最终将可开放档案发送至人工审核端进行最后一道防线的人工审核,确保档案开放鉴定的准确性,达到了在不增加鉴定成本的基础上,进一步提高档案开放鉴定的准确率和覆盖率的技术效果。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种基于语义分析的档案自动开放鉴定方法的流程示意图;

图2为本申请实施例一种基于语义分析的档案自动开放鉴定系统的结构示意图;

图3为本申请实施例示例性电子设备的结构示意图。

附图标记说明:第一获得单元11,第一转换单元12,第一输入单元13,第二输入单元14,第三输入单元15,第一发送单元16,第二获得单元17,总线300,接收器301,处理器302,发送器303,存储器304,总线接口305。

具体实施方式

本申请实施例通过提供一种基于语义分析的档案自动开放鉴定方法及系统,解决了现有技术中的基于单一的光学字符识别技术对档案进行开放鉴定,使得鉴定结果存在误判率高、准确率低的缺陷的技术问题,通过基于字符识别系统,将待鉴定档案转换为纯文本档案,进而基于格式语义库进行第一轮的格式检索,基于关键词库进行第二轮的关键词检索,基于语义知识库进行第三轮的预设语义检索,最终将可开放档案发送至人工审核端进行最后一道防线的人工审核,确保档案开放鉴定的准确性,达到了在不增加鉴定成本的基础上,进一步提高档案开放鉴定的准确率和覆盖率的技术效果。

下面,将参考附图详细的描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

申请概述

档案工作的根本目的是整合各种档案信息资源以便于社会大众的利用,档案开放是社会大众获取和利用档案信息最基本也是最重要的途径。随着科技的日新月异,电子信息技术也给档案工作带来了巨大的变革,新技术的引进和运用不会改变档案工作的根本目的,而是为了更加高效、更加便捷地为社会大众服务。现有技术中存在基于单一的光学字符识别技术对档案进行开放鉴定,使得鉴定结果存在误判率高、准确率低的缺陷的技术问题。

针对上述技术问题,本申请提供的技术方案总体思路如下:

本本申请实施例提供一种基于语义分析的档案自动开放鉴定方法,其中,所述方法应用于档案自动开放鉴定系统,且所述系统与字符识别系统、语义识别系统通信连接,所述方法还包括:获得批量集待鉴定档案信息;基于所述字符识别系统,将所述批量集待鉴定档案信息转换为批量集纯文本档案信息;将所述批量集纯文本档案信息输入格式语义库进行训练,用标识的特殊格式对输入信息进行训练,获得第一训练结果和第二训练结果,其中,所述第一训练结果为符合所述特殊格式的第一批次纯文本档案信息,所述第二训练结果为不符合所述特殊格式的第二批次纯文本档案信息,且所述格式语义库包含于所述语义识别系统;将所述第二批次纯文本档案信息输入关键词库进行训练,用标识的关键词集合对输入信息进行训练,获得第三训练结果和第四训练结果,其中,所述第三训练结果为包含所述关键词集合的第三批次纯文本档案信息,所述第四训练结果为不包含所述关键词集合的第四批次纯文本档案信息,且所述关键词库包含于所述语义识别系统;将所述第四批次纯文本档案信息输入语义知识库进行训练,用标识的预设语义信息对输入信息进行训练,获得第五训练结果和第六训练结果,其中,所述第五训练结果为符合所述预设语义信息的第五批次纯文本档案信息,所述第六训练结果为不符合所述预设语义信息的第六批次纯文本档案信息,且所述语义知识库包含于所述语义识别系统;将所述第六批次纯文本档案信息发送至人工审核端进行内容语义审核,生成第一审核结果;根据所述第一审核结果,获得所述批量集待鉴定档案信息中的可开放档案信息。

为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

如图1所示,本申请实施例提供了一种基于语义分析的档案自动开放鉴定方法,其中,所述方法应用于档案自动开放鉴定系统,且所述系统与字符识别系统、语义识别系统通信连接,所述方法还包括:

步骤S100:获得批量集待鉴定档案信息;

具体而言,档案工作的根本目的是整合各种档案信息资源以便于社会大众的利用,档案开放是社会大众获取和利用档案信息最基本也是最重要的途径。随着科技的日新月异,电子信息技术也给档案工作带来了巨大的变革,“档案数字化”、“智慧档案”的概念随之应运而生。新技术的引进和运用不会改变档案工作的根本目的,而是为了更加高效、更加便捷地为社会大众服务。在本申请实施例中,所述批量集待鉴定档案信息可理解为某档案馆需要进行档案开放鉴定的信息。

步骤S200:基于所述字符识别系统,将所述批量集待鉴定档案信息转换为批量集纯文本档案信息;

具体而言,所述字符识别系统利用光学字符识别(OCR)技术将单层PDF文件或图片文件中的文字识别出来,或通过格式转换技术将双层PDF或OFD文件转换为纯文本文件,然后利用全文检索技术实现对文本档案的关键词过滤。所述批量集纯文本档案信息为转换过后的纯文本档案信息,可直接进行关键字的检索。

步骤S300:将所述批量集纯文本档案信息输入格式语义库进行训练,用标识的特殊格式对输入信息进行训练,获得第一训练结果和第二训练结果,其中,所述第一训练结果为符合所述特殊格式的第一批次纯文本档案信息,所述第二训练结果为不符合所述特殊格式的第二批次纯文本档案信息,且所述格式语义库包含于所述语义识别系统;

具体而言,所述格式语义库用于对文本档案的格式进行检索,进一步可理解为,特别是证书、证件、票据、合同、年报,甚至通知、公告、会议纪要等,为了突出内容的逻辑关系和层次,都有固定的版面格式,所述特殊格式即为不可开放档案具备的文本格式信息,基于所述格式语义库的第一轮检索,可获得不同的训练结果,所述第一训练结果为文本中包含明显的不可开放档案要求的文本格式档案信息,所述第二训练结果为文本中不包含不可开放档案要求的文本格式档案信息。

步骤S400:将所述第二批次纯文本档案信息输入关键词库进行训练,用标识的关键词集合对输入信息进行训练,获得第三训练结果和第四训练结果,其中,所述第三训练结果为包含所述关键词集合的第三批次纯文本档案信息,所述第四训练结果为不包含所述关键词集合的第四批次纯文本档案信息,且所述关键词库包含于所述语义识别系统;

具体而言,所述关键词库是对所述批量集待鉴定档案信息的第二轮检索,因所述第一批次纯文本档案信息符合所述特殊格式要求,可对其添加不可开放档案的标签,则对所述第二批次纯文本档案信息进行第二轮检索,所述关键词库由若干包含不可开放档案信息的关键词构成,所述关键词集合即为不可开放档案信息的关键词的集合,基于所述关键词库的第二轮检索,可获得不同的训练结果,所述第三训练结果为文本中包含明显的不可开放档案要求的关键词集合的档案信息,所述第四训练结果为文本中不包含明显的不可开放档案要求的关键词集合的档案信息。

步骤S500:将所述第四批次纯文本档案信息输入语义知识库进行训练,用标识的预设语义信息对输入信息进行训练,获得第五训练结果和第六训练结果,其中,所述第五训练结果为符合所述预设语义信息的第五批次纯文本档案信息,所述第六训练结果为不符合所述预设语义信息的第六批次纯文本档案信息,且所述语义知识库包含于所述语义识别系统;

具体而言,所述语义知识库是对所述批量集待鉴定档案信息的第三轮检索,因所述第三批次纯文本档案信息符合所述关键词集合的要求,可对其添加不可开放档案的标签,则对所述第四批次纯文本档案信息进行第三轮检索,所述语义知识库可对隐含语义进行分析,即在句法分析的基础上,对句子中各成分及其组合所表达的语义(意思)进行分析,再通过一个语义模型(即:类概念之间的逻辑关系或行为关系),将这些语义(意思)与“不可开放条件”的门类词对应起来,从而实现不依赖关键词(依靠语义)将符合“不可开放条件”的句子内容检索出来。在隐含语义分析中,很多档案开放鉴定条件都需要语义模型的支持,将所有必须的语义模型集合在一起,就是语义知识库。进一步,所述预设语义信息即为预设的不可开放档案要求的语义信息,基于所述语义知识库的第三轮检索,可获得不同的训练结果,所述第五训练结果为文本中包含明显的不可开放档案要求的预设语义信息的档案信息,所述第六训练结果为文本中不包含明显的不可开放档案要求的关键词集合的档案信息。

步骤S600:将所述第六批次纯文本档案信息发送至人工审核端进行内容语义审核,生成第一审核结果;

步骤S700:根据所述第一审核结果,获得所述批量集待鉴定档案信息中的可开放档案信息。

具体而言,因所述第五批次纯文本档案信息符合所述预设语义信息的要求,可对其添加不可开放档案的要求,可将第三轮检索得到的所述第六批次纯文本档案进行最后的人工核验,即发送至人工审核端进行内容语义审核,进一步,在输出不可开放档案的同时,将候选开放的档案移交人工审核。人工审核是保证开放鉴定准确性的最后一道防线,在人工确认无误后,输出可以开放的档案(集),若所述人工审核端审核通过所述第六批次纯文本档案信息,可根据所述第一审核结果,获得所述批量集待鉴定档案信息中的可开放档案信息。通过基于字符识别系统,将待鉴定档案转换为纯文本档案,进而基于格式语义库进行第一轮的格式检索,基于关键词库进行第二轮的关键词检索,基于语义知识库进行第三轮的预设语义检索,最终将可开放档案发送至人工审核端进行最后一道防线的人工审核,确保档案开放鉴定的准确性,达到了在不增加鉴定成本的基础上,进一步提高档案开放鉴定的准确率和覆盖率的技术效果。

进一步,本申请实施例还包括:

步骤S510:基于所述第四批次纯文本档案信息,提取第一语句信息;

步骤S520:根据所述第一语句信息,获得第一成分信息、第二成分信息以及第三成分信息;

步骤S530:对所述第一成分信息、所述第二成分信息以及所述第三成分信息进行遍历分析,获得第一分析结果;

步骤S540:对所述第一语句信息进行语义分析,获得第二分析结果;

步骤S550:对所述第一分析结果和所述第二分析结果进行特征融合,获得第三分析结果;

步骤S560:获得语义分析模型,所述语义分析模型基于不可开放语义信息进行构建,且所述语义分析模型与所述语义知识库通信连接;

步骤S570:将所述第一语句信息输入所述语义分析模型,获得第四分析结果;

步骤S580:判断所述第四分析结果与所述第三分析结果是否保持一致;

步骤S590:若所述第四分析结果与所述第三分析结果没有保持一致,基于所述第三分析结果,对所述第四分析结果进行修正。

具体而言,所述第四批次纯文本档信息为文本中不包含明显的不可开放档案要求的关键词集合的档案信息,为了进一步对其进行语义分析,所述第一语句信息为从所述第四批次纯文本档案信息中提取到的语句,所述第一成分信息、所述第二成分信息以及所述第三成分信息为所述第一语句信息的句子结构,包括主语、谓语、宾语、宾语补足语等成分,进而对各语句成分进行遍历分析,所述第一分析结果即为句法分析得到的结果,通过对语句中各句子成分进行分析,同时,对所述第一语句信息进行字面语义整体分析,所述第二分析结果即为字面语义分析得到的结果,所述第三分析结果为对句法分析结果、字面语义分析结果进行特征融合,综合得到的分析结果,同时,还可借助语义分析模型对所述第一语句信息进行模型分析,所述第四分析结果即为基于模型训练获得的分析结果,所述语义分析模型可对输入的语句进行不可开放语义信息训练,所述不可开放语义信息为档案馆根据实际要求设定的文本语义信息,进而判断综合分析得到的分析结果与模型训练得到的分析结果是否保持语义信息的一致,如果没有,则基于所述第三分析结果,对所述第四分析结果进行修正,因为模型训练存在数据的不完整性,使得训练数据覆盖不全面,因此可基于实际的语句分析结果对模型进行完善,实现了对档案文本进一步的语义分析,使得分析结果准确无误。

进一步,本申请实施例还包括:

步骤S591:若所述第四分析结果与所述第三分析结果没有保持一致,对所述第四分析结果和所述第三分析结果进行数据损失分析,获得第一损失数据;

步骤S592:将所述第一损失数据输入所述语义分析模型,生成第二语义分析模型;

步骤S593:根据所述第二语义分析模型,对所述第一损失数据进行增量学习。

具体而言,如果所述第四分析结果与所述第三分析结果没有保持一致,说明基于所述语义分析模型进行语义分析的结果存在不完整性,因此可对其进行数据损失分析,所述第一损失数据可理解为所述第三分析结果显示所述第一语句信息中含有所述预设语义信息,而所述第四分析结果中却没有训练出来,为了使得所述语义分析模型的训练数据覆盖全面,可将所述第一损失数据输入所述语义分析模型,生成所述第二语义分析模型,所述第二语义分析模型即为对损失数据进行训练的模型,扩充了训练数据的完整性,进而基于所述第二语义分析模型,对所述第一损失数据进行增量学习,使得所述语义分析模型的训练数据覆盖更加全面。

进一步,所述获得语义分析模型,步骤S560还包括:

步骤S561:获得第一档案鉴定单位的第一鉴定经验信息;

步骤S562:基于大数据,获得所述第一档案鉴定单位的第一开放鉴定条件信息;

步骤S563:对所述第一鉴定经验信息和所述第一开放鉴定条件信息进行信息融合,生成所述第一档案鉴定单位的不可开放语义信息;

步骤S564:基于所述不可开放语义信息,构建所述语义分析模型。

具体而言,为了使得档案鉴定语义信息更加完善,搭建完整的语义知识库框架,进一步,所述第一鉴定经验信息为所述第一档案鉴定单位的鉴定人员具备的专业知识和经验,所述第一开放鉴定条件信息为应结合国家颁布的档案开放鉴定条件的政策要求进行逐层解析和具体设定,进而基于所述第一鉴定经验信息和所述第一开放鉴定条件信息进行信息融合,所述不可开放语义信息即为最终融合得到的语义信息,进而基于所述不可开放语义信息搭建语义匹配规则,进而构建所述语义分析模型,搭建所述语义知识库的框架,实现了使得档案的鉴定语义信息更加完善。

进一步,所述将所述第一语句信息输入所述语义分析模型,获得第四分析结果,步骤S570还包括:

步骤S571:根据所述不可开放语义信息,生成不可开放语义数据集;

步骤S572:获得所述第一语句信息的目标卷基特征;

步骤S573:根据所述目标卷基特征,对所述语义分析模型中的所述不可开放语义数据集进行遍历的卷积运算,获得第一卷积结果;

步骤S574:根据所述第一卷积结果,获得所述第四分析结果。

具体而言,为了更加科学准确的基于所述语义分析模型,获得所述第四分析结果,进一步,所述不可开放语义数据集由所述不可开放语义信息集合而成,所述不可开放语义数据集具有总体分布卷积特征,所述第一语句信息具有所述目标卷基特征,所述目标卷积特征为需要训练获得的分布特征,进而基于所述目标卷基特征,对所述语义分析模型中的所述不可开放语义数据集进行遍历的卷积运算,所述第一卷积结果即为卷积运算中的最大值,进而基于所述第一卷积结果,获得所述第四分析结果,实现了更加科学准确的基于所述语义分析模型,获得所述第四分析结果。

进一步,本申请实施例还包括:

步骤S810:将所述第一批次纯文本档案信息、所述第三批次纯文本档案信息以及所述第五批次纯文本档案信息上传至第一鉴定储存区块,其中,所述第一鉴定储存区块存储不可开放档案信息;

步骤S820:将所述第六批次纯文本档案信息上传至第二鉴定储存区块,其中,所述第二鉴定储存区块存储可开放档案信息,且与所述人工审核端通信连接;

步骤S830:若所述人工审核端审核通过所述第六批次纯文本档案信息,生成第一输出指令;

步骤S840:根据所述第一输出指令,输出所述批量集待鉴定档案信息中的所述第六批次纯文本档案信息,并对所述第一鉴定储存区块进行加密存储。

具体而言,为了准确区分并输出可开放档案和不可开放档案,进一步,因所述第一批次纯文本档案信息、所述第三批次纯文本档案信息以及所述第五批次纯文本档案信息分别具备明显的特殊格式、关键词结合以及预设语义信息,因此,对其均添加不可开放档案标签信息,进而上传至所述第一鉴定储存区块,所述第一鉴定储存区块专用于存储不可开放档案信息,同时,将所述第六批次纯文本档案信息上传至第二鉴定储存区块,所述第二鉴定储存区块专用于存储可开放档案信息,当所述人工审核端审核通过所述第六批次纯文本档案信息后,再根据所述第一输出指令,输出所述批量集待鉴定档案信息中的所述第六批次纯文本档案信息即可开放档案,并对所述第一鉴定储存区块进行加密存储,实现了准确区分并输出可开放档案和不可开放档案。

进一步,所述对所述第一鉴定储存区块进行加密存储,步骤S840还包括:

步骤S841:基于HMAC算法,根据所述第一批次纯文本档案信息,获得第一密钥信息;

步骤S842:根据所述第一批次纯文本档案信息和所述第一密钥信息,生成第一消息摘要;

步骤S843:基于所述第三批次纯文本档案信息和第二密钥信息,生成第二消息摘要,以此类推,基于所述第五批次纯文本档案信息和第三密钥信息,生成第三消息摘要;

步骤S844:将所述第一消息摘要、所述第二消息摘要以及所述第三消息摘要存储至所述第一鉴定储存区块。

具体而言,为了对不可开放档案进行加密存储,进一步,所述HMAC算法,即密钥相关的哈希运算消息认证码,HMAC运算利用hash算法,以一个消息M和一个密钥K作为输入,生成一个定长的消息摘要作为输出,它引入了密钥,其安全性已经不完全依赖于所使用的Hash算法。基于所述第一批次纯文本档案信息作为消息M、所述第一密钥信息作为密钥K,生成所述第一消息摘要作为输出,同理,依次生成所述第二消息摘要和所述第三消息摘要,进而将所述第一消息摘要、所述第二消息摘要以及所述第三消息摘要存储至所述第一鉴定储存区块,实现了对不可开放档案进行加密存储。

综上所述,本申请实施例所提供的一种基于语义分析的档案自动开放鉴定方法及系统具有如下技术效果:

1、通过基于字符识别系统,将待鉴定档案转换为纯文本档案,进而基于格式语义库进行第一轮的格式检索,基于关键词库进行第二轮的关键词检索,基于语义知识库进行第三轮的预设语义检索,最终将可开放档案发送至人工审核端进行最后一道防线的人工审核,确保档案开放鉴定的准确性,达到了在不增加鉴定成本的基础上,进一步提高档案开放鉴定的准确率和覆盖率的技术效果。

实施例二

基于与前述实施例中一种基于语义分析的档案自动开放鉴定方法同样发明构思,本发明还提供了一种基于语义分析的档案自动开放鉴定系统,如图2所示,所述系统包括:

第一获得单元11:所述第一获得单元11用于获得批量集待鉴定档案信息;

第一转换单元12:所述第一转换单元12用于基于所述字符识别系统,将所述批量集待鉴定档案信息转换为批量集纯文本档案信息;

第一输入单元13:所述第一输入单元13用于将所述批量集纯文本档案信息输入格式语义库进行训练,用标识的特殊格式对输入信息进行训练,获得第一训练结果和第二训练结果,其中,所述第一训练结果为符合所述特殊格式的第一批次纯文本档案信息,所述第二训练结果为不符合所述特殊格式的第二批次纯文本档案信息,且所述格式语义库包含于所述语义识别系统;

第二输入单元14:所述第二输入单元14用于将所述第二批次纯文本档案信息输入关键词库进行训练,用标识的关键词集合对输入信息进行训练,获得第三训练结果和第四训练结果,其中,所述第三训练结果为包含所述关键词集合的第三批次纯文本档案信息,所述第四训练结果为不包含所述关键词集合的第四批次纯文本档案信息,且所述关键词库包含于所述语义识别系统;

第三输入单元15:所述第三输入单元15用于将所述第四批次纯文本档案信息输入语义知识库进行训练,用标识的预设语义信息对输入信息进行训练,获得第五训练结果和第六训练结果,其中,所述第五训练结果为符合所述预设语义信息的第五批次纯文本档案信息,所述第六训练结果为不符合所述预设语义信息的第六批次纯文本档案信息,且所述语义知识库包含于所述语义识别系统;

第一发送单元16:所述第一发送单元16用于将所述第六批次纯文本档案信息发送至人工审核端进行内容语义审核,生成第一审核结果;

第二获得单元17:所述第二获得单元17用于根据所述第一审核结果,获得所述批量集待鉴定档案信息中的可开放档案信息。

进一步的,所述系统还包括:

第一提取单元:所述第一提取单元用于基于所述第四批次纯文本档案信息,提取第一语句信息;

第三获得单元:所述第三获得单元用于根据所述第一语句信息,获得第一成分信息、第二成分信息以及第三成分信息;

第一分析单元:所述第一分析单元用于对所述第一成分信息、所述第二成分信息以及所述第三成分信息进行遍历分析,获得第一分析结果;

第二分析单元:所述第二分析单元用于对所述第一语句信息进行语义分析,获得第二分析结果;

第一融合单元:所述第一融合单元用于对所述第一分析结果和所述第二分析结果进行特征融合,获得第三分析结果;

第四获得单元:所述第四获得单元用于获得语义分析模型,所述语义分析模型基于不可开放语义信息进行构建,且所述语义分析模型与所述语义知识库通信连接;

第四输入单元:所述第四输入单元用于将所述第一语句信息输入所述语义分析模型,获得第四分析结果;

第一判断单元:所述第一判断单元用于判断所述第四分析结果与所述第三分析结果是否保持一致;

第一修正单元:所述第一修正单元用于若所述第四分析结果与所述第三分析结果没有保持一致,基于所述第三分析结果,对所述第四分析结果进行修正。

进一步的,所述系统还包括:

第三分析单元:所述第三分析单元用于若所述第四分析结果与所述第三分析结果没有保持一致,对所述第四分析结果和所述第三分析结果进行数据损失分析,获得第一损失数据;

第五输入单元:所述第五输入单元用于将所述第一损失数据输入所述语义分析模型,生成第二语义分析模型;

第一学习单元:所述第一学习单元用于根据所述第二语义分析模型,对所述第一损失数据进行增量学习。

进一步的,所述系统还包括:

第五获得单元:所述第五获得单元用于获得第一档案鉴定单位的第一鉴定经验信息;

第六获得单元:所述第六获得单元用于基于大数据,获得所述第一档案鉴定单位的第一开放鉴定条件信息;

第二融合单元:所述第二融合单元用于对所述第一鉴定经验信息和所述第一开放鉴定条件信息进行信息融合,生成所述第一档案鉴定单位的不可开放语义信息;

第一构建单元:所述第一构建单元用于基于所述不可开放语义信息,构建所述语义分析模型。

进一步的,所述系统还包括:

第一生成单元:所述第一生成单元用于根据所述不可开放语义信息,生成不可开放语义数据集;

第七获得单元:所述第七获得单元用于获得所述第一语句信息的目标卷基特征;

第一运算单元:所述第一运算单元用于根据所述目标卷基特征,对所述语义分析模型中的所述不可开放语义数据集进行遍历的卷积运算,获得第一卷积结果;

第八获得单元:所述第八获得单元用于根据所述第一卷积结果,获得所述第四分析结果。

进一步的,所述系统还包括:

第一上传单元:所述第一上传单元用于将所述第一批次纯文本档案信息、所述第三批次纯文本档案信息以及所述第五批次纯文本档案信息上传至第一鉴定储存区块,其中,所述第一鉴定储存区块存储不可开放档案信息;

第二上传单元:所述第二上传单元用于将所述第六批次纯文本档案信息上传至第二鉴定储存区块,其中,所述第二鉴定储存区块存储可开放档案信息,且与所述人工审核端通信连接;

第二生成单元:所述第二生成单元用于若所述人工审核端审核通过所述第六批次纯文本档案信息,生成第一输出指令;

第一输出单元:所述第一输出单元用于根据所述第一输出指令,输出所述批量集待鉴定档案信息中的所述第六批次纯文本档案信息,并对所述第一鉴定储存区块进行加密存储。

进一步的,所述系统还包括:

第九获得单元:所述第九获得单元用于基于HMAC算法,根据所述第一批次纯文本档案信息,获得第一密钥信息;

第三生成单元:所述第三生成单元用于根据所述第一批次纯文本档案信息和所述第一密钥信息,生成第一消息摘要;

第四生成单元:所述第四生成单元用于基于所述第三批次纯文本档案信息和第二密钥信息,生成第二消息摘要,以此类推,基于所述第五批次纯文本档案信息和第三密钥信息,生成第三消息摘要;

第一存储单元:所述第一存储单元用于将所述第一消息摘要、所述第二消息摘要以及所述第三消息摘要存储至所述第一鉴定储存区块。

前述图1实施例一中的一种基于语义分析的档案自动开放鉴定方法的各种变化方式和具体实例同样适用于本实施例的一种基于语义分析的档案自动开放鉴定系统,通过前述对一种基于语义分析的档案自动开放鉴定方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于语义分析的档案自动开放鉴定系统的实施方法,所以为了说明书的简洁,再次不再详述。

实施例三

下面参考图3来描述本申请实施例的电子设备。

图3图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实例施中一种基于语义分析的档案自动开放鉴定方法的发明构思,本发明还提供一种基于语义分析的档案自动开放鉴定系统,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种基于语义分析的档案自动开放鉴定系统的任一方法的步骤。

其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他系统通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

本申请实施例提供一种基于语义分析的档案自动开放鉴定方法,其中,所述方法应用于档案自动开放鉴定系统,且所述系统与字符识别系统、语义识别系统通信连接,所述方法还包括:获得批量集待鉴定档案信息;基于所述字符识别系统,将所述批量集待鉴定档案信息转换为批量集纯文本档案信息;将所述批量集纯文本档案信息输入格式语义库进行训练,用标识的特殊格式对输入信息进行训练,获得第一训练结果和第二训练结果,其中,所述第一训练结果为符合所述特殊格式的第一批次纯文本档案信息,所述第二训练结果为不符合所述特殊格式的第二批次纯文本档案信息,且所述格式语义库包含于所述语义识别系统;将所述第二批次纯文本档案信息输入关键词库进行训练,用标识的关键词集合对输入信息进行训练,获得第三训练结果和第四训练结果,其中,所述第三训练结果为包含所述关键词集合的第三批次纯文本档案信息,所述第四训练结果为不包含所述关键词集合的第四批次纯文本档案信息,且所述关键词库包含于所述语义识别系统;将所述第四批次纯文本档案信息输入语义知识库进行训练,用标识的预设语义信息对输入信息进行训练,获得第五训练结果和第六训练结果,其中,所述第五训练结果为符合所述预设语义信息的第五批次纯文本档案信息,所述第六训练结果为不符合所述预设语义信息的第六批次纯文本档案信息,且所述语义知识库包含于所述语义识别系统;将所述第六批次纯文本档案信息发送至人工审核端进行内容语义审核,生成第一审核结果;根据所述第一审核结果,获得所述批量集待鉴定档案信息中的可开放档案信息。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号