首页> 中国专利> 应用程序的合规性判别方法和装置

应用程序的合规性判别方法和装置

摘要

本说明书实施例提供一种应用程序的合规性判别方法和装置,方法包括:获取应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,所述第二类别集合基于所述隐私声明文本对应的词序列分类得到;当所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。能够快速有效的判别出应用程序是否合规。

著录项

  • 公开/公告号CN113326536A

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 支付宝(杭州)信息技术有限公司;

    申请/专利号CN202110612524.6

  • 申请日2021-06-02

  • 分类号G06F21/62(20130101);G06F40/289(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11309 北京亿腾知识产权代理事务所(普通合伙);

  • 代理人孙欣欣;周良玉

  • 地址 310000 浙江省杭州市西湖区西溪路556号8层B段801-11

  • 入库时间 2023-06-19 12:24:27

说明书

技术领域

本说明书一个或多个实施例涉及计算机领域,尤其涉及应用程序的合规性判别方法和装置。

背景技术

隐私数据(private data)或秘密数据,是指不想被他人或无关人等获知的信息,从隐私的所有者的角度,可以将隐私数据分为个人隐私数据和共同隐私数据,其中个人隐私数据包括可以用来定位或者识别个人的信息(如电话号码、地址、信用卡号等)和敏感信息(如个人健康情况、财务信息、公司重要文件等)。共同隐私数据主要以家庭隐私为主,如家庭年收入情况等。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。

随着移动互联网的蓬勃发展,各式各样的应用程序(application,App)层出不穷,然而出于利益或其他考量,部分App在主营业务需求外非法采集隐私数据,为了帮助企业规避合规风险性,帮助监管单位对非法App进行整治,需要提供一种快速有效的应用程序的合规性判别方法。

发明内容

本说明书一个或多个实施例描述了一种应用程序的合规性判别方法和装置,能够快速有效的判别出应用程序是否合规。

第一方面,提供了一种应用程序的合规性判别方法,方法包括:

获取应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;

获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,所述第二类别集合基于所述隐私声明文本对应的词序列分类得到;

当所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。

在一种可能的实施方式中,所述获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,包括:

对所述隐私声明文本进行分词处理,得到包含若干个词语的词序列;

对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;

根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;

将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;

根据词语的归属类别和该词语在所述词序列中的位置,确定所述隐私声明文本的解析结果;

根据所述隐私声明文本的解析结果,确定所述隐私声明文本声明采集的隐私信息类别构成的第二类别集合。

进一步地,所述对所述隐私声明文本进行分词处理,包括:

将所述隐私声明文本拆分为多个语句;

将所述多个语句中的任一语句作为目标语句,将所述目标语句输入迁移学习模型,通过所述迁移学习模型对所述目标语句进行分词处理,得到包含若干个词语的词序列。

进一步地,所述对所述词序列进行基于上下文的编码,包括:

将所述词序列输入深度学习模型的编码层,通过所述编码层对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量。

进一步地,所述根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率,包括:

将所述词向量输入所述深度学习模型的分类层,通过所述分类层输出其对应的词语分别属于多个隐私信息类别的各概率。

进一步地,所述根据词语的归属类别和该词语在所述词序列中的位置,确定所述隐私声明文本的解析结果,包括:

根据词语的归属类别和该词语在所述词序列中的位置,检查所述隐私声明文本中相邻位置的多个词语是否为同一归属类别;

合并同一归属类别的相邻位置的多个词语,作为一个结果单元,将结果单元对应的归属类别和其在所述词序列中的位置确定为所述隐私声明文本的解析结果。

进一步地,所述多个隐私信息类别包括:不含隐私信息和隐私声明合规信息的非隐私类别,以及对应于若干个预设种类的隐私声明合规信息的若干个隐私类别;

所述确定所述隐私声明文本的解析结果之后,所述方法还包括:

根据所述隐私声明文本的解析结果,确定所述隐私声明文本声明的隐私合规信息的隐私类别构成的第三类别集合;

当所述第三类别集合与法律法规中规定的第四类别集合相一致时,确定所述隐私声明文本合规,所述第四类别集合为所述隐私声明文本应当包含的隐私合规信息的隐私类别构成的。

进一步地,所述若干个预设种类的隐私声明合规信息包括以下至少一种:

隐私信息存储期限、隐私信息超期处理方式、隐私信息存放地域、申诉和反馈渠道、应用程序运营者基本情况、隐私信息保护负责人联系方式。

第二方面,提供了一种应用程序的合规性判别装置,装置包括:

第一获取单元,用于获取应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;

第二获取单元,用于获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,所述第二类别集合基于所述隐私声明文本对应的词序列分类得到;

第一确定单元,用于当所述第一获取单元获取的第一类别集合与所述第二获取单元获取的第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。

第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。

第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。

通过本说明书实施例提供的方法和装置,首先获取应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;然后获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,所述第二类别集合基于所述隐私声明文本对应的词序列分类得到;最后当所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。由上可见,本说明书实施例,不仅要获取应用程序实际采集的隐私信息类别构成的第一类别集合,还要获取应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,其中,第二类别集合基于所述隐私声明文本对应的词序列分类得到,在分类的同时还能够确定相应隐私信息类别出现的位置,并且不仅第一类别集合与法律法规要一致,而且第一类别集合还要与第二类别集合相一致,从而能够实现合规检查的全面性,能够快速有效的判别出应用程序是否合规。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的隐私合规的整体架构示意图;

图2为本说明书披露的一个实施例的文本解析示意图;

图3示出根据一个实施例的应用程序的合规性判别方法流程图;

图4示出根据一个实施例的针对文本示例的解析过程图;

图5示出根据另一个实施例的针对文本示例的解析过程图;

图6示出根据一个实施例的多分类模型结构示意图;

图7示出根据一个实施例的应用程序的合规性判别装置的示意性框图。

具体实施方式

下面结合附图,对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的隐私合规的整体架构示意图。参照图1,决策模块会输入来自三方的数据分析,包括App隐私声明文本中提取出的声明采集的隐私信息,APP代码解析结果指示的实际采集的隐私信息,法律法规解析结果指示的允许采集的隐私信息,最终通过比对三者得出合规报告。本说明书实施例主要针对隐私声明文本的解析提出解决方案,利用了多分类模型实现文本解析,主要分为两个阶段,训练阶段利用提前标注好的数据训练多分类模型。测试阶段,给定某个App的隐私声明文本,首先对文本进行分句分词,将分词之后的结果依次输入到训练好的多分类模型中进行预测,将预测的结果汇总到声明采集的隐私数据集合中,声明采集的隐私数据集合维护了该App隐私声明文本中声明采集的所有隐私信息及相应位置。

图2为本说明书披露的一个实施例的文本解析示意图。参照图2,通过解析隐私声明文本,可以获知该隐私声明文本声明采集的隐私信息类别,以及相应隐私信息出现的位置。参照图1,隐私声明文本通常为长文本,包括多个语句,例如,图2中以句号分隔的多个语句,各语句中可能包括隐私信息以及非隐私信息,为了突出表示文本中的隐私信息,图中非隐私信息用*表示,通过解析隐私声明文本,可以获知该隐私声明文本声明采集的隐私信息包括隐私信息1、隐私信息2、隐私信息3、隐私信息4和隐私信息5,其中,隐私信息1属于隐私信息类别1,其在隐私声明文本中的位置为位置1,隐私信息2属于隐私信息类别2,其在隐私声明文本中的位置为位置2,隐私信息3属于隐私信息类别3,其在隐私声明文本中的位置为位置3,隐私信息4属于隐私信息类别1,其在隐私声明文本中的位置为位置4,隐私信息5属于隐私信息类别2,其在隐私声明文本中的位置为位置5。可以理解的是,不同的隐私信息可以具有相同的隐私信息类别,比如隐私信息1和隐私信息4均属于隐私信息类别1,隐私信息2和隐私信息5均属于隐私信息类别2,该隐私声明文本声明采集的隐私信息类别包括隐私信息类别1、隐私信息类别2和隐私信息类别3,后续可以根据隐私声明文本的解析结果判断相应的应用程序是否合规,上述合规包括符合法律法规中允许所述应用程序采集的隐私信息类别。

隐私信息通常比较具体,隐私信息类别相对于隐私信息范围更广,通常地,一个隐私信息类别对应有多个隐私信息。表一为本说明书实施例提供的隐私信息与隐私信息类别的对应关系表。

表一:隐私信息与隐私信息类别的对应关系表

需要说明的是,本说明书中除了提取隐私声明文本中的隐私信息之外,还可以提取隐私声明文本中的隐私声明合规信息,上述隐私声明合规信息为法律法规中规定的隐私声明文本中应当声明的信息,例如,隐私信息存储期限等,根据上述隐私声明合规信息可以判断隐私声明文本是否合规。

图3示出根据一个实施例的应用程序的合规性判别方法流程图,该方法可以基于图1所示的实施场景。如图3所示,该实施例中应用程序的合规性判别方法包括以下步骤:步骤31,获取应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;步骤32,获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,所述第二类别集合基于所述隐私声明文本对应的词序列分类得到;步骤33,当所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。下面描述以上各个步骤的具体执行方式。

首先在步骤31,获取应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合。可以理解的是,第一类别集合中可以包括一个或多个隐私信息类别。

例如,第一类别集合仅包括前述表一中的个人基本资料对应的隐私信息类别;或者,第一类别集合包括前述表一中的个人基本资料对应的隐私信息类别,还包括前述表一中的个人生物识别信息对应的隐私信息类别。

然后在步骤32,获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,所述第二类别集合基于所述隐私声明文本对应的词序列分类得到。可以理解的是,第二类别集合可能与第一类别集合一致,即第二类别集合与第一类别集合包含的隐私信息类别完全相同;或者,第二类别集合可能与第一类别集合不一致,通常的情况是第二类别集合中包含的隐私信息类别少于第一类别集合包含的隐私信息类别。

例如,第一类别集合由隐私信息类别1和隐私信息类别2构成,第二类别集合仅包含隐私信息类别1,则二者不一致。

应用程序在发布时,需要配上文字版的隐私声明,也就是隐私声明文本,其中应列出企业宣称采集的各种隐私信息,包括但不限于个人位置信息、个人生物信息等。

在一个示例中,所述获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,包括:

对所述隐私声明文本进行分词处理,得到包含若干个词语的词序列;

对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;

根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;

将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;

根据词语的归属类别和该词语在所述词序列中的位置,确定所述隐私声明文本的解析结果;

根据所述隐私声明文本的解析结果,确定所述隐私声明文本声明采集的隐私信息类别构成的第二类别集合。

进一步地,所述对所述隐私声明文本进行分词处理,包括:

将所述隐私声明文本拆分为多个语句;

将所述多个语句中的任一语句作为目标语句,将所述目标语句输入迁移学习模型,通过所述迁移学习模型对所述目标语句进行分词处理,得到包含若干个词语的词序列。

可以理解的是,上述隐私声明文本通常为长文本,包括多个语句,词序列包含的若干个词语具有自然形成的前后顺序,各词语在词序列中具有特定的位置。

迁移学习(transfer learning)是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。

给定一个字符长度为n的语句{t

进一步地,所述对所述词序列进行基于上下文的编码,包括:

将所述词序列输入深度学习模型的编码层,通过所述编码层对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量。

可以理解的是,词语与词向量是一一对应的,如果词序列包括m个词语,则上述编码后会得到m个向量。

其中,上述编码层可以基于卷积神经网络(convolutional neural networks,CNN)或长短时记忆网络(long short-term memory,LSTM)等实现,适配性好。

如果包含m个词语的词序列表示为{w

进一步地,所述根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率,包括:

将所述词向量输入所述深度学习模型的分类层,通过所述分类层输出其对应的词语分别属于多个隐私信息类别的各概率。

可以理解的是,预先划分了多个隐私信息类别,例如,隐私信息类别1、隐私信息类别2、隐私信息类别3,分别确定词语属于隐私信息类别1的概率1,词语属于隐私信息类别2的概率2,词语属于隐私信息类别3的概率3。

分词w

可以理解的是,可以直接将词语的归属类别和该词语在所述词序列中的位置作为所述待解析文本的解析结果,或者,将词语的归属类别和该词语在所述词序列中的位置作为中间结果,对该中间结果继续分析处理后得到所述待解析文本的解析结果。

进一步地,所述根据词语的归属类别和该词语在所述词序列中的位置,确定所述隐私声明文本的解析结果,包括:

根据词语的归属类别和该词语在所述词序列中的位置,检查所述隐私声明文本中相邻位置的多个词语是否为同一归属类别;

合并同一归属类别的相邻位置的多个词语,作为一个结果单元,将结果单元对应的归属类别和其在所述词序列中的位置确定为所述隐私声明文本的解析结果。

进一步地,所述多个隐私信息类别包括:不含隐私信息和隐私声明合规信息的非隐私类别,以及对应于若干个预设种类的隐私声明合规信息的若干个隐私类别;

进一步地,所述若干个预设种类的隐私声明合规信息包括以下至少一种:

隐私信息存储期限、隐私信息超期处理方式、隐私信息存放地域、申诉和反馈渠道、应用程序运营者基本情况、隐私信息保护负责人联系方式。

可以理解的是,法律法规中除了对应用程序采集的隐私信息类别作出规定之外,还可以对隐私声明文本中包括的上述隐私声明合规信息作出规定,例如,法律法规中规定隐私声明文本中应当包括上述至少一种隐私声明合规信息。表二为本说明书实施例提供的隐私声明合规信息与隐私信息类别的对应关系表。

表二:隐私声明合规信息与隐私信息类别的对应关系表

可以理解的是,通常的隐私信息类别包括表一中所列举的个人基本资料、个人身份信息等具体隐私信息对应的隐私类别,本说明书实施例,在此基础上还可以包括隐私信息存储期限、隐私信息超期处理方式等隐私声明合规信息对应的隐私类别,从而提升了对隐私声明文本解析的全面性,便于后续依据解析结果进行合规性检查的全面性。

图4示出根据一个实施例的针对文本示例的解析过程图。参照图4,图中涉及的隐私信息类别有O(其他,即不含目标信息)、BI(个人基本资料,为目标信息之一)、III(网络身份标识信息,为目标信息之一),可以理解的是,目标信息即需要从待解析文本中提取的信息,包括隐私信息和隐私声明合规信息。待解析文本中的目标语句首先经迁移学习模型后得到各分词构成的词序列,再对词序列中的每个词语利用深度学习模型进行分类,最终获得待解析文本中涉及的所有隐私信息和隐私声明合规信息及其在词序列中的位置作为解析结果,例如图4中的手机号属于的隐私信息类别为BI,位置是分词后的词序列中第15个元素。

图5示出根据另一个实施例的针对文本示例的解析过程图。参照图5,图中涉及的隐私信息类别有O(其他,即不含目标信息)、STP(个人信息存储期限,为目标信息之一)和ODP(个人信息超期处理方式,为目标信息之一)。待解析文本中的目标语句首先经迁移学习模型后得到各分词构成的词序列,再对词序列中的每个词语利用深度学习模型进行分类,获得待解析文本中涉及的所有隐私信息和隐私声明合规信息及其在词序列中的位置作为中间结果,图5展示了当隐私信息或隐私声明合规信息是由多个词语构成时,深度学习模型会将这多个词语预测为同一隐私信息类别,之后对位置相邻的同一隐私信息类别(即除隐私信息类别O以外的隐私信息类别)的词语进行合并操作,以得到最终的解析结果,例如图5中“不少”、“于”、“六个月”合并为“不少于六个月”,获得完整的个人信息保存期限信息。

本说明书实施例,采用多分类模型进行文本解析,多分类模型利用了深度学习、迁移学习等手段,自动判断应用程序的隐私声明文本中声明了哪些种类的敏感信息以及相应敏感信息出现的位置,其中,上述敏感信息即为前述隐私信息或隐私声明合规信息。

多分类模型(multi-classification)是有监督学习(supervised learning)的一种,其主要目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。多分类模型具体是根据已知的训练集提供的样本数据,通过计算选择特征参数,创建判别函数对样本进行分类。

有监督学习是机器学习的一种方法,指给定事先标记过的训练示例,对输入的数据进行分类或拟合。

深度学习(deep learning)是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。

图6示出根据一个实施例的多分类模型结构示意图。参照图6,该多分类模型是基于词粒度的词序列分类模型,首先将待解析文本中的句子输入迁移学习模型,通过迁移学习模型对句子进行分词处理,得到多个词语构成的词序列,例如图中的词序列包括词语1,…,词语m,然后将上述词序列输入深度学习模型的编码层,通过该编码层对各词语进行编码,得到各词语分别对应的词向量,例如,词语1对应于词向量1,…,词语m对应于词向量m,接着,将各词向量输入深度学习模型的分类层,通过该分类层得到词序列中的每个词语分别对应于各类别的概率,例如,词语1对应于类别1的概率,…,词语1对应于类别m的概率,根据每个词语分别对应于各类别的概率,可以得到该词语的预测类别,再对相邻位置的属于同一预测类别的词语进行合并处理,从而得到句子中的敏感信息及其所在位置,上述敏感信息可以为隐私信息或隐私声明合规信息。

本说明书实施例提供的方法,还可以与其他的文本解析方式相结合,例如,可以使用正则表达式匹配的方式,获得例如申诉和反馈渠道(电子邮箱、电话、地址)等有显著格式特征的隐私声明合规信息。

本说明书实施例使用端到端的方案,无需提前预判空白句,使用方便,识别效率高。由于基于词粒度,可以在得知文本包含的隐私信息类别的同时,也能获得隐私信息出现的位置,精细化程度高。

最后在步骤33,当所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。可以理解的是,第一类别集合与第二类别集合一致,意味着第一类别集合与第二类别集合包含的隐私信息类别完全相同。

在一个示例中,为了确定第二类别集合所预先设定的多个隐私信息类别包括:不含隐私信息和隐私声明合规信息的非隐私类别,以及对应于若干个预设种类的隐私声明合规信息的若干个隐私类别;

所述确定所述隐私声明文本的解析结果之后,所述方法还包括:

根据所述隐私声明文本的解析结果,确定所述隐私声明文本声明的隐私合规信息的隐私类别构成的第三类别集合;

当所述第三类别集合与法律法规中规定的第四类别集合相一致时,确定所述隐私声明文本合规,所述第四类别集合为所述隐私声明文本应当包含的隐私合规信息的隐私类别构成的。

本说明书实施例,针对应用程序的隐私合规检查主要包括:解析法律法规,形成应用程序类别与法律法规允许采集的隐私信息之间的映射。解析应用程序的隐私声明文本,提取隐私声明文本中宣称采集的隐私信息。解析应用程序的代码,提取代码中真实采集的隐私信息。综合上述提取的信息,判断应用程序是否存在违规采集隐私信息的情况。

通过本说明书实施例提供的方法,首先获取应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;然后获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,所述第二类别集合基于所述隐私声明文本对应的词序列分类得到;最后当所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。由上可见,本说明书实施例,不仅要获取应用程序实际采集的隐私信息类别构成的第一类别集合,还要获取应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,其中,第二类别集合基于所述隐私声明文本对应的词序列分类得到,在分类的同时还能够确定相应隐私信息类别出现的位置,并且不仅第一类别集合与法律法规要一致,而且第一类别集合还要与第二类别集合相一致,从而能够实现合规检查的全面性,能够快速有效的判别出应用程序是否合规。

本说明书实施例,在确定第二类别集合时,先对隐私声明文本进行分词处理,然后确定各词语的归属类别,不仅可以得到文本中包含的词语的隐私信息类别,还可以获得各隐私信息类别的词语在文本中出现的位置,上述位置是通过分词得到的词序列中自然形成的位置,无需通过人工标注的位置数据训练模型,能够提升文本的解析效果。

根据另一方面的实施例,还提供一种应用程序的合规性判别装置,该装置用于执行本说明书实施例提供的应用程序的合规性判别方法。图7示出根据一个实施例的应用程序的合规性判别装置的示意性框图。如图7所示,该装置700包括:

第一获取单元71,用于获取应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;

第二获取单元72,用于获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,所述第二类别集合基于所述隐私声明文本对应的词序列分类得到;

第一确定单元73,用于当所述第一获取单元71获取的第一类别集合与所述第二获取单元72获取的第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。

可选地,作为一个实施例,所述第二获取单元72包括:

分词子单元,用于对所述隐私声明文本进行分词处理,得到包含若干个词语的词序列;

编码子单元,用于对所述分词子单元得到的词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;

概率确定子单元,用于根据所述编码子单元得到的词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;

类别确定子单元,用于将所述概率确定子单元得到的各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;

解析子单元,用于根据所述类别确定子单元得到的词语的归属类别和该词语在所述词序列中的位置,确定所述隐私声明文本的解析结果;

集合确定子单元,用于根据所述解析子单元得到的隐私声明文本的解析结果,确定所述隐私声明文本声明采集的隐私信息类别构成的第二类别集合。

进一步地,所述分词子单元包括:

语句拆分模块,用于将所述隐私声明文本拆分为多个语句;

分词模块,用于将所述语句拆分模块得到的多个语句中的任一语句作为目标语句,将所述目标语句输入迁移学习模型,通过所述迁移学习模型对所述目标语句进行分词处理,得到包含若干个词语的词序列。

进一步地,所述编码子单元,具体用于将所述词序列输入深度学习模型的编码层,通过所述编码层对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量。

进一步地,所述概率确定子单元,具体用于将所述词向量输入所述深度学习模型的分类层,通过所述分类层输出其对应的词语分别属于多个隐私信息类别的各概率。

进一步地,所述解析子单元包括:

检查模块,用于根据词语的归属类别和该词语在所述词序列中的位置,检查所述隐私声明文本中相邻位置的多个词语是否为同一归属类别;

合并模块,用于合并所述检查模块得到的同一归属类别的相邻位置的多个词语,作为一个结果单元,将结果单元对应的归属类别和其在所述词序列中的位置确定为所述隐私声明文本的解析结果。

进一步地,所述多个隐私信息类别包括:不含隐私信息和隐私声明合规信息的非隐私类别,以及对应于若干个预设种类的隐私声明合规信息的若干个隐私类别;

所述装置还包括:

第三获取单元,用于在所述解析子单元确定所述隐私声明文本的解析结果之后,根据所述隐私声明文本的解析结果,确定所述隐私声明文本声明的隐私合规信息的隐私类别构成的第三类别集合;

第二确定单元,用于当所述第三获取单元得到的第三类别集合与法律法规中规定的第四类别集合相一致时,确定所述隐私声明文本合规,所述第四类别集合为所述隐私声明文本应当包含的隐私合规信息的隐私类别构成的。

进一步地,所述若干个预设种类的隐私声明合规信息包括以下至少一种:

隐私信息存储期限、隐私信息超期处理方式、隐私信息存放地域、申诉和反馈渠道、应用程序运营者基本情况、隐私信息保护负责人联系方式。

通过本说明书实施例提供的装置,首先第一获取单元71获取应用程序的代码分析结果,所述代码分析结果指示出所述应用程序实际采集的隐私信息类别构成的第一类别集合;然后第二获取单元72获取所述应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,所述第二类别集合基于所述隐私声明文本对应的词序列分类得到;最后第一确定单元73在所述第一类别集合与所述第二类别集合一致,且包括的隐私信息类别均属于法律法规中允许所述应用程序采集的隐私信息类别时,确定所述应用程序合规。由上可见,本说明书实施例,不仅要获取应用程序实际采集的隐私信息类别构成的第一类别集合,还要获取应用程序的隐私声明文本声明采集的隐私信息类别构成的第二类别集合,其中,第二类别集合基于所述隐私声明文本对应的词序列分类得到,在分类的同时还能够确定相应隐私信息类别出现的位置,并且不仅第一类别集合与法律法规要一致,而且第一类别集合还要与第二类别集合相一致,从而能够实现合规检查的全面性,能够快速有效的判别出应用程序是否合规。

根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3所描述的方法。

根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3所描述的方法。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号