公开/公告号CN112463965A
专利类型发明专利
公开/公告日2021-03-09
原文格式PDF
申请/专利权人 上海欣方智能系统有限公司;上海欣方软件有限公司;
申请/专利号CN202011406376.4
申请日2020-12-03
分类号G06F16/35(20190101);G06F40/30(20200101);G06N3/08(20060101);G06N3/04(20060101);
代理机构11018 北京德琦知识产权代理有限公司;
代理人牛峥;王丽琴
地址 201203 上海市浦东新区碧波路690号张江微电子港8号4楼
入库时间 2023-06-19 10:08:35
技术领域
本发明涉及计算机人工智能技术,特别涉及一种对文本的语义理解的方法及系统。
背景技术
在过去30年间,电信通讯技术得到非常好的普及,基于电信通信技术设置的电信通讯网络给人们生活带来便利的同时,也有不法分子使用电信通讯网络进行诈骗活动,给人们生活带来非常大的潜在风险。随着计算机人工智能技术的飞速发展和普及,会尝试将人工智能技术应用到电信通讯网络中,对电信通讯网络中的语音进行语音识别,以确认是否是电信诈骗。图1为现有技术提供的电信通讯网络中基于语音识别技术进行的电信反诈骗应用的方法流程图,通常,在电信通讯网络中增加由供应商提供的语音识别系统,对电信通讯网络的电信通话中的语音信号进行识别后,得到对应的文本信息,对得到的对应文本信息进行语义理解,基于语义理解的信息确定语音信号是否为诈骗语音。
可以看出,在电信通信网络中应用了对文本需要进行语义理解,通常采用训练好的深度神经网络实现,具体是通过收集足够多的诈骗文本和非诈骗文本,并进行诈骗类型的人工标注后,作为样本,对设置的深度神经网络进行训练,以使得深度神经网络能够识别诈骗文本,后续将语音信号对应的文本信息输入到已经训练好的深度神经网络,进行处理,确定其中是否有诈骗文本。采用这种方法比诸如支持向量机(SVM)方法或极端梯度提升(XGBoost)方法等传统的机器学习方法等已有比较明显的优势。
但是,采用训练好的深度神经网络实现对文本的语义理解,也存在缺陷,其存在比较严重的过拟合现象,特别针对类别数据比较少的分类任务,从而使得对文本的语义理解不准确。
发明内容
有鉴于此,本发明实施例提供了一种对文本的语义理解的方法,该方法能够提高对文本的语义理解的准确性。
本发明实施例还提供一种对文本的语义理解的系统,该系统能够提高对文本的语义理解的准确性。
本发明实施例是这样实现的:
一种对文本的语义理解的方法,该方法包括:
构建BERT网络模型,该BERT网络模型采用无监督掩码语言模型Mask LanguageModel进行预训练;
BERT网络模型包括self-attention机制层及memory attention机制层,在对输入文本进行语义理解时,进行两层的注意力机制处理后,得到文本的分类结果。
较佳地,所述BERT网络模型采用无监督Mask Language Model进行预训练包括:
获取海量的无监督文本样本,输入到构建的BERT网络模型中,所述BERT网络模型包括多层自注意力机制层,得到识别的结果;
根据无监督文本样本及识别的结果,对BERT模型进行无监督Mask LanguageModel的预训练。
较佳地,所述BERT网络模型包括self-attention机制层,对输入文本进行语义理解包括:
self-attention机制层对输入文本进行如下述公式的自注意力机制的处理,
其中,Attention(.)表示进行自注意力机制处理的函数,softmax()表示的是自注意力机制处理采用概率归一的函数,Q为对文本的查询句子的编码特征表示,K为查询句子中的单位词索引,V为单位句子中的单位词的投影表征。
所述BERT网络模型包括memory attention机制层,对输入文本进行语义理解包括:
memory attention机制层对输入文本进行如下述公式的自注意力机制的处理,
其中,Memory Attention()表示进行记忆注意力机制处理的结果,softmax()表示的是记忆注意力机制处理采用概率归一的函数,Q为对文本的查询句子的编码特征表示,Memory
较佳地,所述BERT网络模型的memory attention机制层是基于设置的热词训练得到的。
较佳地,在所述对输入文本进行语义理解之前,还包括:
将BERT网络模型的预训练模型参数进行固定Frozen,形成Frozen单元对输入文本进行语义理解。
较佳地,所述BERT网络模型应用在电信通讯网络的防诈骗业务中的对文本的诈骗信息及非诈骗信息进行分类。
一种对文本的语义理解的系统,该系统包括:预训练单元、存储单元及处理单元,其中,
预训练单元,用于对构建的BERT网络模型采用无监督Mask Language Model进行预训练;
存储单元,用于对构建的BERT网络模型进行存储,所述BERT网络模型包括self-attention机制层及memory attention机制层;
处理单元,用于接收到输入的文本,进行语义理解时采用构建的BERT网络模型进行两层注意力机制处理后,得到文本的分类结果。
较佳地,所述BERT网络模型应用在电信通讯网络的防诈骗业务中的对文本的诈骗信息及非诈骗信息进行分类。
如上所见,本发明实施例对文本进行语义理解时,采用构建的BERT网络模型,该BERT网络模型采用无监督掩码语言模型(Mask Language Model)进行预训练,且其中包括自注意力(self-attention)机制层及记忆注意力(memory attention)机制层,在对输入文本进行语义理解时,自注意力机制负责学习文本内容上下文关系理解,记忆注意力机制负责对新添加热词进行理解和增强后,得到文本的分类结果,从而使得对文本的语义理解的准确性增大。
附图说明
图1为本发明实施例提供的一种对文本的语义理解的方法流程图;
图2为本发明实施例提供的BERT网络模型采用无监督Mask Language Model进行预训练例子示意图;
图3为本发明实施例提供的memory attention机制层对热词进行处理的过程示意图;
图4为本发明实施例提供的
图5为本发明实施例提供的使用训练好的BERT网络模型进行文本的语义理解的过程流程图;
图6为本发明实施例提供的一种对文本的语义理解的系统结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
从背景技术可以看出,在对文本进行语义理解时,对文本进行分类,分类为诈骗文本或非诈骗文本时,通常采用两种方法,一种是传统机器学习方法,另一种是深度神经网络方法。诸如SVM方法或XGBoost方法等传统机器学习方法,对文本进行语义理解时的准确性较低,且无法通过大规模样本的训练来提升准确性。而深度神经网络则针对类别数据比较少的分类任务,存在比较严重的拟合现象,为了解决这个问题,可以对深度神经网络中的正则策略进行改进设置,或者为输入的深度神经网络中的文本进行更多的标注,但是,对深度神经网络中的正则策略进行改进设置会导致最终训练得到的深度神经网络的泛化能力和推广性不够,针对不同任务的文本要进行针对性的设置,而为输入的深度神经网络中的文本进行更多的标注则会带来更高的人工成本。
为了解决这个问题,本发明实施例对文本进行语义理解时,采用构建的BERT网络模型,该BERT网络模型采用无监督Mask Language Model进行预训练,且其中包括self-attention机制层及memory attention机制层,在对输入文本进行语义理解时,自注意力机制负责学习文本内容上下文关系理解,记忆注意力机制负责对新添加热词进行理解和增强,得到文本的分类结果。
由于BERT模型采用了Mask Language Model进行预训练,所以使得训练好的MaskLanguage可以从文本抓取到很强的上下文表征特征,基于该很强的上下文表征特征,进行分类,得到最终的分类结果,所以得到最终的分类结果准确。更进一步地,由于BERT网络模型在对文本进行语义理解时,采用了两层的注意力机制,且其中memory attention机制是根据基于设置的热词训练得到的,所以进行注意力机制处理时,更加准确。因此,本发明实施例使得对文本的语义理解的准确性增大。
图1为本发明实施例提供的一种对文本的语义理解的方法流程图,其具体步骤包括:
步骤101、构建BERT网络模型,该BERT网络模型采用无监督Mask Language Model进行预训练;
步骤102、BERT网络模型包括self-attention机制层及memory attention机制层,在对输入文本进行语义理解时,进行两层的注意力机制处理后,得到文本的分类结果。
本发明实施例应用了BERT网络模型,该BERT网络模型是图神经网络模型(transformers)的一种,其是一种能够预训练的多层双向转换编码网络,英文全称为Bidirectional Encoder Representation from Transformers。
在该方法中,该BERT网络模型采用无监督Mask Language Model进行预训练包括:
获取海量的无监督文本样本,输入到构建的BERT网络模型中,所述BERT网络模型包括多层自注意力机制层,得到识别的结果;
根据无监督文本样本及识别的结果,对BERT模型进行预训练。
在该方法中,所述BERT网络模型应用在电信通讯网络的防诈骗业务中的对文本的诈骗信息及非诈骗信息进行分类。
图2为本发明实施例提供的BERT网络模型采用无监督Mask Language Model进行预训练例子示意图,如图所示,该例子中,将无监督文本样本输入到构建的BERT网络模型中,采用多层自注意机制层进行处理,得到识别的结果。可以看出,在采用无监督MaskLanguage Model的BERT网络模型进行预训练时,不需要人工对文本样本进行标注,使得BERT网络模型从文本样本中抓取得到很强的上下文表征特征。
在该方法中,所构建的BERT网络模型除了采用无监督Mask Language Model进行预训练,也需要对其包括的self-attention机制层及memory attention机制层进行训练,训练完成后形成构建的BERT网络模型。
在该方法中,BERT网络模型包括self-attention机制层,对输入文本进行语义理解包括:
self-attention机制层对输入文本进行如下述公式的自注意力机制的处理:
其中,Attention(.)表示进行自注意力机制处理的函数,softmax()表示的是自注意力机制处理采用概率归一的函数,Q为对文本的查询句子的编码特征表示,K为查询句子中的单位词索引,V为单位句子中的单位词的投影表征。
在该方法中,BERT网络模型包括memory attention机制层,对输入文本进行语义理解包括:
memory attention机制层对输入文本进行如下述公式的自注意力机制的处理:
其中,Memory Attention()表示进行记忆注意力机制处理的结果,softmax()表示的是记忆注意力机制处理采用概率归一的函数,Q为对文本的查询句子的编码特征表示,Memory
在进行memory attention机制层对输入文本进行如上述公式的自注意力机制的处理之前,已经对memory attention机制层进行了训练,如图3所示,图3为本发明实施例提供的memory attention机制层对热词进行出来的过程示意图:对热词列表进行编码后,形成编码特征表示,然后采用上述公式进行memory attention机制处理,得到查询句子中的每个词的分类值,即memory
图4为本发明实施例提供的BERT网络模型结构示意图,如图所示,在现有的BERT网络模型的基础上,提供了两层注意力机制层,包括了self-attention机制层及memoryattention机制层,在对输入文本进行语义理解时,进行两层的注意力机制处理。这样,通过海量的无监督文本样本进行预训练该BERT网络模型之后,就可以获取到非常鲁棒且信息丰富的上下文表征。
在该方法中,在对输入文本进行语义理解之前,还包括:
将BERT网络模型的预训练模型参数进行固定(Frozen),形成Frozen单元对输入文本进行语义理解。这样,就将经过预训练的BERT网络模型中的模型参数进行固定,防止在后续在训练BERT模型时的过拟合。
图5为本发明实施例提供的使用训练好的BERT网络模型进行文本的语义理解的过程流程图,如图所示,通过Forzen单元对一个查询句子进行高维BERT网络模型矢量特征后,再通过池化层,得到一个句子的特征表示,此后将该句子的特征表示采用设置的分类器进行诈骗类型的分类。这样,就可以实现对文本的语义理解,得到分类结果,分类结果为诈骗信息或非诈骗信息。
图6为本发明实施例提供的一种对文本的语义理解的系统结构示意图,包括:预训练单元、存储单元及处理单元,其中,
预训练单元,用于对构建的BERT网络模型采用无监督Mask Language Model进行预训练;
存储单元,用于对构建的BERT网络模型进行存储,所述BERT网络模型包括self-attention机制层及memory attention机制层;
处理单元,用于接收到输入的文本,进行语义理解时采用构建的BERT网络模型进行两层注意力机制处理后,得到文本的分类结果。
在该系统中,预训练单元,还用于该BERT网络模型采用无监督Mask LanguageModel进行预训练包括:获取海量的无监督文本样本,输入到构建的BERT网络模型中,所述BERT网络模型包括多层自注意力机制层,得到识别的结果;根据无监督文本样本及识别的结果,对BERT模型进行预训练。
在该系统中,所述BERT网络模型应用在电信通讯网络的防诈骗业务中的对文本的诈骗信息及非诈骗信息进行分类。
可以看出,本发明实施例通过使用海量的无监督文本样本的BERT网络模型预训练,将语音识别的结果进行高维度的语义特征表示出,有效地降低了数据的标注数量,并且可以非常高准确度地进行诈骗类型分类。进一步地,针对诈任务的特殊性,本发明实施例对BERT网络模型的结构进行改进,在BERT网络模型中除了self-attention机制层的基础上增加了memory attention机制层,使得该BERT网络模型更加聚焦于热词记忆,从而在使用时更好地抓取文本的上下文信息,进而提高语义理解的准确度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
机译: 面向语义的半定量极性概念关联分类方法,涉及利用自然语言处理软件并采用语义分类技术来理解源文本的含义
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: 语义词典管理器,语义文本编辑器,语义术语注释器,语义搜索引擎和语义信息系统构建器,该方法基于立即定义语义术语的方法来识别每个单词的准确含义