技术领域
本发明涉及数据识别技术领域,具体涉及一种多维互联网文本风险数据识别方法。
背景技术
随着互联网的高速发展,其数据量呈指数级爆炸性增长。互联网中的各类门户网站、社交媒体、博客论坛包含海量数据,而且不断产生新网页新数据。互联网数据蕴含大量有价值的信息,对于互联网社会公共安全数据风险防控具有重要意义。
其中,互联网文本数据具有数据量大、实时性强、数据维度高、数据边界广泛等特点,而目前现有的数据识别方法存在模型比较单一的问题,对于多维数据的识别效果差,不适用于海量多源互联网数据,难以准确地在海量互联网文本数据中识别出风险数据。因此设计一种准确高效的多维互联网文本风险数据识别方法,是实现风险防控的关键。
发明内容
针对现有技术的不足,本发明旨在提供一种多维互联网文本风险数据识别方法,可以实现准确、有效地识别出互联网文本风险数据。
为了实现上述目的,本发明采用如下技术方案:
一种多维互联网文本风险数据识别方法,包括:
S1、对训练样本进行文本预处理:
S1.1、选取互联网中的文本无风险数据以及文本风险数据作为训练样本;对文本无风险数据和文本风险数据加入不同标注;
S1.2、按顺序判断文本为中文还是英文,然后采用相应的分词方法将文本分割为词语;
S1.3、中文文本和英文文本分词结束后,进行去停用词处理,根据停用词表剔除定义为停用词的常用词;
S2、对步骤S1中预处理后的文本数据进行特征提取,生成词向量;
S3、使用深度自编码网络对步骤S2中提取的特征进行降维,得到降维后的深度特征;
S4、使用降维后的深度特征训练双向LSTM神经网络模型;
S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。
进一步地,步骤S1.1中,所述文本风险数据包括含有诈骗、色情、恐吓、暴力内容中的一种或几种的互联网文本数据。
进一步地,步骤S1.1中,文本无风险数据和文本风险数据的数量比例为1:1。
进一步地,步骤S1.2中,若文本为英文,则使用英文分词法对英文句子分词;英文分词法过程包括:分割单词、去除标点符号、大小写转换、词干提取。
进一步地,步骤S1.2中,若文本为中文,则使用基于词典的中文分词法,基于已有的公开人工词库,按照正向最大匹配法将各个部分与词典进行匹配,完成中文语句的分词。
进一步地,步骤S2中,使用word2vec词嵌入方法中的CBOW模型来完成文本特征提取。
进一步地,步骤S4中,将所有深度特征构成的样本集按照数量比7:3划分为训练集和测试集进行双向LSTM神经网络模型的训练,采用固定学习率0.001。
进一步地,步骤S5的具体过程为:采集待识别的互联网文本数据,按照步骤S1-S3对待识别的互联网文本数据进行处理,输入到步骤S4所得训练好的双向LSTM神经网络模型中,若分类结果为风险数据,则该文本数据含有风险信息,完成互联网文本数据风险的识别。
本发明的有益效果在于:本发明的方法尤其适用于海量多源的多维互联网文本数据的识别,可以准确、有效地识别出互联网文本风险数据。
附图说明
图1为本发明实施例的方法流程示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种多维互联网文本风险数据识别方法,如图1所示,包括:
S1、对训练样本进行文本预处理:
S1.1、选取互联网中的文本无风险数据以及含有诈骗、色情、恐吓、暴力等内容的文本风险数据作为训练样本,文本无风险数据和文本风险数据的数量比例为1:1;对文本无风险数据和文本风险数据加入不同标注;
S1.2、按顺序判断文本为中文还是英文,然后将文本分割为词语(词语是自然语言处理中里最细粒度的表达)。将文本分割为词语方便计算机理解和进一步分析语义,而英文和中文由于构词法和语法的不同,采用不同的分词方法。
若文本为英文,则使用英文分词法对英文句子分词;英文分词法过程包括:分割单词,去除标点符号,大小写转换,词干提取(即词根的还原)。其中,词干提取将属于同一个词干的派生词进行归类转化为统一形式,进一步增加词的类别与文档中的词之间匹配度。
若文本为中文,则使用基于词典的中文分词法,基于已有的公开人工词库(即词典),按照正向最大匹配法将各个部分与词典进行匹配,完成中文语句的分词。
需要说明的是,采用正向最大匹配法与词典进行匹配的过程为:从左向右取待分汉语句的m个字作为匹配字段,m为词典中最长词的长度;查找词典进行匹配;若匹配成功,则将该字段作为一个词切分出去;若匹配不成功,则将该字段最后一个字去掉,剩下的字作为新匹配字段,进行再次匹配;重复上述过程,直到切分所有词为止;
S1.3、中文文本和英文文本分词结束后,进行去停用词处理,根据停用词表剔除定义为停用词的常用词。停用词是没有实际含义的虚词,如中文的“了、着、吧、啊”和英文中的“the、that、a”,结构助词“的、是、对”和“is、to、on、of”等。
预处理结束后,得到分词化、去冗余的文本数据,作为特征提取的输入。
S2、对预处理后的文本数据进行特征提取,生成词向量。
预处理后得到的仍然是文本数据,计算机无法直接处理,需要将单词映射到向量空间中,进行文本特征提取。使用word2vec词嵌入方法中的Cont inuous Bag-of-Words(CBOW)模型来完成文本特征提取。模型训练及单词向量化过程为:
CBOW模型是一个三层的神经网络模型,假设输入文本如下:“a b c d e f g“,想象有个滑动窗口,第一个词‘e’为关键词,其它词帮助分析。文本的长度为7,就得到了7个one-hot向量,作为CBOW模型的输入向量,训练目标是:最大化在给定前后文本情况下输出正确关键词的概率,即:
Maximise P("e"|("c","d","f","g"))
训练完成后,权重矩阵中的每一行就是对应单词的word2vec向量,即为文本中提取的特征。
S3、使用深度自编码网络对步骤S2中提取的特征进行降维。
特征提取后得到的word2vec向量是高维向量,含有大量冗余信息,通过深度自编码网络降维可以提取深度特征,减少数据量,提高识别准确率和效率。
深度自编码网络是多层的神经网络,使用非线性激活函数,由编码器和解码器两部分组成,编码器用于将输入的高维数据映射到低维向量空间,解码器用于重构输入数据,深度自编码网络的训练目标是:最小化输入数据和重构输入数据的误差,即:
训练完成后,编码器输出结果即为降维后的深度特征。
另外,除了深度自编码网络外,还可以采用PCA进行降维操作。
S4、使用降维后的深度特征训练双向LSTM神经网络模型。
双向LSTM神经网络模型,是在双向LSTM层基础上,加入全连接层和softmax层,克服了RNN和LSTM只能依据之前时刻的时序信息来预测下一时刻输出的问题,真正做到基于上下文判断,对于双向LSTM神经网络模型结构不再赘述。将所有深度特征构成的样本集按照数量比7:3划分为训练集和测试集进行双向LSTM神经网络模型的训练,采用固定学习率0.001。
S5、使用训练好的神经网络模型实现对文本风险数据的识别。
采集待识别的互联网文本数据,按照步骤S1-S3对待识别的互联网文本数据进行处理,输入到步骤S4所得训练好的双向LSTM神经网络模型中,若分类结果为风险数据,则该文本数据含有风险信息,完成互联网文本数据风险的识别。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: 存储介质使用grava u00c7 u00e7o / reprodu u00c7 u00e7o设备,reprod u00c7 u00e7o文本格式的字幕数据以及音频 /视频数据( AV),一种用于以文本格式复制音频 /视频(AV)和字幕数据的设备,M。 grava u00c7 u00e7o通过计算机中的读取控制设备的方法用于带有文本格式字幕数据的数据sincroniza u00c7 u00e7o音频//视频(AV),计算机中媒体当前通过 u00cdvel读取以及以sicroniza u00c7 文本格式复制字幕数据的方法u00e7o带有音频 /视频(AV)数据
机译: 基于短距离无线通信的交互式多维数据集,以及使用相同模式的多维数据集识别方法和系统