首页> 中国专利> 一种多维互联网文本风险数据识别方法

一种多维互联网文本风险数据识别方法

摘要

本发明公开了一种多维互联网文本风险数据识别方法,包括:S1、对训练样本进行文本预处理;S2、对步骤S1中预处理后的文本数据进行特征提取,生成词向量;S3、使用深度自编码网络对步骤S2中提取的特征进行降维,得到降维后的深度特征;S4、使用降维后的深度特征训练双向LSTM神经网络模型;S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。本发明的方法尤其适用于海量多源的多维互联网文本数据的识别,可以准确、有效地识别出互联网文本风险数据。

著录项

  • 公开/公告号CN112287072A

    专利类型发明专利

  • 公开/公告日2021-01-29

    原文格式PDF

  • 申请/专利权人 公安部第一研究所;

    申请/专利号CN202011307349.1

  • 发明设计人 王慧娟;王晓峰;印晓天;

    申请日2020-11-20

  • 分类号G06F16/33(20190101);G06F40/30(20200101);G06N3/04(20060101);

  • 代理机构11588 北京华仁联合知识产权代理有限公司;

  • 代理人陈建

  • 地址 100048 北京市海淀区首都体育馆南路1号

  • 入库时间 2023-06-19 09:44:49

说明书

技术领域

本发明涉及数据识别技术领域,具体涉及一种多维互联网文本风险数据识别方法。

背景技术

随着互联网的高速发展,其数据量呈指数级爆炸性增长。互联网中的各类门户网站、社交媒体、博客论坛包含海量数据,而且不断产生新网页新数据。互联网数据蕴含大量有价值的信息,对于互联网社会公共安全数据风险防控具有重要意义。

其中,互联网文本数据具有数据量大、实时性强、数据维度高、数据边界广泛等特点,而目前现有的数据识别方法存在模型比较单一的问题,对于多维数据的识别效果差,不适用于海量多源互联网数据,难以准确地在海量互联网文本数据中识别出风险数据。因此设计一种准确高效的多维互联网文本风险数据识别方法,是实现风险防控的关键。

发明内容

针对现有技术的不足,本发明旨在提供一种多维互联网文本风险数据识别方法,可以实现准确、有效地识别出互联网文本风险数据。

为了实现上述目的,本发明采用如下技术方案:

一种多维互联网文本风险数据识别方法,包括:

S1、对训练样本进行文本预处理:

S1.1、选取互联网中的文本无风险数据以及文本风险数据作为训练样本;对文本无风险数据和文本风险数据加入不同标注;

S1.2、按顺序判断文本为中文还是英文,然后采用相应的分词方法将文本分割为词语;

S1.3、中文文本和英文文本分词结束后,进行去停用词处理,根据停用词表剔除定义为停用词的常用词;

S2、对步骤S1中预处理后的文本数据进行特征提取,生成词向量;

S3、使用深度自编码网络对步骤S2中提取的特征进行降维,得到降维后的深度特征;

S4、使用降维后的深度特征训练双向LSTM神经网络模型;

S5、使用训练好的神经网络模型对待识别的互联网文本数据进行识别。

进一步地,步骤S1.1中,所述文本风险数据包括含有诈骗、色情、恐吓、暴力内容中的一种或几种的互联网文本数据。

进一步地,步骤S1.1中,文本无风险数据和文本风险数据的数量比例为1:1。

进一步地,步骤S1.2中,若文本为英文,则使用英文分词法对英文句子分词;英文分词法过程包括:分割单词、去除标点符号、大小写转换、词干提取。

进一步地,步骤S1.2中,若文本为中文,则使用基于词典的中文分词法,基于已有的公开人工词库,按照正向最大匹配法将各个部分与词典进行匹配,完成中文语句的分词。

进一步地,步骤S2中,使用word2vec词嵌入方法中的CBOW模型来完成文本特征提取。

进一步地,步骤S4中,将所有深度特征构成的样本集按照数量比7:3划分为训练集和测试集进行双向LSTM神经网络模型的训练,采用固定学习率0.001。

进一步地,步骤S5的具体过程为:采集待识别的互联网文本数据,按照步骤S1-S3对待识别的互联网文本数据进行处理,输入到步骤S4所得训练好的双向LSTM神经网络模型中,若分类结果为风险数据,则该文本数据含有风险信息,完成互联网文本数据风险的识别。

本发明的有益效果在于:本发明的方法尤其适用于海量多源的多维互联网文本数据的识别,可以准确、有效地识别出互联网文本风险数据。

附图说明

图1为本发明实施例的方法流程示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。

本实施例提供一种多维互联网文本风险数据识别方法,如图1所示,包括:

S1、对训练样本进行文本预处理:

S1.1、选取互联网中的文本无风险数据以及含有诈骗、色情、恐吓、暴力等内容的文本风险数据作为训练样本,文本无风险数据和文本风险数据的数量比例为1:1;对文本无风险数据和文本风险数据加入不同标注;

S1.2、按顺序判断文本为中文还是英文,然后将文本分割为词语(词语是自然语言处理中里最细粒度的表达)。将文本分割为词语方便计算机理解和进一步分析语义,而英文和中文由于构词法和语法的不同,采用不同的分词方法。

若文本为英文,则使用英文分词法对英文句子分词;英文分词法过程包括:分割单词,去除标点符号,大小写转换,词干提取(即词根的还原)。其中,词干提取将属于同一个词干的派生词进行归类转化为统一形式,进一步增加词的类别与文档中的词之间匹配度。

若文本为中文,则使用基于词典的中文分词法,基于已有的公开人工词库(即词典),按照正向最大匹配法将各个部分与词典进行匹配,完成中文语句的分词。

需要说明的是,采用正向最大匹配法与词典进行匹配的过程为:从左向右取待分汉语句的m个字作为匹配字段,m为词典中最长词的长度;查找词典进行匹配;若匹配成功,则将该字段作为一个词切分出去;若匹配不成功,则将该字段最后一个字去掉,剩下的字作为新匹配字段,进行再次匹配;重复上述过程,直到切分所有词为止;

S1.3、中文文本和英文文本分词结束后,进行去停用词处理,根据停用词表剔除定义为停用词的常用词。停用词是没有实际含义的虚词,如中文的“了、着、吧、啊”和英文中的“the、that、a”,结构助词“的、是、对”和“is、to、on、of”等。

预处理结束后,得到分词化、去冗余的文本数据,作为特征提取的输入。

S2、对预处理后的文本数据进行特征提取,生成词向量。

预处理后得到的仍然是文本数据,计算机无法直接处理,需要将单词映射到向量空间中,进行文本特征提取。使用word2vec词嵌入方法中的Cont inuous Bag-of-Words(CBOW)模型来完成文本特征提取。模型训练及单词向量化过程为:

CBOW模型是一个三层的神经网络模型,假设输入文本如下:“a b c d e f g“,想象有个滑动窗口,第一个词‘e’为关键词,其它词帮助分析。文本的长度为7,就得到了7个one-hot向量,作为CBOW模型的输入向量,训练目标是:最大化在给定前后文本情况下输出正确关键词的概率,即:

Maximise P("e"|("c","d","f","g"))

训练完成后,权重矩阵中的每一行就是对应单词的word2vec向量,即为文本中提取的特征。

S3、使用深度自编码网络对步骤S2中提取的特征进行降维。

特征提取后得到的word2vec向量是高维向量,含有大量冗余信息,通过深度自编码网络降维可以提取深度特征,减少数据量,提高识别准确率和效率。

深度自编码网络是多层的神经网络,使用非线性激活函数,由编码器和解码器两部分组成,编码器用于将输入的高维数据映射到低维向量空间,解码器用于重构输入数据,深度自编码网络的训练目标是:最小化输入数据和重构输入数据的误差,即:

训练完成后,编码器输出结果即为降维后的深度特征。

另外,除了深度自编码网络外,还可以采用PCA进行降维操作。

S4、使用降维后的深度特征训练双向LSTM神经网络模型。

双向LSTM神经网络模型,是在双向LSTM层基础上,加入全连接层和softmax层,克服了RNN和LSTM只能依据之前时刻的时序信息来预测下一时刻输出的问题,真正做到基于上下文判断,对于双向LSTM神经网络模型结构不再赘述。将所有深度特征构成的样本集按照数量比7:3划分为训练集和测试集进行双向LSTM神经网络模型的训练,采用固定学习率0.001。

S5、使用训练好的神经网络模型实现对文本风险数据的识别。

采集待识别的互联网文本数据,按照步骤S1-S3对待识别的互联网文本数据进行处理,输入到步骤S4所得训练好的双向LSTM神经网络模型中,若分类结果为风险数据,则该文本数据含有风险信息,完成互联网文本数据风险的识别。

对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号