首页> 中国专利> 基于Bert模型的互联网负面信息监控方法

基于Bert模型的互联网负面信息监控方法

摘要

本发明公开了基于Bert模型的互联网负面信息监控方法,利用爬虫技术获取贴吧,论坛,微博等数据,完成数据预处理。搭建Bert环境,完成Bert模型特征抽取。初步判断由于测试集与训练集语料在领域主题上比较接近,基于训练集所得到的词向量用在测试集上语境恰好合适。训练集和测试集数据取自同一个时间范围,测试集上应该也没有太多未编码的超纲新词。word2vec+LSTM模型的效果同样也不错。从模型预测执行效率看,Bert模型特征提取方法需要搭建Bertasservice服务器环境,还需要通过Webservices调用获得网页文本净荷的编码,增加了交互步骤和复杂度,此为该方法的一个短处所在。

著录项

  • 公开/公告号CN113065348A

    专利类型发明专利

  • 公开/公告日2021-07-02

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202110257490.3

  • 发明设计人 张涛;曲昊;

    申请日2021-03-09

  • 分类号G06F40/284(20200101);G06K9/62(20060101);G06F16/951(20190101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人沈波

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 11:42:32

说明书

技术领域

本发明属于互联网舆情监控技术领域,具体涉及BERT的自然语言处理算法,TF-IDF词袋模型,word2vec构建词向量。

背景技术

互联网是人们获取信息的一个重要媒介。互联网能够不受空间限制进行信息交换,扩展了人们的交流方式,开阔了人们的视野,丰富了人们的知识。但是,在互联网上也存在一些不良的信息内容,比较普遍的就是一些黄赌毒内容。这些不良信息,一方面就像精神鸦片,会毒害和侵蚀青少年的成长,也会让很多普通人沉溺于低级趣味;另一方面,有这类内容的网站,往往会架设在国外的一些云主机或服务器上。当国内用户访问的时候,就会产生大量的关口局跨境流量,不仅占据了出口带宽资源,也造成了运营商大量的结算费用支出。

在传统的方式里,可以通过用户众包模式,例如有奖举报,再配合大量的人工审核,比如色情网站的鉴黄师,去维护一个所谓的黑名单库。然后由运营商对黑名单库中的URL进行拦截,达到阻断不良信息内容的目的。但是这类网站往往也会通过不断变换域名、更新网页背景图,或者更新部分文字内容等方式翻新,躲避黑名单库的审查过滤,而且这种行为实施起来也是快速但廉价的。

因此,运营商希望能在网络流量中,借助智能算法自动识别那些新出现的包含不良信息内容的URL。一般而言,网站中包含的内容有文本、图片、视/音频等类型,不同的智能算法可以基于这3类信息源进行识别,本文主要探讨基于网站文本内容的智能检测方法。

发明内容

本发明主要用处是依靠Bert模型的关键技术特点及其两种不同用法,利用其中的特征提取方法,进行网站不良信息检测的实施方案。

本发明提供的技术方案如下:基于Bert模型的互联网负面信息监控方法,首先利用爬虫技术获取贴吧,论坛,微博等数据,完成数据预处理。然后搭建Bert环境,完成Bert模型特征抽取。具体包括以下几个步骤:

步骤a:是对给定的网站URL进行检测,判别其是否属于涉及赌博题材的网页。根据数据挖掘的一般知识,将该问题抽象为一个二分类问题,即根据输入特征利用模型算法将网页分成“是”或“否”涉赌两类。

步骤b:选取两种较为常规的文本分类方法作为对照组,分别是:TF-IDF模型、word2vec+LSTM模型。

步骤c:在对比的指标上,选择了在2分类问题里常用的3个评估指标。

精确率(precision):P=TP/(TP+FP)。

召回率(recall):R=TP/(TP+FN)。

F1值:F1=2PR/(P+R)。

上述三个指标分别表示:预测为正的样本中有多少是真正的正样本,是针对预测结果而言的;样本中的正例有多少被预测正确了,是针对原始样本而言的;精确值和召回率的调和均值,是对上述两个指标的综合评价。

相比于TF-IDF模型方法和word2vec+LSTM模型方法。Bert模型有比较明显的优势:

(1)与同样保留上下文语义的采用简单词向量word2vec+LSTM模型相比,Bert模型feature extract方法的效果评估指标略好,但不明显。初步判断主要由于测试集与训练集语料在领域主题上比较接近,基于训练集所得到的词向量用在测试集上语境恰好合适。训练集和测试集数据取自同一个时间范围,测试集上应该也没有太多未编码的超纲新词。因此,word2vec+LSTM模型的效果同样也不错。

(2)Bert模型特征提取方法由于不需要执行embedding,因此训练效率比较高。从模型预测执行效率看,Bert模型特征提取方法需要搭建Bert as service服务器环境,还需要通过Web services调用获得网页文本净荷的编码,增加了交互步骤和复杂度,此为该方法的一个短处所在。

附图说明

图1为Bert模型网络结构图;

图2为Bert模型的输入表征图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

步骤1:根据提供的赌博类网站列表,得到近千个中文内容页面为主的黑名单网站样本。从网站中选取中文页面网站,再从中进行抽样,得到白名单网站样本。

利用爬虫工具将黑白样本网站的首页HTML内容爬取下来。使用Python环境下的beautiful soup网页分析工具包,将HTML标签、JavaScript脚本等与实际网页题材内容无关的信息过滤掉,仅保留中文字符和标点作为文本净荷。

步骤2:搭建Bert环境,要求Bert as service运行环境要求为:Python>=3.5,Tensorflow>=1.10。

部署Bert as service的服务器端和客户端工具。安装完成后,启动Bert asservice服务。

步骤3:客户端调用Bert as service方法,将一个网页文本净荷作为一个句子单位。服务端接收到文本句子之后对句子进行定长编码,并返回客户端,通过这种方式实现黑白样本的文本序列特征抽取。

Bert as service句子编码定长默认768维。

步骤4:样本中随机选择一定比例(本文设定比例80%)作为模型训练集,剩余部分作为独立测试集。

步骤5:在Python环境下,选择XGboost集成分类算法,以上述768维的句子编码作为输入特征,针对训练集数据进行分类模型训练。

步骤6:设计对照组实验,对照组分别为TF-IDF模型方法和word2vec+LSTM模型方法。

步骤7:采用Python环境下的jieba分词工具,对网页文本净荷进行分词。

利用gensim工具包中封装的TF-IDF算法,提取网页文本净荷TF-IDF统计特征,词典做了适当截断以避免特征的高维问题。将该统计特征作为分类器输入,使用xgboost集成分类算法进行分类模型构建。

步骤8:同样,首先要对网页文本净荷进行分词,可以使用上述同样的工具和方法。

接下来是word2vec词向量embedding学习以及LSTM神经网络搭建。为简化实施过程,使用了模块化的神经网络库Keras框架。Keras充分利用Tensorflow通用计算能力,并对词向量embedding以及包括LSTM在内的各种神经网络单元进行了很好的封装,从而减小编程开销,更专注于深度学习模型本身。

完成分词的网页文本净荷,经过embedding向量化,进入LSTM层进行上下文学习,之后LSTM的输出结果经过全连接的Dense层将维度降至目标变量的类别个数(此处为2),利用sigmoid作为激活函数,就可以得到输入文本净荷在两个类别的概率分布,从而完成分类模型构建。

为了验证本发明的有效性和可行性,利用爬取的近2000组数据进行模拟实验,实验结果如下。图1为分类模型输入数据。

图1分类模型输入数据

模型训练好之后,针对Bert模型feature extract方法、以及对照组中的两个文本分类方法,

分别基于同样的独立测试集进行预测和评估。

基于独立测试集的模型效果评估指标数据见图2。

图2试验模型效果评估对照

从对照实验的结果来看,采用Bert模型的特征提取方法,与传统的TF-IDF模型相比,模型效果各项指标都有了很大的提升,这可能跟Bert模型很好地保留了文本的上下文信息有着密切关系。同时说明,特征提取方法对于提取网页文本内容的特征信息是有效的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号