首页> 中国专利> 基于Bert模型的互联网负面信息监控方法

基于Bert模型的互联网负面信息监控方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了基于Bert模型的互联网负面信息监控方法，利用爬虫技术获取贴吧，论坛，微博等数据，完成数据预处理。搭建Bert环境，完成Bert模型特征抽取。初步判断由于测试集与训练集语料在领域主题上比较接近，基于训练集所得到的词向量用在测试集上语境恰好合适。训练集和测试集数据取自同一个时间范围，测试集上应该也没有太多未编码的超纲新词。word2vec+LSTM模型的效果同样也不错。从模型预测执行效率看，Bert模型特征提取方法需要搭建Bertasservice服务器环境，还需要通过Webservices调用获得网页文本净荷的编码，增加了交互步骤和复杂度，此为该方法的一个短处所在。

著录项

公开/公告号CN113065348A

专利类型发明专利
公开/公告日2021-07-02

原文格式PDF
申请/专利权人北京工业大学;
展开▼

申请/专利号CN202110257490.3
发明设计人张涛;曲昊;
展开▼

申请日2021-03-09
分类号G06F40/284(20200101);G06K9/62(20060101);G06F16/951(20190101);
代理机构11203 北京思海天达知识产权代理有限公司;
代理人沈波
地址 100124 北京市朝阳区平乐园100号
入库时间 2023-06-19 11:42:32

说明书

技术领域

本发明属于互联网舆情监控技术领域，具体涉及BERT的自然语言处理算法，TF-IDF词袋模型，word2vec构建词向量。

背景技术

互联网是人们获取信息的一个重要媒介。互联网能够不受空间限制进行信息交换，扩展了人们的交流方式，开阔了人们的视野，丰富了人们的知识。但是，在互联网上也存在一些不良的信息内容，比较普遍的就是一些黄赌毒内容。这些不良信息，一方面就像精神鸦片，会毒害和侵蚀青少年的成长，也会让很多普通人沉溺于低级趣味；另一方面，有这类内容的网站，往往会架设在国外的一些云主机或服务器上。当国内用户访问的时候，就会产生大量的关口局跨境流量，不仅占据了出口带宽资源，也造成了运营商大量的结算费用支出。

在传统的方式里，可以通过用户众包模式，例如有奖举报，再配合大量的人工审核，比如色情网站的鉴黄师，去维护一个所谓的黑名单库。然后由运营商对黑名单库中的URL进行拦截，达到阻断不良信息内容的目的。但是这类网站往往也会通过不断变换域名、更新网页背景图，或者更新部分文字内容等方式翻新，躲避黑名单库的审查过滤，而且这种行为实施起来也是快速但廉价的。

因此，运营商希望能在网络流量中，借助智能算法自动识别那些新出现的包含不良信息内容的URL。一般而言，网站中包含的内容有文本、图片、视/音频等类型，不同的智能算法可以基于这3类信息源进行识别，本文主要探讨基于网站文本内容的智能检测方法。

发明内容

本发明主要用处是依靠Bert模型的关键技术特点及其两种不同用法，利用其中的特征提取方法，进行网站不良信息检测的实施方案。

本发明提供的技术方案如下：基于Bert模型的互联网负面信息监控方法，首先利用爬虫技术获取贴吧，论坛，微博等数据，完成数据预处理。然后搭建Bert环境，完成Bert模型特征抽取。具体包括以下几个步骤：

步骤a：是对给定的网站URL进行检测，判别其是否属于涉及赌博题材的网页。根据数据挖掘的一般知识，将该问题抽象为一个二分类问题，即根据输入特征利用模型算法将网页分成“是”或“否”涉赌两类。

步骤b：选取两种较为常规的文本分类方法作为对照组，分别是：TF-IDF模型、word2vec+LSTM模型。

步骤c：在对比的指标上，选择了在2分类问题里常用的3个评估指标。

精确率(precision)：P＝TP/(TP+FP)。

召回率(recall)：R＝TP/(TP+FN)。

F1值：F1＝2PR/(P+R)。

上述三个指标分别表示：预测为正的样本中有多少是真正的正样本，是针对预测结果而言的；样本中的正例有多少被预测正确了，是针对原始样本而言的；精确值和召回率的调和均值，是对上述两个指标的综合评价。

相比于TF-IDF模型方法和word2vec+LSTM模型方法。Bert模型有比较明显的优势：

(1)与同样保留上下文语义的采用简单词向量word2vec+LSTM模型相比，Bert模型feature extract方法的效果评估指标略好，但不明显。初步判断主要由于测试集与训练集语料在领域主题上比较接近，基于训练集所得到的词向量用在测试集上语境恰好合适。训练集和测试集数据取自同一个时间范围，测试集上应该也没有太多未编码的超纲新词。因此，word2vec+LSTM模型的效果同样也不错。

(2)Bert模型特征提取方法由于不需要执行embedding，因此训练效率比较高。从模型预测执行效率看，Bert模型特征提取方法需要搭建Bert as service服务器环境，还需要通过Web services调用获得网页文本净荷的编码，增加了交互步骤和复杂度，此为该方法的一个短处所在。

附图说明

图1为Bert模型网络结构图；

图2为Bert模型的输入表征图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

步骤1：根据提供的赌博类网站列表，得到近千个中文内容页面为主的黑名单网站样本。从网站中选取中文页面网站，再从中进行抽样，得到白名单网站样本。

利用爬虫工具将黑白样本网站的首页HTML内容爬取下来。使用Python环境下的beautiful soup网页分析工具包，将HTML标签、JavaScript脚本等与实际网页题材内容无关的信息过滤掉，仅保留中文字符和标点作为文本净荷。

步骤2：搭建Bert环境，要求Bert as service运行环境要求为：Python>＝3.5，Tensorflow>＝1.10。

部署Bert as service的服务器端和客户端工具。安装完成后，启动Bert asservice服务。

步骤3：客户端调用Bert as service方法，将一个网页文本净荷作为一个句子单位。服务端接收到文本句子之后对句子进行定长编码，并返回客户端，通过这种方式实现黑白样本的文本序列特征抽取。

Bert as service句子编码定长默认768维。

步骤4：样本中随机选择一定比例(本文设定比例80％)作为模型训练集，剩余部分作为独立测试集。

步骤5：在Python环境下，选择XGboost集成分类算法，以上述768维的句子编码作为输入特征，针对训练集数据进行分类模型训练。

步骤6：设计对照组实验，对照组分别为TF-IDF模型方法和word2vec+LSTM模型方法。

步骤7：采用Python环境下的jieba分词工具，对网页文本净荷进行分词。

利用gensim工具包中封装的TF-IDF算法，提取网页文本净荷TF-IDF统计特征，词典做了适当截断以避免特征的高维问题。将该统计特征作为分类器输入，使用xgboost集成分类算法进行分类模型构建。

步骤8：同样，首先要对网页文本净荷进行分词，可以使用上述同样的工具和方法。

接下来是word2vec词向量embedding学习以及LSTM神经网络搭建。为简化实施过程，使用了模块化的神经网络库Keras框架。Keras充分利用Tensorflow通用计算能力，并对词向量embedding以及包括LSTM在内的各种神经网络单元进行了很好的封装，从而减小编程开销，更专注于深度学习模型本身。

完成分词的网页文本净荷，经过embedding向量化，进入LSTM层进行上下文学习，之后LSTM的输出结果经过全连接的Dense层将维度降至目标变量的类别个数(此处为2)，利用sigmoid作为激活函数，就可以得到输入文本净荷在两个类别的概率分布，从而完成分类模型构建。

为了验证本发明的有效性和可行性，利用爬取的近2000组数据进行模拟实验，实验结果如下。图1为分类模型输入数据。

图1分类模型输入数据

模型训练好之后，针对Bert模型feature extract方法、以及对照组中的两个文本分类方法，

分别基于同样的独立测试集进行预测和评估。

基于独立测试集的模型效果评估指标数据见图2。

图2试验模型效果评估对照

从对照实验的结果来看，采用Bert模型的特征提取方法，与传统的TF-IDF模型相比，模型效果各项指标都有了很大的提升，这可能跟Bert模型很好地保留了文本的上下文信息有着密切关系。同时说明，特征提取方法对于提取网页文本内容的特征信息是有效的。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于Bert模型的互联网负面信息监控方法 [P] . 中国专利： CN113065348A . 2021-07-02
2. 一种基于话题模型的网络负面信息影响最小化方法 [P] . 中国专利： CN105468681A . 2016-04-06
3. The system and the model of internet business to realize the process of raising and conducting the funds which are derivative and formed from a electronic commercial transaction on the base of the internet system. [P] . 韩国专利： KR20020015926A . 2002-03-02

机译：互联网业务的系统和模型，用于实现基于互联网系统的电子商务交易衍生和筹集资金的过程。
4. 3 The Business model for cyber-touring that is based time-sequentially 3-dynamically and virtually concentrated animations on the internet [P] . 韩国专利： KR20020000590A . 2002-01-05

机译： 3用于网络旅行的业务模型，该模型基于时间顺序地3动态且虚拟地集中在互联网上的动画
5. METHOD FOR MONITORING RECORDING AND BROADCASTING DATA LEARNING BASED ON INTERNET [P] . 世界知识产权组织专利： WO2018223530A1 . 2018-12-13

机译：基于互联网的记录和广播数据学习监控方法