首页> 中国专利> 一种基于网信领域短文本的观点挖掘方法

一种基于网信领域短文本的观点挖掘方法

摘要

本发明属于网络信息以及自然语言处理技术领域,特别涉及一种基于网信领域短文本的观点挖掘方法。本方法包括网信领域相关的数据获取与预处理模块、基于短文本的特征提取模块、短文本属性推断模块、观点挖掘结果输出模块。本发明方法提出了基于网信领域的短文本获取与数据清洗模型,建立了面向社交网络短文本的文本特征提取模型,设计了基于网信领域的社交网络短文本的属性推断模型,综合考虑了文本关键词抽取和摘要生成,提出对应的观点挖掘输出模型,最终基于实际采集的网络安全法相关短文本数据实现输出及可视化的展示。本发明极大地减少了人工收集、分析与网信领域相关的短文本的时间成本,能够有效的为网信领域相关专业人士提供观点挖掘结果。

著录项

  • 公开/公告号CN113220964A

    专利类型发明专利

  • 公开/公告日2021-08-06

    原文格式PDF

  • 申请/专利号CN202110357064.7

  • 申请日2021-04-01

  • 分类号G06F16/951(20190101);G06F16/9032(20190101);G06F16/955(20190101);G06F40/242(20200101);G06F40/284(20200101);G06N3/04(20060101);G06N3/08(20060101);G06Q50/00(20120101);

  • 代理机构11201 北京清亦华知识产权代理事务所(普通合伙);

  • 代理人罗文群

  • 地址 100029 北京市朝阳区裕民路甲3号

  • 入库时间 2023-06-19 12:07:15

说明书

技术领域

本发明属于网络信息以及自然语言处理技术领域,特别涉及一种基于网信领域短文本的观点挖掘方法。

背景技术

网信领域指的是网络安全和信息化领域,该领域的工作是事关国家安全和国家发展、事关广大人民群众工作生活的重大战略问题,法的有效性评估是检视法律规范体系的完备性、规范性和可适用性是否满足社会关系调整需求的重要方法和手段。而网信领域立法与政策的有效性直接关系到国家网络空间的治理水平和安全能力。近年来国内外网信领域密集出台了系列战略、法律法规和政策文件。政策评估作为政策过程的一个关键环节,对正确制定、执行和完善政策以及提高政策质量方面发挥着重要作用。相关部门经常在微博,论坛等社交媒体平台上征求针对网信政策法规的意见,从而进一步的完善相关政策法规。

但在实际生活当中,社交网络平台存在数据量十分巨大,用户群体属性未知等特性,人工的进行数据收集分析比较困难,所以需要设计一个自动的基于网信领域短文本的观点挖掘分析系统,进而实现对于文本的属性推断,辅以关键词展示和摘要展示,实现基于网信领域短文本的观点挖掘的综合输出及可视化展示。

发明内容

本发明的目的是提出一种基于网信领域短文本的观点挖掘方法,以实现对网信领域的短文本进行观点挖掘与分析。

本发明提出的基于网信领域短文本的观点挖掘方法,包括如下步骤:

(1)利用基于支持用户自定义的API网络爬虫,根据用户需求对网信领域短文本进行爬取,得到文本数据,对文本数据进行后续数据清洗;

(2)利用由谷歌公开发布的中文预训练BERT模型,对步骤(1)清洗后的文本进行嵌入编码,得到文本特征矩阵;

(3)利用多层神经网络搭建的文本属性推断网络,将步骤(2)的文本特征矩阵输入到文本属性推断网络中,得到网信领域短文本的文本属性,文本属性包括文本的情感极性及文本内容类别;

(4)利用文本统计及自然语言处理的方法,根据步骤(3)的文本属性,对网信领域短文本进行群体识别、词云图生成与摘要生成。

本发明提出的基于网信领域短文本的观点挖掘方法,其有益效果是:

1、本发明方法可以实现对与网信领域相关的短文本进行数据获取、文本清洗、属性推断、观点挖掘,从而实现对网信领域相关的短文本进行综合性的分析。

2、本发明方法中针对短文本属性推断这一应用场景,独特地设计了基于深度神经网络框架的学习模型,可以更好地提高文本属性推断的准确性和可靠性。

3、本发明方法中观点挖掘模块,考虑了对不同用户群体挖掘其讨论的热点话题,从而得到不同用户群体的关注点,同时结合属性推断的结果进行摘要生成,更好地实现了对网民评论意见的收集。

4、本发明针对网信领域短文本观点挖掘效果较好,以《数据安全法》为示例,挖掘与其相关的社交媒体短文本取得了较好的结果。

附图说明

图1是本发明提出的基于网信领域短文本的观点挖掘方法的流程框图。

图2是针对社交网络短文本数据预处理的流程图。

图3是本发明的数据获取与预处理模块处理文本示例。

图4是本发明的基于短文本的特征提取模块的流程图。

图5是本发明的基于短文本的特征提取模块的示例图。

图6是本发明的短文本属性推断模块的框架图。

图7是本发明的短文本属性推断模块的示例图。

图8是本发明观点挖掘结果输出模块中的群体识别的流程图。

图9是本发明观点挖掘结果输出模块中的群体识别的示例图。

图10是本发明观点挖掘结果输出模块中的词云图绘制与摘要生成的流程图。

图11是本发明观点挖掘结果输出模块中的词云图绘制结果的示例图。

图12是本发明观点挖掘结果输出模块中的摘要生成结果的文本示例。

图13是本发明观点挖掘最终输出的示例图。

具体实施方式

本发明提出的基于网信领域短文本的观点挖掘方法,包括如下步骤:

(1)利用基于支持用户自定义的API(为网络信息处理领域的公知技术)网络爬虫,根据用户需求对网信领域短文本进行爬取,得到文本数据,对文本数据进行后续数据清洗;

(2)利用由谷歌公开发布的中文预训练BERT(为网络信息处理领域的公知技术)模型,对步骤(1)清洗后的文本进行嵌入编码,得到文本特征矩阵;

(3)利用多层神经网络搭建的文本属性推断网络,将步骤(2)的文本特征矩阵输入到文本属性推断网络中,得到网信领域短文本的文本属性,文本属性包括文本的情感极性及文本内容类别;

(4)利用文本统计及自然语言处理的方法,根据步骤(3)的文本属性,对网信领域短文本进行群体识别、词云图生成与摘要生成。

上述观点挖掘方法的步骤(1)中,用户通过自定义的与网信领域相关的话题和关键词输入到基于自定义的API网络爬虫中,得到与网信领域相关的短文本的原始数据,原始数据包括:短文本内容、短文本发布时间、用户名、用户ID、用户个人简介、用户粉丝数、数据来源,并将原始数据存入本地数据库当中;数据清洗的先后顺序为:html字符去除、URL链接去除、表情符号去除、用户名去除、中文分词。其中数据清洗,具体过程为:将待处理的原始文本数据设为S,S为N个字符c

上述观点挖掘方法的步骤(2)中,文本特征提取过程如下:

(1)搭建BERT模型,将谷歌官方公布的中文预训练参数作为模型参数,参数包含由预先训练的深度学习的网络参数、由简体中文与繁体中文的词组构成的词典;

(2)将步骤(1)中的BERT词典中加入空词组与未知词组,将权利要求1中步骤(1)的经过清洗和分词后的句子设为S,S为M个词组w

(3)将步骤(2)得到的输入序列

上述观点挖掘方法,BERT模型包括12层由注意力机制和前向传播组成的基本单元,每层的隐层由768个隐藏单元,每层的注意力机制有12个头,共1.1亿参数;在BERT词典当中加入两个新词组,两个新词组分别为空词组w

上述观点挖掘方法的步骤(3),包括以下步骤:

(1)构建由多层神经网络搭建的文本属性推断网络;文本属性推断网络包括3层卷积网络,1层自注意力网络,2层属性输出网络;所推断的属性为文本的情感极性与文本内容的类别;

(2)将经过特征提取的人工标注数据,代入到步骤(1)的文本属性推断网络中,对文本属性推断网络进行监督训练;训练过程首先由人工对数据源的情感极性与文本内容进行标定,然后将标定的数据按照8:2的比例分为训练集与测试集,训练1000轮,并在每轮训练结束时代入测试集进行测试,训练过程使用早停的训练策略,即在测试集表现最好的那一轮,对模型进行保存;

(3)对于需要判断属性的与网信领域相关的文本数据经过数据清洗与特征提取后,输入到步骤(2)中已训练好的文本属性推断网络中,得到输入文本的情感极性与文本内容属性推断结果,将属性推断结果存入到本地数据库中,利用保存的最好参数作为文本属性推断网络的参数进行文本属性的推断。

上述观点挖掘方法中,所述的卷积网络由卷积层和池化层构成,卷积核的列数与输入矩阵的列数相同,行数为3,以卷积核向下滑动的方式对输入矩阵进行卷积;所述的自注意力网络对卷积的输出进行关联度匹配,计算关联度权重,自注意力网络的输出即为关联度矩阵乘输入文本矩阵;所述的属性输出网络分为两部分,一部分为文本的情感极性输出,另一部分为文本内容类别输出,均使用Softmax激活函数。

上述观点挖掘方法的步骤(4),包含以下步骤:

(1)对原始文本数据进行属性推断;

(2)构建群体识别知识库,利用原始数据的用户名、用户个人简介和粉丝数,并识别用户的群体类别;对社交媒体平台用户进行目标群体识别,目标群体分为四类:社会团体、企业、官方和个人网民,人工收集代表不同群体的关键词,得到由关键词与群体类别的映射关系,将映射关系作为群体识别知识库,依据知识库进行群体识别,识别步骤如下:

(2-1)建立群体识别知识库,人工对社交媒体平台各群体用户的用户名及个人简介进行分析,得到能够区分不同群体的关键名词,并将关键名词与四类群体类别建立映射关系,将映射关系作为群体识别知识库。

(2-2)利用百度公开的自然语言处理工具的Paddle-Lac,对用户的用户名与个人简介进行命名实体识别(为网络信息处理领域的公知技术),提取用户个人简介中的名词实体(通过命名实体识别方法,可以得到词及其词性,词在专业里就称之为实体),若该名词实体存在于群体识别知识库中,则进入步骤(3),若该名词实体不存在于群体识别知识库,则进入步骤(4);即通过命名实体识别,对个人简介中的词进行抽取,如果抽取的词恰好在知识库中存在,则进入步骤(3),按照知识库的映射关系赋予用户群体类别,否则就根据其用户的粉丝数来判别用户是否是网民还是团体。

(2-3)对提取得到的名词实体与群体识别知识库中的关键词进行匹配,若匹配到知识库中的关键词,则将与关键词所映射的群体作为目标群体,并输出相应的用户群体类别,若匹配不到知识库中的关键词,则进入步骤4;

(2-4)设定社交媒体平台用户粉丝数设立阈值,对用户的粉丝数进行判断,若用户的粉丝数量高于设定阈值,则判定用户的群体类别为社会团体,若用户的粉丝数量小于或等于设定阈值,则判定用户的群体类别为个人网民;

(2-3)根据用户的群体类别,分别对各类群体用户发表的短文本进行整理,生成词云图;

(2-3-1)根据群体类别的识别结果,按照不同群体类别将用户的社交短文本进行整理;

(2-3-2)对短文本进行分词处理,分词后利用停用词表,将短文本当中的停用词剔除;

(2-3-3)利用下式,计算短文本中词语的词频-逆向文件频率tf-idf

tf-idf

其中,n

(2-3-4)根据词组的tf-idf

(2-3-5)利用wordcloud库方法(为网络信息处理领域的公知技术),为各个群体绘制词云图。

(2-3-4)根据不同的文本内容类别,按照极性分别为每类文本进行摘要生成。

上述观点挖掘方法的步骤(3)绘制各群体的词云图步骤如下:

(3-1)使用“。”、“?”和“!”作为切分句子的标点符号,对将文本段落切分为句子;

(3-2)选用词频-逆向文件频率,对切分后的句子序列进行嵌入表示,每个句子对应一个词频-逆向文件频率向量v

(3-3)计算步骤(2)的句子权重,即关键词信息量、句子位置和句子相似度信息量,句子的关键词信息量为句子向量v

本发明的观点挖掘方法,对与网信领域相关的短文本进行观点挖掘,得到社交媒体平台用户对网信领域政策法规的观点极性及看法,最终的结果以各方群体对于网信领域政策法规各方面内容的词云图和摘要形式给出。

下面将参考附图,并结合对《数据安全法》观点挖掘实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。

如图1所示,本发明基于网信领域短文本的观点挖掘方法,在功能上,该方法有赖于四个功能模块,分别为与网信领域相关的数据获取与预处理模块、基于短文本的特征提取模块、短文本属性推断模块、观点挖掘结果输出模块。

基于此,本发明主要包括如下步骤:

步骤1,利用基于支持用户自定义的API的网络爬虫,根据用户需求针对网信领域相关的短文本进行爬取,然后对于所爬取的文本数据进行后续的数据清洗。本步骤具体又分为如下步骤:

(1),用户通过自定义的与网信领域相关的话题和关键词输入到基于API搭建的网络爬虫中,得到与网信领域相关的短文本原始数据,其包括:短文本内容、短文本发布时间、用户名、用户ID、用户个人简介、用户粉丝数、数据来源,并将原始数据存入本地数据库当中。

(2),参考图2,对短文本进行数据清洗,数据清洗的先后顺序为:html字符去除、URL链接去除、表情符号去除、用户名去除、中文分词。将待处理的原始文本数据设为S,其为N个字符c

正则化表达式描述了一种字符串匹配的模式,首先将短文本按照每行读取并转换为字符串,在其中进行遍历检查字符串是否含有所查找子串,最后对该字符串进行匹配并替换。移除的内容可用空格替代以保证短文本的整齐,最终得到清洗后的文本。字符编码是文本数据在存储过程中的二进制编码,可以通过查表,将非语言类的字符,比如表情,特殊符号进行去除。jieba库是可以实现对中文句子进行分词的通用的库。

以图3为例,短文本清洗的处理案例如下,原始文本为真实社交网络中与网信领域相关的短文本,在经过数据清洗与分词操作下,得到最终的结果。其中,原始文本中的html标签,URL链接,特殊标签符号和用户名均被滤除。且清洗后的文本经分词后得到一组词序列。

步骤2,基于步骤1得到的与网信领域相关的短文本,利用由自注意力机制搭建的BERT模型,针对清洗后的文本进行嵌入编码,以得到文本特征的矩阵表示;即利用现有的模型,将非数值形式的文本数据,以数值化的数学矩阵进行表示。参考图4,本步骤具体又分为如下步骤:

(1)搭建BERT模型,并将官方的中文预训练参数作为模型参数。其中BERT有12层由注意力机制和前向传播组成的基本单元,每层的隐层有768个隐藏单元,每层的注意力机制有12个头,共1.1亿参数。由google公司进行维护,参数已公开,是自然语言处理行业常用的文本表示工具。在BERT模型的词典中加入,加入两个新词组分别为空词组w

(2)将经过清洗和分词后的句子设为S,其为M个词组w

(3)将(2)得到的输入序列

以图5为例,短文本特征提取模块的处理案例如下,预设词序列长度M=64。输入为经过短文本清洗和分词的处理之后的文本数据“网络安全00后作为第一代网络原住民从小就接触各种各样的电子产品和网络内容引导他们安全用网保护他们的合法权益对培养社会主义事业接班人至关重要”,词序列长度为37,所以在句尾添加27个空词组使得新的词序列长度变为64,然后带入到BERT中文预训练模型当中,得到4096维词序列向量,经过变形后,得到64×64维的句子矩阵。

步骤3,基于步骤2的特征提取得到文本的特征矩阵,代入到由多层神经网络搭建的文本属性推断网络,得到短文本的情感极性及文本内容类别。本步骤具体又分为如下步骤:

(1)构建由多层神经网络搭建的文本属性推断网络。参考图6,文本属性推断网络包括3层卷积网络,1层自注意力网络,2层属性输出网络;所推断的属性为文本的情感极性与文本内容的类别。卷积网络的由卷积层,池化层构成,卷积核的列数与输入矩阵的列数相同,行数为3,以卷积核向下滑动的方式对输入矩阵进行卷积;所述的自注意力网络是对卷积的输出进行关联度匹配,计算关联度权重,输出即为关联度矩阵乘输入文本矩阵;所述属性输出网络分为两部分,一部分为文本的情感极性输出,另一部分为文本内容类别输出,均使用Softmax激活函数。

(2)用人工标注的数据,经过步骤2的特征提取,代入到(1)中的文本属性推断网络,对其进行监督训练;训练过程首先由人工对数据源的情感极性与文本内容进行标定,其中文本内容指的是短文本反映了与网信领域相关的哪一方面内容,而情感极性指的是短文本反映出来的情感是积极倡导,还是消极批评;然后将标定的数据按照8:2的比例分为训练集与测试集,训练1000轮,并在每轮训练结束时代入测试集进行测试;保存在测试集上表现最好的那一轮的参数。

(3)对于未经标定的文本数据经过数据清洗与特征提取,代入到文本属性推断网络,得到属性推断结果,存入到本地数据库中。

以图7为例,在社交短文本经过特征提取得到句向量矩阵,代入到属性推断网络当中,可以得到该短文本的文本内容为网络安全,情感极性为积极倡导,得到句子属性之后将其保存至数据库当中。

步骤4,基于步骤1得到的与网信领域相关的短文本,并结合步骤3得到的文本属性,分别进行群体识别、词云图生成与摘要生成,最终实现文本属性推断结果的展示,同时以词云图及摘要抽取作为补充,实现对短文本整体内容的信息抽取,以便于现实场景下的利用和展示。本步骤包含以下步骤:

(1)经过步骤1得到原始文本数据,并通过步骤3与对文本数据进行属性推断;

(2)利用原始数据的用户名、用户个人简介、粉丝数,识别用户的群体类别;对社交媒体平台用户进行群体识别,目标群体分为四类:社会团体、企业、官方及个人网民,由人工标定代表不同群体的关键词,得到由关键词映射群体类别的群体识别知识库,依据知识库进行群体识别,参考图8,其步骤如下:

Step1:将用户的用户名与个人简介进行命名实体识别,提取文本中的名词实体,如果存在名词实体则进入Step2,否则进入Step3;

Step2:对于所提取得到的名词实体与群体识别知识库中的关键词进行匹配,若匹配到知识库中的关键词,则取关键词所映射的群体作为目标群体,并输出用户群体类别,否则进入Step3;

Step3:对社交媒体平台用户粉丝数设立阈值,若用户的粉丝数量高于阈值,则输出用户群体类别为社会团体,否则输出用户群体类别为个人网民。

以图9为例,选取真实数据库中用户信息,首先针对用户简介进行数据清洗与分词处理,然后对其进行实体抽取,得到用户简介的抽取结果“北京星权律师事务朱晓磊律师创始人国内外知名人士北京律师事务所。”通过与知识库的关键词进行匹配,可知“北京星权律师事务所”能够匹配到“律师事务所”,所以得到用户群体识别的结果为社会团体。

(3)根据用户的群体类别,分别对各类群体用户发表的短文本进行整理,生成词云图。参考图10,绘制各群体的词云图步骤如下:

Step1:根据群体识别的结果,按照不同群体类别将用户的社交短文本进行整理;

Step2:对短文本进行分词处理,分词后利用停用词表,将短文本当中的停用词剔除;

Step3:计算短文本中词语的TF-IDF值,具体公式如下:

tf-idf

Step4:根据词组的TF-IDF值的高低进行排序,选前50组词作为短文本的关键词;

Step5:利用wordcloud库为各个群体绘制词云图。

以图11为例,选取了企业和民间团体这两类群体为例,挖掘其关心的关键词与话题,以词云图的形式展出。

(4)在关键词的基础上实现在属性推断后,考虑实现对文本整体的概要信息进行综合展示,根据不同的文本内容类别,按照极性分别为每类文本进行摘要生成,其中设计摘要生成系统的步骤如下:

摘要生成模型设计思路分为以下四个步骤:

Step1:文本切分(使用“。”,“?”和“!”来做切分句子的标点符号。)

Step2:文本表示(选用tfidf权重矩阵)。

Step3:计算句子权重,即为关键词信息量、句子位置和句子相似度信息量。首先将三个权重指数按照一定的系数相加,对所有句子按照权重值进行降序排序,随后根据得分的高低来调整feature_weight的取值。

Step4:抽取句子权重最高的句子作为摘要。

以图12为例,选取了“360安全公司”这一话题,对所有设计这一话题的短文本进行整合,共3612字,生成了约为120字的短文本摘要。

以图13为例,为本发明基于网信领域短文本的观点挖掘方法的结果展示图,展示的内容为短文本的属性推断与用户的群体识别结果、基于用户群体的词云图生成结果以及基于文本类别的摘要生成结果。

综上,本发明解决了现有技术中没有考虑到面向网信领域的短文本观点挖掘的方法,提出了基于网信领域的短文本获取与数据清洗模型,建立了面向社交网络短文本的文本特征提取模型,设计了基于网信领域的社交网络短文本的属性推断模型,同时综合考虑了文本关键词抽取和摘要生成,提出了对应的观点挖掘输出模型,最终基于实际采集的网络安全法相关短文本数据实现输出及可视化的展示。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号