首页> 中国专利> 一种用户生成内容中欺骗性垃圾意见检测方法

一种用户生成内容中欺骗性垃圾意见检测方法

摘要

本发明公开了一种用户生成内容中欺骗性垃圾意见检测方法,属于信息技术领域。本方法为:1)对设定用户生成内容信息源中的信息进行爬取并生成用户生成内容网页集合,然后对用户生成内容网页进行标注,得到候选欺骗性垃圾意见集合;2)对集合中的样本进行过滤,形成准确欺骗性垃圾意见集合;3)从意见作者、意见内容、内容分布、链接四个纬度对准确欺骗性垃圾意见集合及无标注用户生成内容网页集合样本进行特征提取,生成每一维度的特征向量;4)采用机器学习方法建立每一维度的欺骗性垃圾意见检测模型;5)利用所述欺骗性垃圾意见检测模型等对新爬取的用户生成内容网页进行欺骗性垃圾意见检测。本发明大大提高了欺骗性垃圾意见的检测效率。

著录项

  • 公开/公告号CN103176984A

    专利类型发明专利

  • 公开/公告日2013-06-26

    原文格式PDF

  • 申请/专利权人 中国科学院计算机网络信息中心;

    申请/专利号CN201110430978.8

  • 发明设计人 杨风雷;黎建辉;

    申请日2011-12-20

  • 分类号

  • 代理机构北京君尚知识产权代理事务所(普通合伙);

  • 代理人余长江

  • 地址 100190 北京市海淀区中关村南四街4号

  • 入库时间 2024-02-19 19:24:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-01-20

    授权

    授权

  • 2013-07-24

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20111220

    实质审查的生效

  • 2013-06-26

    公开

    公开

说明书

技术领域

本发明属于信息技术领域,尤其涉及一种用户生成内容中欺骗性垃圾意见检测方法,主 要应用于互联网信息监控、信息预警、情感分析、信息过滤等领域中。

背景技术

互联网环境下,互联网用户可以通过BBS论坛、博客、微博、社交网站等场所,借助于 互联网信息的浏览、转发、发表评论、发布博客文章及评论等手段来表达自己对于感兴趣话 题的关注和意见,也可以和相关的人员进行交流,这种模式已经成为互联网用户表达意见、 相互交流的重要模式。在这种模式下用户所产生的观点、意见等内容被称为用户生成内容 (User-Generated-Content),这和传统的由网站所有者提供内容的模式完全相反。目前,人 们已经认识到对这些用户生成内容进行挖掘可以得到很多宝贵的可应用于很多领域的知识。

由于越来越多的用户在互联网上发布自己的观点或意见,这类用户生成内容越来越多, 仅靠人工的方法难以应对网上的海量信息,为了使用计算机帮助用户快速获取和整理(挖掘) 这些用户生成内容,就需要用到意见挖掘(Opinion Mining)技术。意见挖掘也称为观点挖 掘、情感分析等,是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程, 这是一个虽然新兴、但很活跃的多学科交叉的研究领域,与文本挖掘、信息检索、机器学习、 本体学、自然语言理解等均有着较强的相关性。之前,意见挖掘研究领域中的研究工作主要 集中在采用自然语言处理、数据挖掘等技术完成情感信息的抽取(意见所有者、意见对象、 意见词语等)、情感信息的分类(主客观、倾向性)以及情感信息结果的呈现等。

但目前,一些研究者在研究工作中发现,由于互联网上的用户生成内容没有质量控制机 制,网民可以在互联网上发布任何观点,用户生成内容中存在很多噪声内容或者虚假的内容, 这在很大程度上影响了意见挖掘的效果。即用户意见的有用性、可信性问题在很大程度上影 响了意见挖掘的质量和效果。为此,垃圾意见研究工作开始得到关注并成为意见挖掘的一个 重要组成部分;同时,作为情感分析工作的应用场景之一,此工作也开始得到信息监控、信 息过滤等领域的关注。垃圾意见指的是用户生成内容中不请自来的、和话题无关的(广告等) 或者虽然和话题相关但是虚假性的内容,因为这些内容一般出现在论坛、博客、社交网站等 所谓的web2.0应用中,所以也称为垃圾2.0(或者web2.0垃圾)。目前,垃圾意见的相关研 究工作已经开始得到空前的重视。

按照不同的角度,可对用户生成内容中的垃圾意见进行不同的归类,比如按照垃圾意见 的产生方式、表现形式、目的等进行不同的分类。其中,按照垃圾意见的负面影响大小,可 将其分为不可信意见、低质量意见、无关意见。不可信意见,也就是欺骗性的意见,一方面 表现为对特定的对象、事件、人物等给出不符合实际情况的超高评价、恭维等;另一方面也 可能表现为对特定的对象、事件、人物等给出不符合实际情况的超低评价、谩骂、攻击等。 低质量意见,此种意见内容一般长度较短,其内容可能是有用的,也可能是无用的,但是由 于其内容对特定的话题/产品描述不详细,不能非常确定其对特定话题/产品的意见挖掘的意 义,因此也认为是一种垃圾意见(针对计算机而言)。无关意见,此种意见主要表现为广告或 者和话题无关的内容。

总体上,用户生成内容中的垃圾意见检测问题可以看作是一个分类问题,更准确的可以 看作是一个二值分类问题(是垃圾意见、不是垃圾意见),原则上这可以通过各种基于规则或 机器学习的方法完成。但相对传统的垃圾页面、垃圾邮件检测工作而言,考虑到不可信意见 的识别难度问题(传统的垃圾页面、垃圾邮件中的垃圾特征相对比较明显,而不可信意见的 特征不明显,同时也没有一个明确的、通用的、可操作的不可信垃圾意见判断标准,故此判 别起来比较困难),用户生成内容中的垃圾意见,尤其是不可信意见的检测相对更难。如何对 用户生成内容中的欺骗性垃圾意见进行准确检测问题一直未得到有效解决。

考虑到欺骗性垃圾意见的获取难度问题,有研究采取将用户生成内容中重复的意见信息 作为欺骗性垃圾意见的样本,将其它的意见信息作为非欺骗性垃圾意见的样本,根据此标准 对用户生成内容进行处理、标注,并在此基础上采取有监督的机器学习方法建立分类器进行 欺骗性垃圾意见判别、检测。对此种做法,注意到这里面存在两个重要的问题:(1)重复的 意见并非一定是欺骗性垃圾意见;(2)欺骗性垃圾意见并非都是重复的。这意味着上述研究 工作中,欺骗性垃圾意见正例集合中可能存在反例样本,而欺骗性垃圾意见反例集合中可能 存在正例样本。这可能是已有文献显示,采用同样的方法检测得到的欺骗性垃圾意见准确度 相对较低的原因之一。同时,对于欺骗性垃圾意见,尤其是非欺骗性垃圾意见而言,尽管它 们各自存在一些共同的特征,但其内部分布特点也是多种多样,此种情况下,如果训练样本 选择不当,采用一般机器学习方法得到的检测模型准确度会因为应用场景不合适而使得准确 度下降。因此,用户生成内容中的欺骗性垃圾意见的检测是一个极为困难的问题。

发明内容

为解决上述的问题,本发明的目的在于提供一种采取特定策略、步骤对用户生成内容中 的欺骗性垃圾意见进行检测识别的方法。方法中借鉴智能系统思路,形成的步骤如下所述。

(1)对某一特定用户生成内容信息源(比如某一个论坛),启动互联网信息爬虫软件对 其中的信息进行爬取,对互联网信息爬虫爬取得到的网页进行预处理等步骤后, 形成用户生成内容网页集合。

(2)对用户生成内容网页集合中的网页进行判断,将可能是欺骗性垃圾意见的网页信 息进行整理、标注(根据意见作者行为、所发布内容的特征等判断),形成候选欺 骗性垃圾意见集合。

(3)对候选欺骗性垃圾意见集合中的每一个网页信息,根据其相关的特征(比如意见 作者的行为、意见的内容等)审核其是欺骗性垃圾意见的可能性,对确定的欺骗 性垃圾意见(通过正向、反向确认的方式确定)进行整理、标注,形成准确的欺 骗性垃圾意见样本集合。

(4)对整理形成的准确欺骗性垃圾意见样本集合和无标注的用户生成内容网页集合 (排除准确的欺骗性垃圾意见)抽取样本的特征(包括意见作者、内容、内容分 布、及链接特征四个维度的特征),在此基础上选择“从正例和无标注数据中学习” 的机器学习方法,并建立欺骗性垃圾意见检测模型。

(5)在建立欺骗性垃圾意见检测模型的基础上,对互联网信息爬虫新爬取的用户生成 内容网页进行欺骗性垃圾意见检测识别(包括黑名单识别、反向识别以及模型识 别等)。

(6)对于经过检测模型等识别判断为欺骗性垃圾意见的网页信息进行明确的标注。

(7)将检测过程判断为欺骗性垃圾意见的网页信息补充到候选欺骗性垃圾意见集合 中。

(8)对新的候选欺骗性垃圾意见集合信息进行审核判断,对确定的欺骗性垃圾意见进 行整理、标注(根据意见作者的行为、意见内容等),形成新的准确的欺骗性垃圾 意见样本集合;同时形成新的无标注的用户生成内容网页集合。

(9)在新形成的准确欺骗性垃圾意见样本集合和无标注的用户生成内容网页集合基础 上,对检测模型进行更新。

(10)在对准确欺骗性垃圾意见集合和无标注的用户生成内容网页集合、检测模型进行 补充、更新的同时,将经过欺骗性垃圾意见检测判断、标注的用户生成内容推送 到后续的环节进行后续处理(处理过程中依据标注类别的不同采取不同的处理方 式)。

本发明通过采取启发式的方法,对互联网信息爬虫爬取的用户生成内容信息进行选择, 对可能是欺骗性垃圾意见的网页进行标注、整理,形成候选的欺骗性垃圾意见集合。具体为 依据意见作者的行为、意见内容等特征进行选择。

本发明对候选欺骗性垃圾意见集合中的每一个样本,根据“宁缺勿滥”的原则进行整理 标注,形成一个准确的欺骗性垃圾意见集合,具体采用的方式包括正向、反向确认。

本发明通过首先对用户生成内容网页集合样本进行选择形成候选的欺骗性垃圾意见集 合、之后通过正反向确认的方式形成准确欺骗性垃圾意见集合的方式,保证了准确欺骗性垃 圾意见样本标注的效率。

本发明在对样本进行标注过程中,考虑到反例样本可能存在的多样性特点,为提高检测 模型的检测准确度、避免反例样本标注的工作量等,未标注反例样本。

本发明在建立欺骗性垃圾意见检测模型过程中,选择了一种“从正例和无标注数据中学 习”的机器学习方法,具体的依据上述的准确欺骗性垃圾意见集合和无标注的用户生成内容 网页集合完成。适应了样本标注困难以及非欺骗性垃圾意见样本特征分布多样性问题。

本发明在建立欺骗性垃圾意见检测模型过程中,主要从意见作者、所生成内容、内容分 布、及链接特征四个纬度考虑,选择意见作者、所生成内容、内容分布、及链接相关的特征 作为建立欺骗性垃圾意见检测模型的基础,避免了抽取特征不全面等问题。

本发明在欺骗性垃圾意见的检测过程中采用了黑名单识别、反向识别、模型检测识别等 相结合的方法,保证了欺骗性垃圾意见检测的准确。其中在采用模型对信息的检测过程中, 分别采用了上述建立的基于意见作者、所生成内容、内容分布、及链接特征的四个检测模型 进行检测,如果至少有三个模型判断信息为正例,则识别结果为欺骗性垃圾意见。

本发明结合欺骗性垃圾意见判别后的补充措施,保证了准确的欺骗性垃圾意见样本集合 的逐步扩大和集合中欺骗性垃圾意见类型的增多,因此,基于此建立的检测模型适应性会逐 步提高;同时,在此基础上及时更新欺骗性垃圾意见检测模型,也能保证在欺骗性垃圾意见 分布特征发生变化时检测模型的鲁棒性。

与现有技术相比,本发明的优点:

(1)采取启发式方法建立候选欺骗性垃圾意见集合,并基于此采取正向、反向确认的 方式建立准确欺骗性垃圾意见集合,从而解决了无法收集到准确的欺骗性垃圾意 见的问题。但未建立非欺骗性垃圾意见样本集合,减少了工作量和提高了检测方 法的准确度。

(2)建立检测模型过程中,基于意见作者、所生成内容、内容分布、及链接四个纬度 的特征,采取了“从正例和无标注数据中学习”的机器学习方法,解决了抽取特 征不全和非欺骗性垃圾意见特征分布多样性等问题导致的检测模型识别准确度低 等问题。

(3)在欺骗性垃圾意见检测工作中,采取检测模型识别、黑名单识别和反向识别结合 的检测模式,进一步提高了欺骗性垃圾意见的识别准确度。

(4)采取了随时间逐步增加样本的方式,保证了欺骗性垃圾意见集合逐步扩大、集合 中欺骗性垃圾意见类型的增多和持续更新,基于此更新检测模型从而保证了检测 模型的鲁棒性。

附图说明

图1用户生成内容中欺骗性垃圾意见检测方法流程图;

图2候选欺骗性垃圾意见收集方法示意图;

图3准确欺骗性垃圾意见审核方法示意图;

图4欺骗性垃圾意见检测模型建立示意图;

图5欺骗性垃圾意见识别方法示意图。

具体实施方式

本发明的具体实施方式如图1所示。下面详细叙述各步骤。

(1)用户生成内容网页集合产生

对某一特定用户生成内容信息源(比如某一个论坛),启动互联网信息爬虫软件对其中的 信息进行爬取,对互联网信息爬虫爬取得到的网页进行预处理等步骤后,形成用户生成内容 网页集合。

(2)候选欺骗性垃圾意见收集

考虑到欺骗性垃圾意见的目的是为了不切实际的抬高或降低特定对象比如网站、网页、 产品、人物等的形象,具体的表现为对特定的对象、事件、人物等给出不符合实际情况的超 高评价、恭维等;另一方面也可能表现为对特定的对象、事件、人物等给出不符合实际情况 的超低评价、谩骂、攻击等。由此出发,考虑到实际中欺骗性垃圾意见所具有的一些分布特 征,采取启发式方法对可能是欺骗性垃圾意见的用户生成内容进行收集。具体的,此过程中 主要关注用户生成内容中内容重复或者近似重复的意见、一定时间范围内发布意见量最高的 top-N1个作者所发布的意见、一定时间范围内意见量最高的top-N2个特定对象相关的意见、 一定时间范围内发布意见量最高的top-N3个IP地址相关的意见、针对特定对象发布意见最早 的top-N4个用户所发布的意见和针对特定对象的意见修正次数最多的top-N5个用户所发布的 意见。

依据上述规则,对用户生成内容网页集合中符合以上条件的意见信息进行整理,形成候 选欺骗性垃圾意见集合(如图2所示)。

(3)欺骗性垃圾意见审核确认

总体上,此过程中遵循宁缺勿滥的原则(即要保证欺骗性垃圾意见样本的准确性),结合 审核、排查等方式对候选的欺骗性垃圾意见进行审核确认。具体的采取了两种方法进行确认, 一种是正向确认,一种是反向确认。所谓正向确认,即如果意见信息内容和欺骗性垃圾意见 知识库中的信息描述的是同一件事情,即信息内容与欺骗性垃圾意见知识库中的某信息描述 相匹配,则为欺骗性垃圾意见。欺骗性垃圾意见知识库中的信息条目增加规则为:对于一条 意见信息,经过一段时间的过程或者事后证明,某用户所发布的信息的确是欺骗性的意见, 加入知识库中。比如在某论坛有人发布信息说某品牌牛奶中含有三聚氰胺,但后来有人举出 种种理由说明这是不可能的,事后证明后者是某品牌牛奶公司的内部员工欺骗所致。由此即 可确认此意见信息是欺骗性垃圾信息,加入知识库中(知识库事先构建并定期更新)。所谓反 向确认,即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是欺骗 性垃圾意见。比如反向确认知识库(事先构建并定期更新)中的一条规则为:某一用户id在 设定时间中(比如1分钟)对一种或多种产品发布了多于N(比如10条)条意见信息,则将该 用户所发表的这些意见信息标注为欺骗性垃圾意见信息。能匹配此规则的一个例子是:某一 论坛中某一用户id在不到1分钟的时间中对3种不同产品发布了15条评价信息,从一个正常人 的角度考虑这是不可能的。因此,从反向的角度证明了此用户所发布的这些信息的欺骗性(如 图3所示)。

将通过上述方法确认的信息进行标注,并形成准确欺骗性垃圾意见集合,同时对于经常 发布欺骗性垃圾意见的用户,即发布欺骗性垃圾意见最多的N个用户,将其加到黑名单以备 后期识别使用;另外,依据准确的欺骗性垃圾意见集合等,总结归纳意见作者的反常行为(比 如上述用户在1分钟内针对3种产品发布了15条信息等)形成规则,以备后用。

注意到明确的确认一意见是非欺骗性垃圾意见也存在相当的困难(对于一条信息,不能 明确的表明是欺骗性垃圾意见也可能意味着不能明确的说明其不是欺骗性垃圾意见),考虑到 时间、工作量、以及非欺骗性垃圾意见存在的多样性等因素,这里没有对非欺骗性垃圾意见 进行标注。

(4)建立欺骗性垃圾意见检测模型(如图4所示)

建立了准确欺骗性垃圾意见集合后,从判断识别欺骗性垃圾意见的角度看,目前需要选 择机器学习方法、抽取样本特征后建立检测模型。注意到经过上述的过程得到了经过标注的 欺骗性垃圾意见集合,但没有非欺骗性垃圾意见集合。这就意味着不能简单地采用一般的有 监督机器学习方法,因为它建立分类模型需要同时具备正例、反例集合。所以我们这里采用 了一种“从正例和无标注数据中学习”的机器学习方法-偏置SVM(Liu,B.,Y.Dai,X.Li,W.Lee, and P.Yu.Building text classifiers using positive and unlabeled examples.Proceedings of IEEE International Conference on Data Mining,2003.)。

关于检测模型建立过程中样本特征的确定,本发明中主要从四个纬度考虑:意见作者、 意见内容、意见内容分布、链接特征四个纬度。其中关于意见内容特征的确定方法是:对抽 取出来的意见信息进行分词,去掉停用词,并经过降维(可采用文档频率法、信息增益法等) 后形成内容特征向量(权数为词语频率);关于意见内容分布特征的选择方法是选择:意见段 落数、段落长度(均值)、句子数、句子长度(均值)、词数、第一人称代词数、第二人称代 词数、第三人称代词数等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1), 其中x、y分别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到 的最大值;在max参数更新前如果出现x>max时,则取x=max+1,即y=1);对于意见作者 纬度的特征选择方法是选择:意见用户名(字符数)、意见发布时间(距离当天零点的时间间 隔)、意见发布时间间隔(和上一条信息相比)、意见字数、意见数/小时(截至此条信息为止)、 意见字数变化比率(和上一条信息相比)、意见数变化比率(截至此条信息为止,和上一小时 相比)等(建立模型过程中,对特征进行归一化处理,过程为y=x/(max+1),其中x、y分 别是归一化前后的特征值,max为事先对网站信息集合内样本统计该特征所得到的最大值; 在max参数更新前如果出现x>max时,则取x=max+1,即y=1);对于意见信息的链接特征 纬度的选择方法是选择:意见信息的网站内入链数、意见信息的网站内出链数、意见信息的 网站外入链数、意见信息的网站外出链数、意见信息链接准确欺骗性垃圾意见集合内的信息 数、准确欺骗性垃圾意见集合内信息链接意见信息的数量等(建立模型过程中,对特征进行 归一化处理,过程为y=x/(max+1),其中x、y分别是归一化前后的特征值,max为事先对 网站信息集合内样本统计该特征所得到的最大值;在max参数更新前如果出现x>max时,则 取x=max+1,即y=1);针对上述四个维度的特征,基于步骤(3)建立的准确欺骗性垃圾意 见集合和无标注样本集合(即用户生成内容网页集合中的其他样本组成的集合),分别形成特 征向量并建立检测模型(四个)。

(5)欺骗性垃圾意见检测识别

欺骗性垃圾意见检测模型建立完毕后,即可对互联网信息爬虫新爬取的用户生成内容进 行欺骗性垃圾意见的判断识别。整体上,欺骗性垃圾意见的判断识别按照三个步骤进行:黑 名单识别、反向识别、模型检测识别(如图5所示)。首先进行黑名单识别,对属于黑名单中 用户发布的信息,直接识别为欺骗性垃圾意见;对于剩余意见,依据步骤(3)归纳的规则按 照反向确认(即在现有的正常情况下,出现此类信息是不可能的,从而从反向的角度证明是 欺骗性垃圾意见)的方式进行识别,对于不正常的意见,识别为欺骗性垃圾意见;对于剩余 的意见按照步骤(4)建立的模型进行识别,识别过程为,对意见信息分别进行四个模型的判 断,如果至少有三个模型判断为正例,则对此信息识别为欺骗性垃圾意见。

(6)欺骗性垃圾意见标识

对于经过步骤(5)识别为欺骗性垃圾意见的用户生成内容,统一标注为欺骗性垃圾意见。

(7)候选欺骗性垃圾意见补充

对于经过步骤(5)识别、并经过步骤(6)标注为欺骗性垃圾意见的用户生成内容补充 增加到候选的欺骗性垃圾意见集合中,形成新的候选欺骗性垃圾意见集合。

(8)欺骗性垃圾意见审核确认

按照和步骤(3)相同的方式,对新的候选欺骗性垃圾意见集合信息进行审核确认,将通 过上述方法确认的信息进行标注,并形成新的准确欺骗性垃圾意见集合(对于经常发布欺骗 性垃圾意见的用户,将其加到黑名单以备后期识别使用;同时对新的准确欺骗性垃圾意见集 合中意见作者的行为规律进行总结形成规则,以备后用);同时也形成新的无标注的用户生成 内容网页集合。

(9)欺骗性垃圾意见检测模型更新

以新的准确欺骗性垃圾意见集合和无标注的用户生成内容网页集合为基础(含更新的 max参数),按照和步骤(4)相同的方式,建立新的欺骗性垃圾意见检测模型,完成模型的 更新。

(10)用户生成内容后续处理

在对准确欺骗性垃圾意见集合和无标注用户生成内容网页集合、检测模型进行补充、更 新的同时,将经过欺骗性垃圾意见检测过程判断、标注的用户生成内容推送到后续的环节进 行后续处理(处理过程中依据标注类别的不同采取不同的处理方式)。

由此,完整的实现了对欺骗性垃圾意见进行比较完全、准确的识别的全过程。方法中解 决了无法建立准确的欺骗性垃圾意见样本集合、样本抽取特征不全、反例样本特征多样性等 导致的识别准确度低、欺骗性垃圾意见分布特征发生变化时识别方法失效等问题,保证了欺 骗性垃圾意见的准确识别、检测,从而为后续准确的信息处理奠定了基础。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号