首页> 中国专利> 一种文本过滤方法及文本过滤系统

一种文本过滤方法及文本过滤系统

摘要

本申请公开了一种文本过滤方法及文本过滤系统。一种文本过滤方法包括:预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;所述语义匹配包括:根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配;如果所述语义匹配成功,则对匹配成功的文本内容进行过滤处理。

著录项

  • 公开/公告号CN102053993A

    专利类型发明专利

  • 公开/公告日2011-05-11

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN200910211715.0

  • 发明设计人 温新赐;叶长程;

    申请日2009-11-10

  • 分类号G06F17/30;

  • 代理机构北京集佳知识产权代理有限公司;

  • 代理人逯长明

  • 地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱

  • 入库时间 2023-12-18 02:09:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-04-09

    授权

    授权

  • 2011-06-29

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20091110

    实质审查的生效

  • 2011-05-11

    公开

    公开

说明书

技术领域

本申请涉及互联网应用技术领域,特别是涉及一种文本过滤方法及文本过滤系统。

背景技术

随着互联网的不断发展,网络上的信息量日益剧增,而互联网的开放性也导致在网络中存在很多不良信息,因此在互联网上,对信息进行监控和过滤的已经成为普遍需求。

应用内容过滤技术,可以实现对网上不良信息的过滤,从而保障网络环境的安全。网络上的信息有多种表现形式,其中文本形式是最为常见的一种。文本过滤指的是从大量文本信息中找出特定文本的过程,目前,常见的文本过滤方法都是基于基本关键词匹配技术实现的:系统根据预先设置的多个与不良信息相关的关键词,在输入文本中进行查找,如果在输入文本中发现与关键词相匹配的内容,则对这部分内容或全部的输入文本进行过滤或替换处理。

上述文本过滤方法,只能过滤出与关键词完全匹配的文本,但是却无法判断整个文本的立场或态度,例如,在电子商务网站中,将“窃听器”定义为过滤关键词,但是现有的文本过滤方法会将“禁止销售窃听器”这样的合法文本也视为不良信息进行过滤。可见,现有的基于基本关键词匹配技术的文本过滤方法,识别正确率较低,无法满足信息过滤的实际应用需求。

发明内容

为解决上述技术问题,本申请实施例提供一种文本过滤方法及文本过滤系统,以提高文本过滤的正确率,技术方案如下:

本申请提供一种文本过滤方法,包括:

预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;

所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;

如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;所述语义匹配包括:根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配;

如果所述语义匹配成功,则对匹配成功的文本内容进行过滤处理。

本申请还提供一种文本过滤系统,包括:

关键词存储单元,用于存储预先定义的语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;

基本查找单元,用于在所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;

语义匹配单元,用于在所述基本查找单元在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容时,进一步对查找到的文本内容进行语义匹配;所述语义匹配单元包括:用于根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配的逻辑匹配子单元;

过滤处理单元,用于在所述语义匹配单元匹配成功时,对匹配成功的文本内容进行过滤处理。

本申请所提供的文本过滤方法及系统,使用基本关键词和逻辑关系符结合的方式对文本内容进行过滤,与现有技术相比,能够有效地结合基本关键词在整个文本中的语义进行过滤,提高过滤的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例的文本过滤方法流程图;

图2为本申请实施例的基本关键词树形存储结构示意图;

图3为本申请实施例的基本关键词查找方法流程图;

图4为本申请实施例的文本过滤系统的结构示意图;

图5为本申请实施例的基本查找单元的一种结构示意图;

图6为本申请实施例的基本查找单元的另一种结构示意图;

图7为本申请实施例的语义匹配单元的一种结构示意图。

具体实施方式

现有的文本过滤方法,仅根据简单关键词进行过滤,并且不具备逻辑分析能力,因此会存在很多误报情况。例如前文提到的“禁止销售窃听器”文本,虽然包含关键词“窃听器”,但是结合“禁止”这一否定词,又使得该段文本实际上成为合法信息而不应被过滤处理。针对这一问题,本申请实施例提供一种文本过滤方法如下:

预先在文本过滤系统中定义语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;

所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;

如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;所述语义匹配包括:根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配;

如果所述语义匹配成功,则对匹配成功的文本内容进行过滤处理。

上述文本过滤方法,使用基本关键词和逻辑关系符结合的方式对文本内容进行过滤,与现有技术相比,能够有效地结合基本关键词在整个文本中的语义进行过滤,减少误报的情况,提高过滤的准确性。

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

实施例一:

本申请实施例中,基于语义关键词对文本内容进行过滤,语义关键词包括两个基本组成部分:基本关键词和逻辑关系符。其中,基本关键词为独立的一个词或短语,即相当于现有技术中所采用的简单关键词;而逻辑关系符则用于表示逻辑关系,基本的逻辑关系包括:“与”、“或”、“非”等,在语义关键词中,可以分别用符号“&”、“|”、“~”来表示。以下为应用于电子商务网站文本过滤的语义关键词的几种简单示例:

a)手机窃听~反

该语义关键词表示的语义是:如果商品的信息中包含“手机窃听”,且不包含“反”,则需要对该商品信息进行过滤处理。

b)监视摄像头|无线监控摄像头

该语义关键词表示的语义是:如果商品的信息中包含“监视摄像头”或者包含“无线监控摄像头”,则需要对该商品信息进行过滤处理。

c)军用&扎带

该语义关键词表示的语义是:如果商品的信息中包含“军用”且包含“扎带”,则需要对该商品信息进行过滤处理。

对于一个语义关键词而言,其最简形式应该是:2个基本关键词+1个逻辑关系符,以上三个示例都属于这种情况。对于只包括一个基本关键词的情况,实际上与现有技术相同,本申请实施例对这种情况不再进行介绍。可以理解的是,在一个语义关键词中,可以包括更多的基本关键词以及逻辑关系符,以表示更为复杂的语义,例如:

d)手机窃听~(反|防)

该语义关键词表示的语义是:如果商品的信息中包含“手机窃听”,且不包含“反”或“放”,则需要对该商品信息进行过滤处理。

在本申请的优选方案中,还可以对语义关键词的内容做进一步的扩展,例如:

可以在语义关键词中加入过滤条件。事实上,与前面所述的基本关键词和逻辑关系符不同的是:过滤条件与文本的具体内容无关,其作用是从文本的其他方面属性对过滤做进一步的限定。例如,限定文本的来源、类别等等,从而实现更为准确的过滤。

在语义关键词中,还可以进一步加入过滤行为,以表明对于与语义关键词文本部分相匹配的内容,具体做何种处理,例如内容屏蔽、内容替换等等。

以下三个例子,分别在前述的a)、b)、c)中添加过滤条件和过滤行为,对语义关键词的扩展形式进行示意性说明,其中,分号之前为基本关键词和逻辑关系符、分号之后为扩展内容,各项扩展内容之间用逗号隔开。当然,本实施例并不对语义的具体格式进行限定。

a1)手机窃听~反;商品类别:1002,过滤行为:下架,

该语义关键词表示的语义是:如果商品的信息中包含“手机窃听”,且不包含“反”、并且商品类别是1002,则需要对该商品信息进行下架处理。

b1)监视摄像头|无线监控摄像头;商品类别:101,过滤行为:下架,

该语义关键词表示的语义是:如果商品的信息中包含“监视摄像头”或者包含“无线监控摄像头”、并且商品类别是101,则需要对该商品信息进行下架处理。

c1)军用&扎带;商品类别:50001,过滤行为:下架,

该语义关键词表示的语义是:如果商品的信息中包含“军用”且包含“扎带”、并且商品类别是50001,则需要对该商品信息进行下架处理。

下面进一步结合具体的流程,对本实施例进行说明,图1所示为本申请实施例的文本过滤方法流程图,包括以下步骤:

S101,文本过滤系统获得输入文本后,根据预先定义的语义关键词,在输入文本中查找构成所述语义关键词的基本关键词;

在本步骤中,系统在获得一段输入文本后,将首先在输入文本中对基本关键词进行查找,并对查找结果进行记录。例如,对于前述的b)或b1),系统将首先在输入文本中查找“监视摄像头”和“无线监控摄像头”的内容。本步骤的具体实现可以与现有技术中基于简单关键词相匹配的方法类似,本实施例不做详细说明。

S102,如果在输入文本中查找到与至少一个基本关键词相匹配的文本内容,则进一步对查找到的文本内容进行语义匹配;

在S101中,仅仅是根据基本关键词的内容进行查找,如果没有查找到与任何基本关键词相匹配的内容,说明不需要对输入文本进行过滤处理;如果查找到与至少一个基本关键词相匹配的文本内容,则需要进一步将所查找到的文本内容与完整的语义关键词进行比较,这一步骤称为语义匹配。

如果语义关键词中只包括基本关键词和逻辑关系符,那么语义匹配的具体内容就是:根据预先定义的语义关键词中的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配。例如:

对于前述的a),系统在输入文本中查找到了基本关键词“手机窃听”,并且没有查找到基本关键词“反”,即两个基本关键词的实际查找结果符合在语义关键词a)中所定义的两个基本关键词的逻辑关系“非”,因此,所查找到的内容与语义关键词a)匹配成功;

对于前述的c),系统在输入文本中查找到了基本关键词“扎带”,并且没有查找到基本关键词“军用”,即两个基本关键词的实际查找结果不符合在语义关键词c)中所定义的两个基本关键词的逻辑关系“与”,因此,所查找到的内容与语义关键词a)匹配失败;

如果语义关键词中还包括扩展内容“过滤条件”,那么在进行语义匹配时,还要进一步考虑输入文本的属性与过滤条件的匹配情况。

S103,如果语义匹配成功,则对匹配成功的文本内容进行过滤处理。

对于在S102中与语义关键词匹配成功的文本,系统将进行过滤处理。如果在语义关键词中包含了“过滤行为”,则系统将根据“过滤行为”的具体内容对文本进行过滤处理。如果在语义关键词中没有包含“过滤行为”,那么系统将根据预置的默认方式对文本内容进行过滤处理。

实施例二:

现有技术中,需要在输入文本中,逐个查找每个词。本实施例针对实施例一中的步骤S101,提出一种改进的基本关键词查找方法,以提高关键词查找的处理效率。

在实际的文本过滤应用中,很多需要过滤的词都是具有相同部分的,例如:“窃听器”、“窃听设备”、“窃听软件”等等,对于这类词,可以采用树形查找的方法,提高查找效率。

首先,在系统中以字符为单位,按照树形结构存储每个基本关键词。以基本关键词的首字符为根节点、末字符为叶子节点,具有相同首字符的基本关键词共用同一个根节点。例如,对于“ab”、“abc”、“ade”三个基本关键词,可以按照如图2所示的结构进行存储。

在图2中,圆形表示根节点或一般节点,菱形表示叶子节点,由于“ab”、“abc”、“ade”三个词具有相同的首字符“a”,因此共用同一个根节点1;三个词的末字符分别为“b”、“c”、“e”,因此这三个字符分别为叶子节点2、3、5。需要注意的是,对于字符“b”,尽管在第二个词中不是末字符,但是其在第一个词中是末字符,因此仍然成为叶子节点。也就是说,叶子节点不一定是树形结构的末端节点,但是树形结构的末端节点一定是叶子节点。

图3所示为基于树形结构的基本关键词查找方法流程图,包括以下步骤:

S301,获取所述输入文本中的一个字符;设置该字符为当前字符、并且设置树形结构的根节点为当前节点。根据实际的过滤应用需求,所获取的字符可以是输入文本的首字符,也可以是从输入文本的任意处选取的一个字符。

S302,将当前字符与当前节点进行匹配;如果匹配成功,则执行S303,否则,执行S304。

S303,判断当前节点是否具有子节点,如果否,则结束查找;如果是,则转到当前字符的后一字符、当前节点的子节点,然后执行S302。

S304,判断当前节点是否具有兄弟节点,如果否,则结束查找;如果是,则保持当前字符不变、转到当前节点的兄弟节点,然后执行S302。

结束查找后,系统连接当前节点与根节点得到匹配路径,并根据匹配路径上的匹配成功的叶子节点确定所查找到的基本关键词。

以下结合两个具体的例子,对基于树形结构的基本关键词查找方法进行说明:

1)假设输入文本为adf,系统获得字符“a”后,遍历关键词库中的根节点,发现与节点1匹配成功,并且节点1具有子节点,则进一步将字符“d”与节点1的子节点2、4匹配。

字符“d”与节点4匹配成功,并且节点4具有子节点,则进一步将字符“f”与节点4的子节点5匹配,

字符“f”与节点5匹配失败,并且节点5没有其他的兄弟节点,此时结束查找。当前的匹配路径为1-4-5,在路径中没有包含匹配成功的叶子节点,因此,可以确定在输入文本中没有查到基本关键词。

2)假设输入文本为abc,系统获得字符“a”后,遍历关键词库中的根节点,发现与节点1匹配成功,并且节点1具有子节点,则进一步将字符“b”与节点1的子节点2、4匹配。

字符“b”与节点2匹配成功,并且节点2具有子节点,则进一步将字符“c”与节点2的子节点3匹配,

字符“c”与节点4匹配成功,并且节点3没有子节点,此时结束查找。当前的匹配路径为1-2-3,其中,节点2和3均为匹配成功的叶子节点,因此,可以根据节点2和3的内容,确定在输入文本中查找到了基本关键词“ab”和“abc”。

可见,应用上述基于树形结构的基本关键词查找方法,每一级的匹配操作都是仅针对上一次匹配成功的节点来进行,这样,就不需要针对输入文本的每个字符与全部的关键词字符进行逐一匹配,从而有效地提高关键词查找的处理效率。

在上述例子中,是以首字符为根节点进行说明,这种方法适用于多个基本关键词具有相同前缀的情况。可以理解的是,针对多个基本关键词具有相同后缀的情况,例如:“电话窃听”、“手机窃听”、“手机监听”等,也可以以基本关键词的末字符为根节点、首字符为叶子节点的树形结构存储关键词。相应地,在匹配过程中,应按照从后向前的顺序对输入文本的字符进行匹配,具体的方法实现与前述类似,这里不再重复说明。

此外,为了逃避文本过滤,现在已经有很多人会在发布的文本中使用特殊字符,例如“窃-听-器”、“窃聼器”等等,对于这种情况,可以进一步结合字典功能来查找关键词。

字典定义了一组字符集合,并且定义了字符的原型,原型可以是字符本身,例如如字符‘a’的原型就是‘a’本身,也可以是另外一个字符,例如繁体字符的原型是对应的简体中文。常用的字典包括:简体字典、繁体字典、英文字典、数字字典等等。此外,业务人员还可以实际的需求,自行定义字典,例如,将字符“-”的原型定义为空字符。

根据前述的步骤S302,系统可以在将当前字符与当前节点进行匹配之前,在字典中查找所述当前字符是否具有原型字符;如果是,则将其转换为相应的原型字符,并以所述原型字符为当前字符,与所述当前节点进行匹配。

以本实施例前述的例2)进行说明,假如输入文本为aBc,则系统在将字符“B”与节点2进行匹配之前,通过遍历所有字典,发现字符“B”具有原型“b”,则将原输入文本中的“B”转换为原型“b”,然后以“b”为当前字符与节点2进行匹配。

对于“窃-听-器”这类文本,系统通过查询字典,会将字符“-”转为空字符。在匹配过程中,当系统匹配到“窃”之后,将跳过空字符直接与“听”进行匹配。

可见,通过查询字典以及转换字符,可以让系统识别出更多的不良信息,从而实现更好的文本过滤效果。

相应于上面的方法实施例,本申请还提供一种文本过滤系统,参见图4所示,包括:

关键词存储单元410,用于存储预先定义的语义关键词,所述语义关键词,至少由基本关键词和逻辑关系符构成;

基本查找单元420,用于在所述文本过滤系统获得输入文本后,根据预先定义的语义关键词,在所述输入文本中查找构成所述语义关键词的基本关键词;

语义匹配单元430,用于在所述基本查找单元420在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容时,进一步对查找到的文本内容进行语义匹配;所述语义匹配单元430包括:用于根据构成所述语义关键词的逻辑关系符,将所查找到的文本内容与所述语义关键词进行匹配的逻辑匹配子单元431;

过滤处理单元440,用于在所述语义匹配单元430匹配成功时,对匹配成功的文本内容进行过滤处理。

其中,所述关键词存储单元,以字符为单位,按照树形结构存储所述基本关键词;其中,基本关键词的首字符为根节点、末字符为叶子节点,具有相同首字符的基本关键词共用同一个根节点;

参见图5所示,所述基本查找单元420,可以包括:

文本获取子单元421,用于获取所述输入文本中的一个字符c1;

字符匹配子单元422,用于以c1为当前字符、所述树形结构的根节点为当前节点,将当前字符与当前节点进行匹配;

如果当前字符与当前节点匹配成功,且当前节点具有子节点,则将当前字符的后一字符,与当前节点的子节点进行匹配;如果当前字符与当前节点匹配失败,且当前节点具有兄弟节点,则将当前字符与当前节点的兄弟节点进行匹配;重复本步骤;

确定子单元423,用于连接当前节点与根节点得到匹配路径,并根据所述匹配路径上匹配成功的叶子节点确定所查找到的基本关键词;

参见图6所示,所述基本查找单元420,还可以包括:

字符转换子单元424,用于在所述字符匹配子单元422进行匹配之前,在字典中查找所述当前字符是否具有原型字符,如果是,则将其转换为相应的原型字符;

则所述字符匹配子单元423,以所述原型字符为当前字符,与所述当前节点进行匹配。

所述语义关键词的构成还可以包括:过滤条件;

则所述语义匹配单元430还包括:用于将所述输入文本的属性与所述过滤条件进行匹配的类别匹配子单元432,如图7所示。

所述语义关键词的构成还可以包括:过滤行为;

则所述过滤处理单元,用于根据所述过滤行为,对所查找到的文本内容进行过滤处理。

为了描述的方便,描述以上系统时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号