首页> 中国专利> 基于标签描述的文本分类方法、装置、存储介质及设备

基于标签描述的文本分类方法、装置、存储介质及设备

摘要

本申请公开了一种基于标签描述的文本分类方法、装置、存储介质及设备,属于文本分类领域。该基于标签描述的文本分类方法包括:根据各个分类标签的语义,获取各个分类标签对应的标签描述;将各个标签描述分别与待分类文本输入到语义分析模型中,分别得到待分类文本属于各个分类标签对应的概率值;根据概率值与预设阈值的关系,确定待分类文本对应的分类标签。该基于标签描述的文本分类方法可以让标签具有丰富的文本语义,从而更好地指导模型分类,提高分类准确率。

著录项

  • 公开/公告号CN112883189A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 浙江香侬慧语科技有限责任公司;

    申请/专利号CN202110102012.5

  • 发明设计人 孙晓飞;周毅成;

    申请日2021-01-26

  • 分类号G06F16/35(20190101);G06F40/30(20200101);

  • 代理机构11862 北京国科程知识产权代理事务所(普通合伙);

  • 代理人曹晓斐

  • 地址 311121 浙江省杭州市余杭区余杭街道文一西路1818-2号9幢903室

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本申请涉及文本分类领域,特别是一种基于标签描述的文本分类方法、装置、存储介质 及设备。

背景技术

随着数据采集技术的迅猛发展和互联网的快速普及,人们接触到的文本信息量呈现出爆 炸式增长的趋势。为了有效地管理和利用这些海量文本信息,实现准确地文本信息定位和文本 信息过滤,近年来基于机器学习的文本分类受到广泛关注。文本分类根据样本类别标签的个数 可分为单标签分类和多标签分类。

现有技术中,传统文本分类方法直接将待分类文本送入语义分析模型,然后一次性输出 每个分类标签的概率,取其中最大的一个或几个作为最终的分类结果。对于简单的句子来说, 这种方法的准确率还是比较高的,但是当句子比较复杂,或者分类标签之间的关系比较复杂 的时候,这种方法就很难取得较好的效果。

发明内容

本申请主要提供一种基于标签描述的文本分类方法、装置、存储介质及设备,以解决现 有技术中复杂句子无法分类的问题以及复杂分类标签无法判断的问题,该方法为每个分类标 签设置了一个语义描述,并且分别让每个分类标签和待分类文本去做判断,从而提高文本分 类的准确度。

为了实现上述目的,本申请采用的一个技术方案是:提供一种基于标签描述的文本分类 方法,其包括,根据各个分类标签的语义,获取各个分类标签对应的标签描述;将各个标签 描述分别与待分类文本输入到语义分析模型中,分别得到待分类文本属于各个分类标签对应 的概率值;根据概率值与预设阈值的关系,确定待分类文本对应的分类标签。

本申请采用的另一个技术方案是:提供一种基于标签描述的文本分类装置,其包括,用 于根据各个分类标签的语义,获取各个分类标签对应的标签描述的模块;用于将各个标签描 述分别与待分类文本输入到语义分析模型中,分别得到待分类文本属于各个分类标签对应的 概率值的模块;用于根据概率值与预设阈值的关系,确定待分类文本对应的分类标签的模块。

本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其中计算机可读存储 介质中存储有计算机执行指令,计算机执行指令被操作以执行方案一中的基于标签描述的文 本分类方法。

本申请采用的另一个技术方案是:提供一种计算机设备,其包括处理器和存储器,存储 器存储有计算机指令,其中处理器操作计算机指令以执行方案一中的基于标签描述的文本分 类方法。

本申请的有益效果是:本方案提供了一种基于标签描述的文本分类方法、装置、存储介 质及设备。本方案可以让分类标签具有丰富的文本语义,从而更好地指导语义分析模型对待 分类文本进行分类,提高文本分类的准确率。本方案为每个分类标签设置了一个语义描述, 用于得到关于该分类标签的语义信息,使用标签描述代替单独的分类标签,这不仅有助于语 义分析模型更好地学习分类标签和待分类文本之间的相关性,解决复杂句子无法分类的问题, 而且还提高了文本分类的准确率;在语义分析模型中,本方案分别让每个分类标签和待分类 文本去做判断,而不是一次性判断所有的分类标签,这就有助于解决复杂分类标签之间的关 系,解决语义分析模型无法判断复杂分类标签的问题。

附图说明

图1是本申请基于标签描述的文本分类方法的一个具体实施方式的流程示意图;

图2是本申请基于标签描述的文本分类方法的一个具体实例的流程示意图;

图3是本申请基于标签描述的文本分类方法的另一具体实例的流程示意图;

图4是本申请基于标签描述的文本分类装置的一个具体实施方式的流程示意图。

通过上述附图,已示出本申请明确的实例,后文中将有更详细的描述。这些附图和文字 描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实例为本领域技术 人员说明本申请的概念。

具体实施方式

下面结合附图对本申请的较佳实施例进行详细阐述,以使本申请的优点和特征能更易于 被本领域技术人员理解,从而对本申请的保护范围做出更为清楚明确的界定。

需要说明的是,本申请权利要求书和说明书中的术语“第一”、“第二”是用于区别类 似的对象,而不必用于描述特定的顺序或先后次序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请的一个具体实施方式中,图1示出了本申请基于标签描述的文本分类方法的一 个具体实施方式,其中,包括:

步骤S101:根据各个分类标签的语义,获取各个分类标签对应的标签描述。

在本申请的一个具体实施例中,对分类标签进行定义解释,得到包括有关分类标签的语 义信息的标签描述,使得分类标签具有丰富的文本语义。

在本申请的一个具体实施例中,分类标签包括具体的名词短语或句子。

在本申请的一个具体实例中,例如,人群分类标签:用户近半年消费层级、地区、淘气 值、年龄等;行为分类标签:用户搜索习惯、收藏、加购、货比三家等。

在本申请的一个具体实例中,在不同的领域,分类标签有可能相同,也有可能不同。比 如在新闻领域,分类标签可以是体育,财经,军事等;在电影领域,分类标签可以是战争, 科幻,悬疑等。

在本申请的一个具体实例中,分类标签的标签描述的获取途径有很多种,既可以各种数 据集中获取,也可以从维基百科定义中获取。

在本申请的一个具体实例中,在若干数据集中搜索分类标签的数据,找到分类标签,然 后根据每个分类标签的位置得到其具体的语义信息。其中,若干数据集可以包括单标签分类 数据集AGNews,20news,DBPedia,Yahoo,YelpP,IMDB,多标签分类数据集Reuters,AAPD 以及多方面情感分析数据集BeerAdvocate,TripAdvisor等。

在本申请的一个具体实例中,在文本分类任务中,依据每个待分类文本对应的分类标签 的数量,可分为单标签分类和多标签分类,在单标签分类中,每个待分类文本仅有一个对应 的分类标签,相应地在多标签分类中,每个待分类文本对应的分类标签的数量可能有多个。 本申请的待分类文本可以对应一个分类标签,也可以对应多个分类标签。在多标签分类中, 根据分类标签的层级关系可分为层级性多标签和平行性多标签,而一般的多标签分类都默认 是平行的。例如一部电影可能是喜剧片,又是爱情片,而这部电影的分类标签“喜剧片”和 “爱情片”是平行的关系,没有层级结构;又比如一个电视产品,它属于“大家电”,也属 于“家用电器”,而“大家电”标签是“家用电器”标签的子类,这产品所属的分类标签是 有层级结构的。

在本申请的一个具体实例中,对于各个分类标签,如何得到该分类标签的描述,我们除 了使用牛津字典中的定义外,也可以使用维基百科的定义作为模板,比如简单的分类标签“科 学家”的描述可以是:广义上指使用系统化的活动来发现新知识的人;狭义的定义指使用科 学方法做研究,并且在一定的领域取得重要影响或者贡献的科研工作者;科学家一般是某个, 或者多个科学领域里的专家。比如层级分类标签“家用电器”的描述可以是:以电能或以机 械化动作来进行驱动的家庭用具,可帮助执行家庭杂务,如炊食、食物保存或清洁;基本上, 家用电器分为大型家电和小家电。

在本申请的一个具体实例中,维基百科里不一定有关于感情色彩的描述,我们除了在多 方面情感分析数据集里寻找标签描述外,还可以使用百度百科的定义作为模板来进行描述。 比如分类标签“喜爱”在维基百科里找不到相关描述,但是在百度百科里就能找到相关描述, 其描述为:“对人或事物产生好感或兴趣”。

通过为每个分类标签设置一个具体的语义描述,得到关于该分类标签的语义信息,这有 助于语义分析模型更好地学习分类标签和待分类文本之间的相关性。使用标签描述具有一定 的灵活性,不限于人工定义的标签描述。

在本申请的一个具体实施方式中,一种基于标签描述的文本分类方法还包括步骤S102: 将各个标签描述分别与待分类文本输入到语义分析模型中,分别得到待分类文本属于各个分 类标签对应的概率值。

在本申请的一个具体实例中,经典的文本分类方法是把分类标签视为简单的下标。如当 前的输入文本是“今天的菜太好吃了”,需要分类的标签是{1:积极,0:消极},语义分析 模型接受文本之后,输出的是0或者1,代表分类结果。显然,用这种分类方法,语义分析 模型完全无视了“积极”和“消极”的语义,对于更复杂的分类标签,这无疑是一种“语义浪费”。鉴于我们想要把分类标签提供的信息利用起来,我们提出在输入文本的同时,也需要输入对分类标签本身的描述,比如牛津词典对“positive”的定义是:“full of hope andconfidence,or giving cause for hope and confidence”。把这个标签描述和待分类文本 拼接在一起后,以拼接符号为分界符号,然后将拼接后的文本送入语义分析模型,语义分析 模型输出一个概率值,代表当前待分类文本具有该分类标签的可能性。如此,我们就能充分 利用分类标签本身提供的语义了。

在本申请的一个具体实施例中,将各个标签描述分别与待分类文本输入到语义分析模型 中的过程包括,将各个标签描述分别与待分类文本进行拼接,其中,以拼接符号为分界符号, 待分类文本在拼接符号之前,标签描述在拼接符号之后。分别将每个标签描述和待分类文本 进行拼接,有助于语义分析模型单独考虑复杂分类标签与待分类文本之间的关系。

在本申请的一个实例中,利用拼接符号[SEP]作为分界符号,得以区分待分类文本和标签 描述,其中待分类文本在拼接符号[SEP]前,标签描述在拼接符号[SEP]后,并且需要将拼接 符号[SEP]前后的待分类文本和标签描述中的最后的句号去掉。

在本申请的一个实例中,设定待分类文本为“科学家为祖国的发展贡献了自己毕生的力 量。”,分类标签为“科学家”、“积极”、“消极”、“正能量”、“负能量”等,分类 标签“科学家”的标签描述为“科学家是指广义上指使用系统化的活动来发现新知识的人; 狭义的定义指使用科学方法做研究,并且在一定的领域取得重要影响或者贡献的科研工作 者;科学家一般是某个,或者多个科学领域里的专家。”,其与待分类文本的拼接为“科学 家为祖国的发展贡献了自己毕生的力量[SEP]科学家是指广义上指使用系统化的活动来发现 新知识的人;狭义的定义指使用科学方法做研究,并且在一定的领域取得重要影响或者贡献的科研工作者;科学家一般是某个,或者多个科学领域里的专家”;分类标签“积极”的标 签描述为“肯定的,正面的,促进发展的,努力进取的。”,其与待分类文本的拼接为“科 学家为祖国的发展贡献了自己毕生的力量[SEP]肯定的,正面的,促进发展的,努力进取的”; 分类标签“消极”的标签描述为“否定的,反面的,不利的,阻碍发展的,不求进取,消沉。”, 其与待分类文本的拼接为“科学家为祖国的发展贡献了自己毕生的力量[SEP]否定的,反面 的,不利的,阻碍发展的,不求进取,消沉”;分类标签“正能量”的标签描述为“正能量 指的是一种健康乐观、积极向上的动力和情感,是社会生活中积极向上的行为”,其与待分 类文本的拼接为“科学家为祖国的发展贡献了自己毕生的力量[SEP]正能量指的是一种健康 乐观、积极向上的动力和情感,是社会生活中积极向上的行为”;分类标签“负能量”的标 签描述为“在物理学上解释是指低于真空零点能的能量,其中该能量为负数;正能量与负能 量本是物理学名词,中国人给其赋予了感情色彩。”,其与待分类文本的拼接为“科学家为 祖国的发展贡献了自己毕生的力量[SEP]在物理学上解释是指低于真空零点能的能量,其中 该能量为负数;正能量与负能量本是物理学名词,中国人给其赋予了感情色彩”。

在本申请的一个具体实施例中,语义分析模型利用各个标签描述一一分析各个分类标签 与待分类文本的关系。让语义分析模型单独考虑每个分类标签是否被赋予到待分类文本,而 不是一次考虑所有的分类标签,有助于复杂分类标签的分类。

在本申请的一个具体实例中,所有的标签描述与其待分类文本拼接好后,需要将拼接结 果一个一个地送入语义分析模型中,等到有了分析结果,才能将下一个标签描述与其待分类 文本的拼接结果送入语义分析模型中。这样有利于语义分析模型更好地学习分类标签与待分 类文本之间的关系,不允许一次性将所有的标签描述与其待分类文本的拼接结果在语义分析 模型中同时分析,防止语义分析模型出现负载过重,系统崩溃,无法进行分类判断的问题。

在本申请的一个具体实施方式中,一种基于标签描述的文本分类方法还包括步骤S103: 根据概率值与预设阈值的关系,确定待分类文本对应的分类标签。

在本申请的一个具体实施例中,根据概率值与预设阈值的关系,确定待分类文本对应的 分类标签的过程包括,当概率值大于预定阈值时,待分类文本被分类到概率值对应的分类标 签。预定阈值的设定使得文本分类更加准确。

在本申请的一个具体实例中,判断概率值与预设阈值的关系可以是语义分析模型根据判 断标准进行判断的。语义分析模型输出一个(0,1)之间的概率值,在该概率值大于预定阈值的 情况下,则利用语义分析模型对待分类文本进行分类,待分类文本被分类到相应的分类标签 中;该在概率值小于等于预定阈值的情况下,则利用语义分析模型对待分类文本进行分类, 待分类文本不能被分类到相应的分类标签中。

优选的,在本申请的一个实例中,预定阈值取值为0.5。

图2是本申请基于标签描述的文本分类方法的一个具体实例的流程示意图。

在本申请的一个具体实例中,传统的文本分类方法直接将待分类文本送入语义分析模型 中,然后一次性输出每个分类标签的概率,取其中最大的一个或几个作为最终的分类结果。 如图2左所示,待分类文本是“今天的菜太好吃了”,分类标签是“积极”和“消极”。传 统的方法直接把待分类文本送入语义分析模型中,然后语义分析模型给出“积极”的概率为 0.7,给出“消极”的概率为0.3,从而最终的分类结果是“积极”。在这种情况下,每个分类标签没有具体的含义,只是被当做最终的结果进行输出,换句话来说,分类标签不参与语义分析模型分类的过程。

在本申请的一个具体实例中,当待分类文本比较复杂时,但还是关于“积极”与“消极” 的分类,对于待分类文本“今晚的电影真好看,看得我都睡着了”的分类,上述方法就会把 它分为“积极”一类,因为语义分析模型只看到了“真好看”,却不知道该待分类文本是个讽刺句。当举个分类标签比较复杂时,比如要分类“自行车”和“汽车”,对待分类文本“我 刚才看到路上两个轮子的骑得好快”的分类,如果语义分析模型不知道“两个轮子”指的是“自行车”,那么就很有可能分类错误。

为此,本方案提出一种新型的基于标签描述的文本分类方法以解决以上两个问题,从而 更好地实现文本分类。

在本申请的一个具体实例中,本方案使用标签描述“好的,肯定的”来代替单独的分类 标签“积极”,使用标签描述“不好的,否定的”来代替单独的分类标签“消极”。如图2所示中间及右侧的语义分析模型示意图,首先将分类标签“积极”的标签描述“好的,肯定的”与待分类文本“今天的菜太好吃了”拼接在一起,用拼接符号[SEP]作为分界符号,拼接后的结果为“今天的菜太好吃了[SEP]好的,肯定的”,将这个拼接后的结果放入语义分析模型中,语义分析模型输出一个值为0.9的概率值,根据语义分析模型判断的标准,0.9大于预定阈值0.5,则判断该待分类文本具有该分类标签的属性;然后再判断另一个分类标签与待分类文本之间的关系,将分类标签“消极”的标签描述“不好的,否定的”与待分类文本“今天的菜太好吃了”拼接在一起,形成拼接后的结果“今天的菜太好吃了[SEP]不好的,消极的”,将拼接后的结果输入到语义分析模型中去,语义分析模型输出一个值为0.01的概率值,根据语义分析模型判断的标准,0.01小于预定阈值0.5,则判断该待分类文本不具有该分类标签的属性。这种方法分别让每个分类标签和待分类文本去做判断,单独考虑每个分类 标签是否被赋予到待分类文本中,而不是一次考虑所有的分类标签,有助于解决复杂分类标 签之间的关系,解决语义分析模型无法判断复杂分类标签的问题,有利于语义分析模型在复 杂分类标签情况下的分类。

在本申请的一个具体实例中,如图3所示的基于标签描述的文本分类方法的另一个具体 实例,对于分类标签“自行车”进行描述,得到标签描述为“自行车是一种以人力踩踏脚踏 板驱动的小型陆上车辆,通常是双轮的”,然后与待分类文本“我刚才看到路上两个轮子的 骑得好快”进行拼接,形成拼接后的结果“我刚才看到路上两个轮子的骑得好快[SEP]自行车 是一种以人力踩踏脚踏板驱动的小型陆上车辆,通常是双轮的”,将其输入到语义分析模型 中去,语义分析模型输出一个值为0.9的概率值,根据语义分析模型判断的标准,能判断出 待分类文本“我刚才看到路上两个轮子的骑得好快”具有分类标签“自行车”的属性。

在本申请的一个具体实例中,以分类标签“自行车”和“汽车”为例,由于上述实例已 经具体描述过标签“自行车”的分类判断,此实例便不再赘述。对于分类标签“汽车”进行描述,得到标签描述为“汽车是本身具有动力得以驱动,不须依轨道或电缆,得以动力行驶之车辆。广义来说,具有两轮或以上以原动机行驶之车辆,便可称为汽车;狭义来说,仅指四轮以上以原动机行驶之车辆为汽车”,然后与待分类文本“我刚才看到路上两个轮子的骑得好快”进行拼接,形成拼接后的结果“我刚才看到路上两个轮子的骑得好快[SEP]汽车是本 身具有动力得以驱动,不须依轨道或电缆,得以动力行驶之车辆。广义来说,具有两轮或以 上以原动机行驶之车辆,便可称为汽车;狭义来说,仅指四轮以上以原动机行驶之车辆为汽 车”,将其输入到语义分析模型中去,语义分析模型输出一个概率值,根据语义分析模型判 断的标准,该概率值小于预定阈值0.5,则语义分析模型能判断出待分类文本“我刚才看到 路上两个轮子的骑得好快”不具有分类标签“汽车”的属性。

这种方法使用标签描述代替了单独的分类标签,从而使其得到对该分类标签的语义信息, 更好的指导语义分析模型对待分类文本进行分类,增强待分类文本和分类标签之间的相关性, 提高分类的准确率。

在本申请的一个具体实例中,文本分类既可以是第一个分类标签走完语义分析模型进行 分析并判断分类的流程,然后依次第二个分类标签走完该流程,第三个分类标签走完该流程, 直到所有的分类标签完全走完该流程,也可以是所有的分类标签一个一个的走完语义分析模 型的分析流程,最后所有已分析出的概率值一次性进行与预定阈值的大小判断。本申请的实 例将一个标签描述和待分类文本拼接后送入语义分析模型进行判断,然后再进行下一个标签 描述与该待分类文本的判断,这样一个一个地判断每一个分类标签与待分类文本之间的关系, 而不是一次性考虑所有的分类标签,这有助于复杂分类标签的分类。

在本申请的一个具体实施方式中,图4示出了本申请基于标签描述的文本分类装置的一 个具体实施方式,其包括:

用于根据各个分类标签的语义,获取各个分类标签对应的标签描述的模块;用于将各个 标签描述分别与待分类文本输入到语义分析模型中,分别得到待分类文本属于各个分类标签 对应的概率值的模块;用于根据概率值与预设阈值的关系,确定待分类文本对应的分类标签 的模块。

在本申请的一个实例中,本申请的基于标签描述的文本分类装置的各个模块可直接在硬 件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是 其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集 成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵 列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门 或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案 中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装 置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微 处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储 介质可驻留在ASIC(专用集成电路)中。

在本申请的一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,计 算机指令被操作以执行任一实施例描述的基于标签描述的文本分类方法。

在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存 储有计算机指令,其中处理器操作计算机指令以执行任一实施例描述的基于标签描述的文本 分类方法。

在本申请所提供的几个实施方式中,应该理解到,所揭露的装置和方法,可以通过其它 的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为 一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者 可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之 间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接, 可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可 以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。 可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上描述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明 书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括 在本申请的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号