首页> 中国专利> 使用领域自适应的通信中的任务检测

使用领域自适应的通信中的任务检测

摘要

本文大体上讨论了用于任务分类的设备、系统和方法。一种方法可以包括:修改来自源语料库的源样本的源句子的表示,以更接近地类似于来自目标语料库的目标样本的目标句子的表示,使用机器学习模型来与目标样本一起操作以生成任务标记,该机器学习模型使用源句子的经修改的表示而被训练,任务标记指示目标样本是否包括任务,以及基于目标样本是否包括任务来使个人信息管理器(PIM)生成提醒。

著录项

  • 公开/公告号CN112997202A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 微软技术许可有限责任公司;

    申请/专利号CN201980071214.9

  • 申请日2019-09-05

  • 分类号G06Q10/06(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人黄倩

  • 地址 美国华盛顿州

  • 入库时间 2023-06-19 11:27:38

说明书

背景技术

在过去的几十年里,电子邮件的使用在总量(信息过载)和电子邮件被使用的目的数量(功能过载)方面都有所增长。许多电子邮件程序都用作通信工具以及任务储存库、个人档案和日历工具。尽管各种研究(research)都关注如何通过直接集成任务支持或者在电子邮件客户端内记入日历(calendaring)来支持该功能过载,但是很少有研究关注存在于其他数据源中的信息如何可以被用于缓解信息过载。附加地,很少有研究关注在搜索或重新查找个人信息管理器(PIM)(例如电子邮件)储存库上的项目时存在的搜索问题。

先前的研究包括关于自动电子邮件管理和任务进程监测的工作。关于承诺(commitment)检测和领域自适应(domain adaptation)的先前研究包括表明电子邮件中的承诺和请求的注释是具有挑战性的,即使对人类也是如此。承诺是个人承诺执行动作的允诺(promise),并且请求是接收人执行所请求的动作的恳求(solicitation)。至少一个研究课题甚至制定了用于收集判断并且构建承诺/请求分类的数据集的指导方针。该研究的一个见解是当陈述在上下文(完整的电子邮件)中被给出时,注释任务更容易且更准确。其他先前研究表明对通信中的承诺的细粒度分类,并且研究哪些短语与承诺相关联。

然而,自动承诺分类器已经在其他工作中得到发展。例如,一些研究建议训练分类器将电子邮件中的句子分类为以下行动之一:递送、承诺、请求、改正、提议和会议。在该研究中,句子由n元词语上的词频逆文档频率(TF-IDF)加权向量表示。

其他研究已经使用了更复杂的特征来检测电子邮件中的承诺,诸如命名实体、词性(POS)标签、相关性和指代消解。该研究将请求和承诺两者视为承诺。

还有其他研究使用不同种类的特征来检测电子邮件中的任务。该研究将承诺视为从电子邮件中提取的任务中的一个任务,并且将请求和承诺两者视为承诺。该研究使用特征集,诸如消息长度、情态动词的存在和疑问词语,并且在手动标记的电子邮件集合上训练分类器。该研究的结论是,仅电子邮件的一些区域与承诺检测相关,并且其他区域通常引入了噪声。

所有这些研究都使用单个数据集来训练模型并且执行分析。这些研究中使用的数据集也很小(例如用于训练模型的示例不足一万个)。尽管一个研究对承诺模型的可迁移性执行了有限的分析,但是该研究使用了来自同一领域的数据集。

出于隐私原因,使用专有数据训练承诺检测模型(和其他基于电子邮件的模型)可能是不切实际的。相反,这些模型是基于公共语料库训练的。基于该公共数据训练的问题是所得模型相对于私有/专有目标受众是有偏差的,从而在目标上产生了次优性能。实施例提供了一种减少或移除与使用这种公共语料库训练的模型的偏差的方法。实施例可以提供在专有目标上执行良好的模型,而不需要或仅需要目标语料库的最小检查。

发明内容

该发明内容章节被提供来以简化形式引入实施例的各个方面,并且在详细描述中进一步解释以下实施例。该发明内容章节不旨在标识所要求保护的主题的必要或所需特征,并且在该发明内容章节中列出的元件的组合和顺序不旨在向所要求保护的主题的元件提供限制。

一种系统可以包括存储器。该系统还可以包括处理电路系统,被耦合至存储器以实现用于对来自目标语料库的目标样本进行任务分类的操作。任务分类可以包括:修改来自源语料库的源样本的源句子的表示,以更接近地类似于来自目标语料库的目标样本的目标句子。任务分类还可以包括:使用机器学习模型来与目标样本一起操作以生成任务标记,该机器学习模型使用源句子的经修改的表示而被训练,该任务标记指示目标样本是否包括任务。处理电路系统还可以基于目标样本是否包括任务来使个人信息管理器(PIM)生成提醒。

一种至少一个机器可读存储介质可以包括指令以用于由处理电路系统执行以执行用于任务检测的操作。该操作可以包括:修改来自源语料库的源样本的源句子的表示,以更接近地类似于来自目标语料库的目标样本的目标句子的表示。该操作还可以包括:使用机器学习模型来与目标样本一起操作以生成任务标记,该机器学习模型使用源句子的经修改的表示而被训练,该任务标记指示目标样本是否包括任务。该操作还可以包括基于目标样本是否包括任务来使个人信息管理器(PIM)生成提醒。

一种由计算系统的至少一个处理器执行的方法可以包括:修改来自源语料库的源样本的源句子的表示,以更接近地类似于来自目标语料库的目标样本的目标句子的表示。该方法还可以包括:使用机器学习模型来与目标样本一起操作以生成任务标记,该机器学习模型使用源句子的经修改的表示而被训练,该任务标记指示目标样本是否包括任务。该方法还可以包括基于目标样本是否包括任务来使个人信息管理器(PIM)生成提醒。

附图说明

图1通过示例图示了电子邮件界面的实施例的图。

图2通过示例图示了用于任务的领域无关分类的系统的实施例的图。

图3通过示例图示了用于任务的领域无关分类的系统的另一实施例的图。

图4通过示例图示了用于承诺的领域无关分类的系统的另一实施例的图。

图5通过示例图示了自编码器的实施例的分解图。

图6通过示例图示了序列到序列编码器的实施例的分解图。

图7通过示例图示了用于任务分类的方法的实施例的图。

图8通过示例图示了用于实现一个或多个实施例的机器(例如计算机系统)的实施例的框图。

具体实施方式

在以下描述中,参照了形成其一部分并且通过说明的方式示出可以被实践的特定实施例的附图。这些实施例是用足够的细节描述的以使本领域的技术人员能够实践实施例。要被理解的是,其他实施例可以被使用,并且在不脱离实施例的范围的情况下,结构、逻辑和/或电气改变可以被进行。因此,实施例的以下描述不是限制意义的,并且实施例的范围由所附权利要求限定。

在一些实施例中,本文描述的操作、功能或算法可以在软件中被实现。软件可以包括存储在计算机或者其他机器可读介质或存储介质(诸如一个或多个非瞬态存储器(例如非瞬态机器可读介质)或其他类型的基于硬件的存储设备(本地的或联网的))上的计算机可执行指令。进一步地,这种功能可以对应于子系统,该子系统可以是软件、硬件、固件或其组合。多个功能可以在一个或多个子系统中根据需要被执行,并且所描述的实施例仅是示例。软件可以在数字信号处理器、ASIC、微处理器、中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)或者其他类型的处理器上被执行,该其他类型的处理器在计算机系统(诸如个人计算机、服务器或其他计算机系统)上操作、将这种计算机系统转变为专门编程的机器。功能或算法可以使用处理电路系统来实现,诸如可以包括电和/或电子组件(例如一个或多个晶体管、电阻器、电容器、电感器、放大器、调制器、解调器、天线、无线电、调节器、二极管、振荡器、复用器、逻辑门、缓冲器、缓存、存储器、GPU、CPU、现场可编程门阵列(FPGA)等)。

25多年以来,电子邮件都是重要的基于web的通信介质。尽管电子邮件最初是为异步通信设计的,但是人们已经“过载”了具有其他功能的电子邮件的使用,诸如任务管理和个人存档。随着在线服务和web的增长,电子邮件不仅继续服务于这些目的,而且数量不断增加(例如作为电子商务购买的收据文件柜、作为标识/认证流的标准部分以及作为日历管理)。

关于日历管理,因为会议布置和时间协商通常通过电子邮件进行,因此几乎每个现代电子邮件服务(web电子邮件和客户端应用)都提供特征齐全的日历管理。尽管具有该集成,大多数特征发展都关注将信息从电子邮件移动到用户的日历中,但是很少有工作关注日历信息对改善个人信息管理(PIM)服务的其他功能性的影响。

人们使用电子邮件不仅作为通信工具,还用于创建和管理任务,并且管理日历。当经由电子邮件创建的正在进行的任务数量增加时,人们可能会努力管理其任务,并且监测其进程。自动任务管理系统(例如PIM)可以克服这个问题,并且帮助人们更有效地管理其任务。诸如“我将在今天结束前发送报告”等承诺是涉及个人之间进行的完成未来动作的一种任务类型。另一任务类型是请求。请求包括要求另一个人执行动作。本文中检测到的任务是第一设备的用户与第二设备的用户之间的通信的一部分。该任务可以是文本、电子邮件、即时消息收发通信、文件、附件等的一部分。

图1通过示例图示了在用户界面上呈现的电子邮件100中的任务114的实施例的图。电子邮件100可以是XML、HTML或其他格式的数据领域(有时被称为语料库)的一部分,其中元数据描述电子邮件100的内容。所图示的电子邮件100包括来自:行102、到达:行104、主题106、时间108、(多个)附件110和正文112。来自:行102指示电子邮件100源自谁。到达:行104指示电子邮件100被发送给谁。在许多电子邮件中,到达:行包括抄送联系人(cc:)和单独的盲抄送联系人(bcc:)行。主题106通常概述了要在电子邮件100中被覆盖的内容。时间108通常与时区相关,并且指示电子邮件100的日期和时间。(多个)附件110发送方在来自:行102中指示的认为与电子邮件100相关的资源。正文112包括文本、图像和其他数据,其更详细地描述了电子邮件100的原因。电子邮件100的任何信息都可以被用于帮助标识电子邮件100中进行的任务。例如,电子邮件100中的正文112包括任务114“我将转发到实体X…”。

这种任务通常是在电子邮件或其他通信(诸如直接消息、日历事件等)中表达的,并且用户可能会努力以及时方式回顾和完成它们。检测任务(例如自动地,诸如在部署或安装之后没有人为干扰)并且提供任务的提醒使得诸如个人信息管理器(PIM)或数字助理等任务管理工具能够生成提醒或通知以帮助用户履行其义务。尽管自动任务检测具有潜在的益处,但是该重要领域的工作仅被限于少量研究。

承诺涉及在个人之间进行的完成未来动作的允诺。检测在通信中进行的承诺(例如“我将在今天结束之前发送报告”)使得PIM能够帮助用户回顾他们进行的允诺,并且帮助用户以及时方式完成允诺。本文中的实施例可以可靠地检测电子邮件、即时消息、文本消息、文件、附件、电话或会议记录、团队合作工具或其他通信中的承诺或其他任务。实施例可以使用在第一领域(例如在第一上下文中生成的通信的语料库)上训练并且被实现以对来自第二领域(例如在第二上下文中生成的通信的语料库)的通信的句子进行标记的一个或多个机器学习模型。

当测试领域不同于训练领域时,先前的承诺检测器实现性能降低。直接使用来自测试领域的样本训练检测器并不总是实用的。这可能是由于在训练时测试数据不可用,或者因为出于隐私原因对测试数据的访问被限制。这说明了与通信数据集相关联的领域偏差以及通常对用于任务检测和任务提取的更稳健且可推广的模型的需求。

本文中的实施例可以学习领域无关任务模型,诸如减少在测试领域不同于训练领域时实现的降低。在实施例中,领域(通信语料库)之间的差异被标识并且用于在领域之间迁移知识。该知识迁移可以位于不同的粒度级别:特征级自适应、样本级自适应或其组合。其他实施例可以使用诸如以对抗方式训练的神经自编码器,以学习领域无关表示来训练样本。迁移学习可以帮助移除领域偏差以获得具有较小领域相关性的模型。领域差异对基于通信的模型的质量可能具有显著的负面影响。通过迁移学习,实施例可以帮助处理该问题。

出于至少两个原因,任务检测是具有挑战性的。首先,任务检测操作本身在本质上是困难的,即使对于人类而言,并且当文本很短且具有有限的上下文时特别困难。其次,基于可能偏差的数据集,通信模型被训练且运送给用户。出于隐私和实用原因,基于通信的模型通常是从公共数据集导出的,该公共数据集以各种方式而偏斜。例如,称为“安然(Enron)电子邮件数据集”(在本文中简称为“安然”)的由学习和组织的认知辅助(CALO)课题编译的数据集(大多数包括来自称为安然的公司的高级官员的电子邮件)以及称为“鳄梨(Avocado)研究电子邮件集合”(在本文中简称为“鳄梨”)的包括来自名称为鳄梨的现在已不存在的信息技术(IT)公司的电子邮件和附件的数据集是两个常用的电子邮件数据集,以学习电子邮件模型。这些数据集属于具有不同关注领域的两个组织,并且包含来自不同时间段的电子邮件。包括命名实体和技术行话的术语在领域和时间上有很大的差异。这意味着在一个数据集上学习的模型可能有偏差,并且在未来的某个时间点在不同的目标数据集上可能无法良好地执行。这些偏差可能会影响在这些电子邮件语料库上训练的模型。

迁移学习是使在一个领域(源领域)中学习的知识能够迁移到另一领域(目标领域)的领域自适应方法。使用该方法将从一个通信集合学习的知识迁移到另一通信集合可以帮助实现用于任务检测的更稳健且可推广的模型。

本文讨论了迁移学习的一些方法。该讨论的上下文是针对任务检测的,然而实施例也适用于其他上下文,诸如图像分类、文本分类、安全性等。在各种示例中,句子是从文本提取的,诸如从以下一个或多个提取的:电子邮件、附件、日历事件、会议、直接信息收发服务、文本消息或其他通信。标记可以被分配给至少一些句子,指示句子是否对应于任务。

用于迁移学习的多种技术在本文中被呈现。这些包括特征级自适应、样本级自适应和迁移学习自编码器。针对特征级自适应,源领域和目标领域的特征(例如n元)之间的映射被标识,并且映射被用于将源领域的特征迁移到目标领域并使用迁移后的数据来学习分类器。

给定来自源语料库“S”的带标记样本集合,目的可以是创建模型,该模型在被应用于目标语料库“T”的目标样本时具有很高的任务检测准确性。用于在领域之间迁移分类知识的三种不同的技术及其变型分别在图2至图5中被提供:特征级自适应(图3)、样本级自适应(图2)以及利用特征级自适应和样本级自适应的自编码器(图4和图5)。

图2通过示例图示了用于任务的领域无关分类的系统200的实施例的图。所图示的系统200包括源语料库202、目标语料库204、样本自适应程序206、机器学习程序208、模型程序210和PIM 212。

源语料库202包括源样本203(例如文件、文档、分组、数据流等,诸如电子邮件数据、附件、日历事件数据、约定数据、数字注解数据、直接信息收发数据、文本数据等)。源样本203可以在特定文化或地理区域中被创建,其中指示任务的习惯可以具有独特的细微差别,这是在其他地方未被实现的。因此,源样本203可以使用第一词典来产生。

目标语料库204包括与源样本203类似的目标样本205,其中目标样本205是利用指示任务的不同习惯(例如使用不同词典)来生成的。目标样本205要由模型程序210分类,其是基于源样本203或经自适应的源样本207来训练的。

样本自适应(由样本自适应程序206执行的操作)有时被称为重要性采样。重要性采样是在给定从不同分布(源语料库202的分布)生成的样本的情况下估计分布(目标语料库204的分布)的参数的技术。假设存在两种分布:源语料库202中的样本被生成的P

上述推导中的假设是P

为了估计P

经自适应的源样本207(重新加权的源样本)和对应的源样本标记可以被提供给机器学习程序208。机器学习模型208可以使用统计技术,该统计技术使计算设备能够“学习”,更准确地,基于所确定的统计信息来推论最可能的结果。机器学习模型208可能特别有用以解决没有明显启发来解决问题的问题。两种类型的机器学习程序包括监督式学习和无监督式学习。监督式机器学习包括提供具有示例输入和对应的期望输出的模型。模型的权重被更新,使得当与对应输入一起被提供时,期望输出由模型生成。模型然后可以与输入一起被提供,该输入先前尚未被操作以预测输入对应于哪个输出。在无监督式学习中,输入和输出示例未被提供给模型,并且模型被交托以独自在输入中找到结构。无监督式学习可以被用于标识输入的特征,该特征可以被用于唯一地标识输入。本文中的实施例可以将监督式学习应用于从通信提取任务的问题。

在一些实施例中,机器学习程序208可以包括神经网络。神经网络(NN)是在生物神经元上紧密建模的计算结构。通常,NN经由节点(例如神经元)之间的加权连接(例如突触)对信息(例如数据或决策)进行编码。现代NN是许多机器学习应用的基础。

许多NN被表示为与所建模的连接相对应的权重矩阵。NN通过将数据接受到输入神经元集合中来操作,该输入神经元集合通常具有与其他神经元的许多外向连接。在神经元之间的每次遍历中,对应的权重修改输入,并且针对目的地神经元处的阈值被测试。如果加权值超过阈值,则值被再次加权,或者通过非线性函数被变换,并且被传输给NN图往下的另一神经元-如果阈值未被超过,那么通常值不被传输给下图神经元,并且突触连接保持不活动。加权并测试的过程继续,直到输出神经元被到达为止;输出神经元的模式和值构成NN处理的结果。

大多数NN的正确操作依赖于准确的权重。然而,NN设计者通常不知道哪些权重将作用于给定应用。相反,训练过程被用于达到适当的权重。NN设计者通常选择包括圆形连接的层之间的多个神经元层或特定连接。相反,训练过程通常通过选择初始权重来继续,该初始权重可以是随机选择的。训练数据被馈送到NN中,并且结果与提供误差指示的目标函数进行比较。误差指示是NN的结果与预期结果相比有多错误的度量。该误差然后被用于校正权重。经过许多迭代,权重将共同收敛以将操作数据编码到NN中。该过程可以被称为目标函数(例如成本或损失函数)的优化,其中成本或损失被最小化。

梯度下降技术通常被用于执行目标函数优化。梯度(例如偏导数)相对于层参数(例如权重的各个方面)被计算,以提供校正方向并可能提供校正程度,但是不会导致单次校正以将权重设置为“正确”值。即,经由多次迭代,权重将移动到“正确”值或者操作上有用的值。在一些实现中,移动的量或步长大小是固定的(例如在迭代之间是相同的)。小的步长大小倾向于花费很长时间来收敛,然而大的步长大小可能会在正确值周围振荡,或者展现出其他不期望的行为。可变的步长大小可以被尝试以提供更快的收敛,而没有大的步长大小的缺点。

反向传播是一种技术,其中训练数据通过NN被向前馈送,此处“向前”意味着数据在输入神经元处开始并且遵循神经元连接的有向图,直到输出神经元被达到为止,并且目标函数通过NN被向后应用以校正突触权重。在反向传播过程的每个步骤中,先前步骤的结果被用于校正权重。因此,输出神经元校正的结果被应用于连接至输出神经元的神经元等等,直到输入神经元被达到为止。反向传播已经成为训练各种NN的流行技术。用于反向传播的任何众所周知的优化算法可以被使用,诸如随机梯度下降(SGD)、Adam等。

针对经自适应的源样本207(和标记)的机器学习,监督式技术可以被采用。重要性采样可以由机器学习程序208提供,并且被用于基于目标语料库204的目标样本205的相似性来对源语料库202的训练样本(经自适应的源样本207)进行加权。源语料库202中的加权样本可以被用于通过机器学习程序208学习分类器。可以由模型程序210使用权重209实现的特定机器学习技术包括决策树学习、关联规则学习、NN、深度学习、归纳逻辑编程、支持向量机、聚类、贝叶斯网络、强化学习、表示学习、相似性和度量学习、稀疏字典学习、基因技术、基于规则的机器学习和学习分类器系统。

模型程序210可以实现分类器。模型程序210可以接收目标样本205,并且产生输出,指示目标样本205是否对应于任务211。机器学习程序208可以学习要被应用于模型的权重209以形成要由模型程序210实现的分类器。样本203、205的指示任务的特征包括例如“我将”、“我”、“将”、“我会”、“让您知道”、“让您”、“呼叫您”、“我应该”、“我们将”、“将呼叫”等。

所讨论的模型程序210可以产生目标样本205是否对应于任务211的指示。任务211可以包括以下一个或多个:指示目标样本205是否对应于任务的二进制值(例如逻辑“1”可以指示目标样本205对应于任务,并且逻辑“0”可以指示目标样本205未对应于任务,反之亦然);指示目标样本205所对应的任务类型的值(例如执行动作的允诺,诸如设立会议、参加会议、遛狗、送花、发送电子邮件或文档、支付欠债、联系目标样本205中未包括的另一个人、给草坪割草或者任何其他动作);对应于任务211的时间;向用户提醒任务211的时间等。备选地,PIM 212可以接收任务被检测到的目标样本205,并且可以确定任务的类型、对应于任务211的时间、向用户提醒任务211的时间等。

PIM 212可以包括日历界面216、电子邮件界面214和任务界面118。PIM的示例包括来自美国(USA)华盛顿雷德蒙德的微软公司的Outlook、来自美国加利福尼亚门洛帕克的谷歌的Gmail、来自爱沙尼亚的Astonsoft有限公司的EssentialPIM、来自美国华盛顿西雅图的亚马逊公司的亚马逊简单电子邮件服务(SES)、来自美国加利福尼亚山景城的Mozilla基金会的Thunderbird、来自美国加利福尼亚旧金山的eM客户端公司的eM客户端以及来自美国纽约水牛城的Synacor公司的Zimbra桌面等。不是所有PIM都包括电子邮件界面214、日历界面216和任务界面118功能性。实施例可以与一个或多个单独的日历、电子邮件或任务PIM集成,使得PIM 212不需要包括电子邮件、任务和日历功能性中的所有。

用户或者没有用户介入的PIM应用212可以通过日历界面216管理约定、会议、任务和/或提醒。日历界面216提供关于日期、事件、参加的人员、主题、附件、事件的描述(例如正文)、提醒时间等的数据可以被记录的界面。存在日历界面的许多配置,并且实施例并不被限于特定的日历配置。

用户或者没有用户介入的PIM应用212可以通过电子邮件界面214管理电子邮件。电子邮件界面214提供在电子邮件上组织、访问、搜索、存储、删除或执行其他操作的界面。存在电子邮件界面的许多配置,并且实施例并不被限于特定的电子邮件配置。

用户或者没有用户介入的PIM应用212可以通过任务界面218管理任务。任务界面218提供在要被执行的任务上组织、访问、搜索、存储、删除、编辑或执行其他操作的界面。存在任务界面的许多配置,并且实施例并不被限于特定的电子邮件配置。

在接收到任务211(或确定如何处置任务211)之后,PIM 212可以自动地(没有用户介入)调度要通过日历界面216被呈现给用户的会议、约定等,起草要通过电子邮件界面214被呈现给用户的电子邮件,或者生成要通过任务界面218被呈现给用户的任务。界面(例如电子邮件界面214、日历界面216或者任务界面218)可以向用户呈现关于为什么电子邮件、日历事件或任务的创建的解释。例如,界面可以显示具有文本的软件控件,其解释“您承诺在日期Y时在另一电子邮件中将该电子邮件发送给实体X。如果您希望履行该任务,请编辑和选择‘发送’,在稍后时间选择‘稍后提醒我’以进行提醒,或者以其他方式选择‘取消’以终止该任务”。通过该界面,因此用户可以基于任务211来设置提醒,建立任务,发送电子邮件,创建约定或会议等。

在一些实施例中,由于目标样本205中的任务211,用户可能已经调度了会议,发送了电子邮件,生成了任务等。PIM 212可以搜索用户的电子邮件、任务和日历事件以确定用户是否已经设立或发送了这种提醒、电子邮件、任务或日历事件。如果这种提醒、电子邮件、任务、日历事件或其他任务213已经被设立或发送,则PIM 212可以不采取动作,如果这种提醒、电子邮件、任务或其他任务213尚未被设立或发送,则可以自动地生成任务213。

在一些实施例中,用户可以将数据提供给PIM 212,诸如通过电子邮件界面214、日历界面216、任务界面218、弹出框或其他界面。由用户提供的数据可以是反馈数据220。反馈数据220可以包括样本205是否包括任务。来自用户的反馈数据220、来自模型210的预测(任务211)、目标样本205或其他数据可以被提供给机器学习程序208。反馈数据220可以被用于更新输入-输出示例,或者以其他方式更新数据以训练模型程序210。

图3通过示例图示了用于任务的领域无关分类的系统300的另一实施例的图。系统300类似于系统200,其中系统300包括特征自适应程序306来代替样本自适应程序206。要注意的是,图3的一些项目具有与图2的项目相同的名称,但是附图标记不同。这指示项目可以执行不同的操作或者具有与图2的项目不同的结构,其具有相同的名称。然而,具有相同名称的项目的通用描述是类似的,只是关于图3描述的方式不同。

特征自适应程序306接收源样本203和目标样本205,并且生成经自适应的源样本307。经自适应的源样本307包括被修改为于目标样本205的表示更相似的源样本203的表示。修改可以包括词语替换、用另一词语的表示替换词语的表示等。例如,考虑源语料库202包括来自煤气公司的电子邮件并且目标语料库204包括来自电力公司的电子邮件的实施例。特征自适应程序306可以学习或者以其他方式被编程以用术语“电力”取代源样本203中的术语“煤气”的表示等,以生成经自适应的源样本307。其他取代可以包括一个公司中的人使用诸如“OOO”(不在办公室)等缩略词来表示不可用,并且另一公司中的人使用“不可用”、“假期中”等来表示同一件事。这些差异可以出现在电子邮件或其他通信中。与在了解这些差异的情况下训练的模型相比,在不了解这些差异的情况下训练的模型可能在对目标样本205进行分类时不太准确。存在这些差异的许多其他示例,并且在本公开的范围内。

特征自适应程序306学习源样本203和目标样本205的特征。在一些实施例中,特征自适应程序306可以确定源样本203和目标样本205的学习特征之间的映射。假设F

目标样本205或源样本203的特征可以包括一个或多个词语、短语、句子、符号、字符、图像、其组合、其部分等。从源样本203或目标样本205提取的特征可以指示任务或帮助确定样本中是否存在任务。例如,源样本203的特征可以包括字符“CYL”。这些字符可以指示稍后呼叫某人(“稍后呼叫您”)的任务。特征自适应程序306可以用指示短语“稍后呼叫您”的值来取代指示源样本203中的“CYL”的一个或多个值以创建经自适应的源样本307。另一示例包括用指示词语“煤气”或“石油”的一个或多个值取代指示词语“电力”的所有值等。该取代可以帮助机器学习程序308创建权重,该权重考虑了源语料库202和目标语料库204中的通用术语中的差异。这些仅是特征自适应和对应学习的示例,其旨在提供对特征自适应程序306、经自适应的源样本307、机器学习模型308和模型权重309的操作的更深理解。

更一般地,诸如由特征自适应程序306实现的特征级自适应技术试图通过移除领域特定特征或者将特征从源语料库词典变换到目标语料库词典来从特征中移除领域偏差。学习不同领域的特征之间的映射已经在机器转化中研究了。此处,相比之下,领域是两个不同的词典。特征自适应程序306可以实现两种特征级自适应技术中的一种或多种:特征选择和特征映射。特征映射先前已经被讨论了。

特征选择包括检测源语料库202和目标语料库204中的领域特定特征,并且从训练和测试样本中移除它们。在特征选择中,假设存在源语料库202中的未标记源样本203的集合D

特征映射标识源领域和目标领域之间的等效特征,并且在训练任务分类器(模型程序310)之前将来自样本203、205的特征变换为其他样本205、203中的其等效物。特征在一些实施例中可以是n元词语(例如1≤n≤3)。特征映射技术的假设可以包括针对源(目标)领域中的每个特征,存在目标(源)领域中的等效特征。因此,针对源语料库202中的每个领域特定特征,存在目标语料库204中的领域特定等效物,并且目的可以是找到这些等效物。

特征自适应程序306的实施例现在被更详细地描述。假设在每个领域中存在样本203、205的集合。句子可以从样本203、205中提取。针对每个领域,语义空间可以被学习,其中每个特征被表示为低维神经嵌入向量。在一些实施例中,Word2Vec的跨词序列架构(来自Mikolov等人的两层NN)可以生成词语的嵌入。源样本203和目标样本205的嵌入空间之间的线性变换可以被确定。线性变换(

空间之间的嵌入的基于线性映射的变换已经被用于转化和检测语义偏移。在实施例中,词语集合可以作为领域和训练样本之间的锚以学习映射。停止词语(例如“到达”、“该”、“...的…”、“...中的…”、“和”、“或”等)可以被用作锚。停止词语应该在两个领域中具有相同的含义,并且它们可以用作具有变化含义(用法)的特征可以被学习的固定点。使用训练样本,目的可以是学习从领域S到领域T的变换矩阵W

要由学习最小化的这种函数的目标函数可以包括:

总和可以接管训练特征。标准的停止词语列表可以被使用,诸如添加了几个附加词语(例如语料库202或204中的非常频繁的词语)以学习变换矩阵W

其中cos是余弦相似性,并且F

机器学习程序308类似于机器学习程序208,但是机器学习程序308在不同的输入上操作,即,特征经自适应的源样本307而不是样本经自适应的源样本207。机器学习程序308因此非常可能会产生与机器学习程序208不同的权重309。类似地,模型程序310可能不同于模型程序210,因为权重309可能不同于权重209。尽管模型程序310的目的与模型程序210相同。即,为了标识目标样本205是否包括任务并且产生任务311。任务311可以包括与任务211类似的信息。PIM 212可以接收任务311,并且产生任务提醒313。任务提醒313与任务提醒213的不同之处仅在于它是基于不同的输入产生的,即,任务311而不是任务211。

图4通过示例图示了用于任务的领域无关分类的系统400的另一实施例的图。系统400类似于系统200和300,其中系统400包括自编码器程序406代替样本自适应程序206和机器学习程序208或者特征自适应程序306和机器学习程序308。要注意的是,图4的一些项目具有与图2和3的项目相同的名称,但是附图标记不同。这指示项目可以执行不同的操作或者具有与图2或3的项目不同的结构,其具有相同的名称。然而,具有相同名称的项目的通用描述是类似的,只是关于图4描述的方式不同。

自编码器程序406学习模型程序410的权重409,其使成本函数最小化。自编码器程序406可以包括至少一个NN,其被配置为减少重构损失和分类损失,同时增加领域分类损失,使得模型程序410在自编码之后无法辨别样本来自哪个语料库202或204。

模型程序410很可能与模型程序210和310不同,至少因为权重409很可能与模型程序210和310不同,因为它们是经由不同的训练过程生成的。尽管模型程序410的目的可以与模型程序210和310相同。即,为了标识目标样本205是否包括任务包括产生任务411。任务411可以包括与任务211和311(具有或没有任务标记)类似的信息。任务411不同于任务211和311,因为它是由不同的模型程序410产生的,因此模型程序410的结果可以不同。PIM 212可以接收任务411并且产生任务提醒413。任务提醒413与任务提醒213和313的不同之处仅在于它是基于不同输入产生的,即,任务提醒413而不是任务提醒213或313。

自编码器程序406可以以对抗方式被训练,诸如以最大化任务分类准确性,同时最小化重构损失并且最小化语料库分类准确性。为了从样本表示中移除领域特定信息,领域分类器程序415可以被添加到自编码器。在一些实施例中,领域分类器程序415可以使用NN来实现。给定来自源语料库202或目标语料库204的训练样本(例如源样本203或目标样本205),领域分类器415可以尝试预测样本203或205所属的领域(例如源语料库202或目标语料库204)。领域分类器415可以以对抗设置被训练,其中在训练期间,其准确性可以被最小化。通过最小化领域分类器准确性,领域特定信息可以从样本203、205中移除。

当任务检测模型跨领域被应用时,任务检测的质量显著降低。即,如果模型程序410是基于从源语料库202的源样本203学习的权重来产生的,则预测来自目标语料库204的目标样本205中的任务是不准确的。如先前讨论的,用于以通信语料库与领域自适应之间的差异为特性的不同方法(具体地,迁移学习)可以从任务检测模型中移除领域特定偏差。本文讨论的领域自适应方法在任务检测模型的精确度和回顾上提供了显著的增益。

使用自编码器程序406的目的可以是使用来自源领域和目标领域的组合样本集合来学习领域无关的表示。在创建表示之后,分类器(模型程序410)可以在去偏差表示(由自编码器程序406产生的表示)上被训练。样本级自适应和特征级自适应可以使用自编码器程序406来组合。

本实施例可以通过引入可以以对抗方式被训练的领域分类器415来移除领域偏差。

本文中的实施例可以将对抗训练应用于领域自适应。实施例可以包括将领域分类损失添加到任务的损失并且试图最大化领域损失。最大化领域损失可以帮助确保所学习的表示不包含领域信息。类似地,实施例可以使用对抗训练以学习句子的表示。然而,实施例可以通过将序列到序列自编码器用于模型以学习表示来扩展该工作。

图5通过示例图示了自编码器程序406的实施例的分解图。所图示的自编码器程序406包括输入程序550、样本表示程序558、输出程序562和损失函数564。

深度自编码器已经被示出为在无监督特征提取和表示学习中是成功的。这些模型是无监督的,并且对数据被生成的基础分布进行建模。在迁移学习设置中,自编码器可以被用于学习来自源语料库202和目标语料库204的组合样本集合的表示。使用来自源语料库202和目标语料库204的样本,自编码器程序406可以学习表示来自语料库202和204的样本的模型。由模型程序410产生的学习表示可以是领域无关的。

在学习表示之后,源语料库202(具有其标记)中的样本的表示可以被用于训练分类器。要注意的是,该方法可以使用来自源语料库202的样本中的带标记样本集合以及来自目标语料库204的无标记样本集合。

任务检测问题接下来被呈现,然后实施例的自编码器模型被描述。然后,包括输入程序550、样本表示程序558、输出程序562和损失函数564的自编码器程序406的项目细节被描述。

假设来自源语料库202的任务句子集合

自编码器嵌入556可以是使用嵌入投影程序554来产生的,嵌入投影程序554使用来自源语料库202的无标记源样本203和来自目标语料库204的目标样本205而被训练。在一些实施例中,源投影程序554可以包括NN。除了源样本203之外,带标记的目标样本205的集合被应用以训练样本表示和输出程序560。X

通常,自编码器程序406接收候选句子(例如样本549),并且预测句子构成任务(例如在电子邮件发送者与电子邮件接收者之间)的可能性。所图示的自编码器程序406包括三个主要组件,即,输入程序550,其提供函数集合以将每个输入句子x

样本表示程序558被提供有输入程序550的嵌入556(嵌入556的序列)。样本表示程序558学习输入句子552的表示。样本表示程序的输出可以是向量

输出程序562基于由序列到序列编码器560提供的句子552的表示来确定输入句子552包括任务的可能性。

输入程序550可以使用至少一个可训练嵌入程序554来将输入句子552投影到维度为d的序列密集向量集合。输入552中的每个向量可以对应于词语。

图6通过示例图示了序列到序列编码器560的实施例的分解图。为了表示样本,样本表示程序558可以包括序列到序列编码器560。序列到序列编码器560可以包括递归神经网络(RNN)或其他NN。序列到序列编码器560在正推中在“从左到右”方向上接收嵌入556,

输出程序562可以包括三个输出程序:译码器567、任务分类器565和语料库分类器563。译码器577可以包括NN(例如RNN),给定输入序列的学习表示(编码器560的输出),该NN尝试生成输入序列549。译码器577的目的可以是估计概率

译码器577可以在端到端训练过程中被训练。训练过程可以使用样本批次B=

其中N是训练样本的数量。

任务分类器565可以包括具有非线性573(例如双曲正切(tanh))然后是sigmoid575的前馈NN层。任务分类器565从样本表示程序558接收输入序列的学习表示(隐藏状态672A和670C的连结),并且预测构成任务的样本549的概率:

其中

任务分类器565可以在端到端训练过程中被训练,其中数据

与任务分类器565类似,语料库分类器562可以包括具有非线性NN 569的至少一个前馈层。非线性NN 569可以接着sigmoid层571。sigmoid层571可以提供语料库分类器563的输出。语料库分类器563可以预测源自目标语料库204的样本549的概率:

其中

任务分类器565可以在与语料库分类器563类似的端到端训练过程中被训练。数据

训练过程的目的可以是最大化语料库分类器563的损失,诸如避免在学习句子标识期间捕获到领域特定信息。给定所描述的损失函数581、583和585,由自编码器程序406的损失程序587确定的最终目标函数可以是:

L=∝L

任务211、311、411是语料库202、204中的任何句子,其包括可能可以由PIM 212起作用(例如发送文档、发送电子邮件、创建会议事件、创建约定、将任务添加到任务列表等)或值得提醒(例如与同事会面)的执行动作的允诺或者执行动作的请求。实施例的任务检测可以被建模为二进制分类任务。任务检测任务中的诸如源样本203或目标样本205等输入可以包括句子,并且输出可以包括指示该句子是否在实体之间构成任务的二进制标记。

假设存在从源语料库202提取的句子集合X={x

图7通过示例图示了用于基于来自源语料库的样本在来自目标语料库的样本中进行任务检测的方法700的实施例的图。所图示的方法700包括:在操作710中,根据目标样本特性来修改源样本;在操作720中,基于修改后的源样本来训练机器学习模型;在操作730中,使用训练后的模型来确定目标样本是否包括任务;在操作740中,基于操作730中的确定来将信号提供给PIM;在操作750中,从用户接收关于样本是否包括任务的反馈;以及在操作760中,提供反馈数据以进一步训练机器学习模型。源样本和目标样本可以是相应的句子。方法700还可以包括:基于目标样本是否包括任务来使PIM生成:(i)日历事件,(ii)提醒,或者(iii)电子邮件。

操作710可以包括:执行特征自适应以将源样本的特征改变为一个或多个指定值。特征自适应可以包括:训练语料库分类器机器学习模型以区分源样本和目标样本。特征自适应可以包括:从语料库分类器机器学习模型中选择前K个特征。特征自适应可以包括:用指定值取代目标样本中的前K个特征中的每个特征。

特征自适应可以包括:基于源样本的词语与相应映射向量之间的距离来标识源样本的特征与目标样本的特征之间的映射。特征自适应可以包括:用相应映射向量中的映射向量来取代源样本的词语的表示。

操作710可以包括:执行重要性采样以将源样本的权重改变为重要性权重。重要性权重可以是基于被分类为来自源语料库的样本的边际分布概率以及被分类为来自目标语料库的样本的边际分布概率来确定的。

机器学习模型可以包括NN自编码器。操作710可以包括:对抗训练NN自编码器以增加语料库分类损失,同时减少任务分类损失和样本重构损失。NN自编码器可以包括样本重构NN,该样本重构NN实现序列到序列编码器,该序列到序列编码器在第一方向上读取目标样本的嵌入式表示,创建第一隐藏状态序列,在与第一方向相反的第二方向上读取目标样本的嵌入式表示,并且创建第二隐藏状态序列。样本表示NN可以提供在第一方向上读取嵌入式表示的最后隐藏状态和在第二方向上读取嵌入式表示的第一隐藏状态的连结。样本表示NN可以包括递归NN(RNN)。

图8通过示例图示了用于实现一个或多个实施例的机器1000(例如计算机系统)的实施例的框图。一个示例机器1000(计算机的形式)可以包括处理单元1002、存储器1003、可移除存储装置1010和不可移除存储装置1012。尽管示例计算设备被图示合描述为机器1000,但是计算设备在不同实施例中可以是不同形式。例如,相反,计算设备可以是智能手机、平板计算机、智能手表或者包括与关于图10图示和描述的元件相同或类似的元件的其他计算设备。诸如智能手机、平板计算机和智能手表等设备通常被统称为移动设备。进一步地,尽管各种数据存储元件被图示为机器1000的一部分,但是存储装置也可以或者备选地包括经由网络(诸如互联网)可访问的基于云的存储装置。

存储器1003可以包括易失性存储器1014和非易失性存储器1008。机器1000可以包括或访问计算环境,该计算环境包括各种计算机可读介质,诸如易失性存储器1014和非易失性存储器1008、可移除存储装置1010和不可移除存储装置1012。计算机存储装置包括随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、光盘只读存储器(CD ROM)、数字通用盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或者能够存储用于执行的计算机可读指令以执行本文描述的功能的其他磁性存储设备。

机器1000可以包括或访问计算环境,该计算环境包括输入1006、输出1004和通信连接1016。输出1004可以包括也可以用作输入设备的显示设备,诸如触摸屏。输入1006可以包括以下一个或多个:触摸屏、触摸板、鼠标、键盘、相机、一个或多个设备特定按钮、集成在机器1000内或者经由有线或无线数据连接耦合至机器1000的一个或多个传感器以及其他输入设备。计算机可以使用通信连接在联网环境中操作,以连接至一个或多个远程计算机,诸如数据库服务器,包括基于云的服务器和存储装置。远程计算机可以包括个人计算机(PC)、服务器、路由器、网络PC、对等设备或者其他公共网络节点等。通信连接可以包括局域网(LAN)、广域网(WAN)、蜂窝网络、电气与电子工程师协会(IEEE)802.11(Wi-Fi)、蓝牙或其他网络。

存储在计算机可读存储设备上的计算机可读指令由机器1000的处理单元1002可执行。硬盘驱动器、CD-ROM和RAM是包括诸如存储设备等非瞬态计算机可读介质的物品的一些示例。例如,计算机程序1018可以被用于使处理单元1002执行本文描述的一种或多种方法或算法。

附加注解和示例:

示例1包括一种系统,包括:存储器;处理电路系统,被耦合至存储器以实现用于对来自目标语料库的目标样本进行任务分类的操作,任务分类包括:修改来自源语料库的源样本的源句子的表示,以更接近地类似于来自目标语料库的目标样本的目标句子;使用机器学习模型来与目标样本一起操作以生成任务标记,该机器学习模型使用源句子的经修改的表示而被训练,该任务标记指示目标样本是否包括任务;以及基于目标样本是否包括任务来使个人信息管理器(PIM)生成提醒。

在示例2中,示例1还可以包括,其中修改源样本的源句子的表示包括:执行特征自适应以将源样本的特征改变为一个或多个指定值。

在示例3中,示例2还可以包括,其中特征自适应包括:训练语料库分类器机器学习模型以区分源样本和目标样本;从语料库分类器机器学习模型中选择前K个特征;以及用指定值取代目标样本中的前K个特征中的每个特征。

在示例4中,示例2至3中至少一项还可以包括,其中修改源样本的源句子的表示包括:基于源样本的词语与目标样本的相应映射的目标词语之间的距离来标识源样本的特征与目标样本的特征之间的映射;以及用相应映射的目标词语的映射向量来取代源样本的相应词语的向量表示。

在示例5中,示例1至4中至少一项还可以包括,其中修改源样本的源句子的表示包括:执行重要性采样以将源样本的权重改变为重要性权重。

在示例6中,示例5还可以包括,其中重要性权重是基于以下而被确定的:被分类为来自源语料库的样本的边际分布概率、以及被分类为来自目标语料库的样本的边际分布概率。

在示例7中,示例1至6中至少一项还可以包括,其中机器学习模型包括神经网络(NN)自编码器,并且其中该操作还包括:修改来自源语料库的源样本的源句子的表示以包括来自目标语料库的目标样本的目标句子的表示,包括对抗训练NN以增加语料库分类损失,同时减少任务分类损失和样本重构损失。

在示例8中,示例7还可以包括,其中NN自编码器包括样本表示NN,该样本表示NN:实现序列到序列编码器,该序列到序列编码器在第一方向上读取目标样本的嵌入式表示;创建第一隐藏状态序列;在与第一方向相反的第二方向上读取目标样本的嵌入式表示;以及创建第二隐藏状态序列。

在示例9中,示例8还可以包括,其中样本表示NN提供在第一方向上读取嵌入式表示的最后隐藏状态和在第二方向上读取嵌入式表示的第一隐藏状态的连结。

在示例10中,示例1至9中至少一项还可以包括,其中任务分类还包括:使用源句子的经修改的表示来训练机器学习模型。

在示例11中,示例10还可以包括,其中任务分类还包括:从PIM接收反馈数据,并且还基于反馈数据来训练模型,其中反馈数据基于PIM的界面的用户输入来指示目标样本是否包括任务。

在示例12中,示例1至11中至少一项还可以包括,其中提醒包括(i)约定,(ii)会议,(iii)通知,(iv)文本消息,(v)电子邮件,或(vi)即时消息。

示例13可以包括至少一种机器可读存储介质,包括指令,该指令用于由处理电路系统执行以执行用于任务检测的操作,该操作包括:修改来自源语料库的源样本的源句子的表示以更接近地类似于来自目标语料库的目标样本的目标句子的表示,使用机器学习模型来与目标样本一起操作以生成任务标记,该机器学习模型使用源句子的经修改的表示而被训练,该任务标记指示目标样本是否包括任务,以及基于目标样本是否包括任务来使个人信息管理器(PIM)生成提醒。

在示例14中,示例13还可以包括,其中修改源样本的源句子的表示包括:执行特征自适应以将源样本的特征改变为一个或多个指定值,执行重要性采样以将源样本的权重改变为重要性权重,或者使用经对抗训练的神经网络(NN)自编码器以增加语料库分类损失,同时减少任务分类损失和样本重构损失。

在示例15中,示例14还可以包括,其中特征自适应包括:训练语料库分类器机器学习模型以区分源样本和目标样本;从语料库分类器机器学习模型中选择前K个特征;以及用指定值取代目标样本中的前K个特征中的每个特征。

在示例16中,示例14至15中至少一项还包括,其中修改源样本的源句子的表示包括:基于源样本的词语与相应映射向量之间的距离来标识源样本的特征与目标样本的特征之间的映射;以及用相应映射向量中的映射向量来取代源样本的词语的表示。

在示例17中,示例14至16中至少一项还包括,其中重要性权重是基于以下而被确定的:被分类为来自源语料库的样本的边际分布概率、以及被分类为来自目标语料库的样本的边际分布概率。

在示例18中,示例13至17中至少一项还可以包括,其中机器学习模型包括神经网络(NN)自编码器,并且其中该操作还包括:修改来自源语料库的源样本的源句子的表示以包括来自目标语料库的目标样本的目标句子的表示,包括对抗训练NN以增加语料库分类损失,同时减少任务分类损失和样本重构损失。

在示例19中,示例18还可以包括,其中NN自编码器包括样本表示NN,该样本表示NN:实现序列到序列编码器,该序列到序列编码器在第一方向上读取目标样本的嵌入式表示,创建第一隐藏状态序列,在与第一方向相反的第二方向上读取目标样本的嵌入式表示,并且创建第二隐藏状态序列。

在示例20中,示例19还可以包括,其中样本表示NN提供在第一方向上读取嵌入式表示的最后隐藏状态和在第二方向上读取嵌入式表示的第一隐藏状态的连结。

在示例21中,示例13至20中至少一项还可以包括,其中任务分类还包括:使用源句子的经修改的表示来训练机器学习模型。

在示例22中,示例21还可以包括,其中任务分类还包括:从PIM接收反馈数据,并且还基于反馈数据来训练模型,其中反馈数据基于PIM的界面的用户输入来指示目标样本是否包括任务。

在示例23中,示例13至22中至少一项还可以包括,其中提醒包括(i)约定,(ii)会议,(iii)通知,(iv)文本消息,(v)电子邮件,或(vi)即时消息。

示例24包括一种由计算系统的至少一个处理器执行的方法,该方法包括:修改来自源语料库的源样本的源句子的表示以更接近地类似于来自目标语料库的目标样本的目标句子的表示,使用机器学习模型来与目标样本一起操作以生成任务标记,该机器学习模型使用源句子的经修改的表示而被训练,该任务标记指示目标样本是否包括任务,以及基于目标样本是否包括任务来使个人信息管理器(PIM)生成提醒。

在示例25中,示例24还可以包括,其中修改源样本的源句子的表示包括:执行特征自适应以将源样本的特征改变为一个或多个指定值,执行重要性采样以将源样本的权重改变为重要性权重,或者使用经对抗训练的神经网络(NN)自编码器以增加语料库分类损失,同时减少任务分类损失和样本重构损失。

在示例26中,示例25还可以包括,其中特征自适应包括:训练语料库分类器机器学习模型以区分源样本和目标样本;从语料库分类器机器学习模型中选择前K个特征;以及用指定值取代目标样本中的前K个特征中的每个特征。

在示例27中,示例25至26中至少一项还包括,其中修改源样本的源句子的表示包括:基于源样本的词语与相应映射向量之间的距离来标识源样本的特征与目标样本的特征之间的映射;以及用相应映射向量中的映射向量来取代源样本的词语的表示。

在示例28中,示例25至27中至少一项还包括,其中重要性权重是基于以下而被确定的:被分类为来自源语料库的样本的边际分布概率、以及被分类为来自目标语料库的样本的边际分布概率。

在示例29中,示例24至28中至少一项还可以包括,其中机器学习模型包括神经网络(NN)自编码器,以及其中该操作还包括:修改来自源语料库的源样本的源句子的表示以包括来自目标语料库的目标样本的目标句子的表示,包括对抗训练NN以增加语料库分类损失,同时减少任务分类损失和样本重构损失。

在示例30中,示例29还可以包括,其中NN自编码器包括样本表示NN,该样本表示NN:实现序列到序列编码器,该序列到序列编码器在第一方向上读取目标样本的嵌入式表示;创建第一隐藏状态序列;在与第一方向相反的第二方向上读取目标样本的嵌入式表示;以及创建第二隐藏状态序列。

在示例31中,示例30还可以包括,其中样本表示NN提供在第一方向上读取嵌入式表示的最后隐藏状态和在第二方向上读取嵌入式表示的第一隐藏状态的连结。

在示例32中,示例24至31中至少一项还可以包括,其中任务分类还包括:使用源句子的修改表示来训练机器学习模型。

在示例33中,示例32还可以包括,其中任务分类还包括:从PIM接收反馈数据,并且还基于反馈数据来训练模型,其中反馈数据基于PIM的界面的用户输入来指示目标样本是否包括任务。

在示例34中,示例24至33中至少一项还可以包括,其中提醒包括(i)约定,(ii)会议,(iii)通知,(iv)文本消息,(v)电子邮件,或(vi)即时消息。

尽管一些实施例已经在上面详细描述,但是其他修改也是可能的。例如,在附图中描绘的逻辑流程不需要所示的顺序或者相继顺序,以实现期望的结果。其他步骤可以被提供或者步骤可以从所描述的流程中排除,并且其他组件可以被添加到所描述的系统或者从所描述的系统中移除。其他实施例可以在以下权利要求的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号