首页> 中国专利> 对电子消息中的内容的自动总结

对电子消息中的内容的自动总结

摘要

在本文中公开了被配置为执行对电子消息中的内容的自动总结的电子邮件服务器。在一个实施例中,当接收到电子邮件时,电子邮件服务器确定传入电子邮件是否是模板化消息。响应于确定所述传入电子邮件不是模板化消息,电子邮件服务器将电子邮件中的一个或多个句子分类为决策、判断、推理或事实的语句;将经分类的语句聚类为聚类;并且选择所述聚类中的一个或多个聚类以自动地生成对所述传入电子邮件的总结。所述电子邮件服务器还能够随后在经由计算机网络将所述电子邮件发送到目的地之前,将表示所生成的总结的数据插入所述电子邮件中。

著录项

  • 公开/公告号CN113316775A

    专利类型发明专利

  • 公开/公告日2021-08-27

    原文格式PDF

  • 申请/专利权人 微软技术许可有限责任公司;

    申请/专利号CN202080009979.2

  • 申请日2020-01-04

  • 分类号G06F16/34(20060101);G06Q10/10(20060101);

  • 代理机构72002 永新专利商标代理有限公司;

  • 代理人李光颖

  • 地址 美国华盛顿州

  • 入库时间 2023-06-19 12:21:13

说明书

背景技术

自动总结是利用软件对原始文本进行缩短以创建具有原始文本的主要要点的总结的过程。能够做出连贯总结的技术考虑诸如长度、写作风格和语法的变量。用于自动总结的两种技术包括提取和抽象。提取技术选择原始文本中的现有词语、短语或句子的子集以形成总结。相比之下,抽象技术能够构建原始文本的内部语义表示,并且然后使用自然语言生成来创建更接近于人类可能表达的总结。

发明内容

提供本概述以简化形式介绍下文在详细描述中进一步描述的对概念的选择。本概述并不意图识别所要求保护的主题的关键特征或必要特征,也并不旨在用于限制所要求保护的主题的范围。

尽管提取和抽象技术可能足以自动地总结诸如新闻报道、科学论文等的文档,但是这样的技术可能不足以总结在使用计算机、智能手机或者其他合适类型的计算设备的用户之间交换的电子消息(例如,电子邮件)的内容。针对这样的不足的原因之一是电子邮件中的内容的状态可能是动态的,即随时间变化。例如,针对早期事件的语句现在可能不如当时那么相关。另一原因可能是电子邮件中的内容的相关性可能取决于对应电子邮件通信的上下文。例如,来自组织中的管理者的简短语句可能比由他/她的下属所发表的多条长语句更相关。

所公开的技术的若干实施例能够通过实现对电子邮件和/或其他合适类型的电子消息中的内容的基于上下文的自动总结来解决上述困难中的至少一些困难。在一种实现方式中,电子邮件服务器能够被配置为接收发往用户或者由用户生成的电子邮件。在接收到电子邮件后,在电子邮件服务器处的自动总结器(或者以其他方式访问所接收到的电子邮件)能够被配置为对所接收到的电子邮件执行总结处理的第一阶段和第二阶段,如在下文更详细描述的。在另一实现方式中,自动总结器能够独立于电子邮件服务器。在其他实现方式中,自动总结器还能够被配置为执行对电子邮件的自动生成的总结的文本到语音转换、将总结插入到电子邮件或者其他合适的操作。

在某些实施例中,在总结处理的第一阶段处,自动总结器能够被配置为确定所接收到的电子邮件是否是模板化消息。在不受理论束缚的情况下,相信在企业、政府办公室、学校或者其他合适类型的组织中交换的电子邮件常常会是模板化消息。示例性模板化消息能够包括与外出(OOF)、事假、在家工作(WFH)、会议邀请、自动响应、状态更新、欢迎辞、会议备忘等相关的消息。在一种实现方式中,自动总结器能够被配置为经由机器学习使用例如训练数据集来检测这样的模板化消息。这样,可以开发机器学习模型以包括指示模板化消息的关键字/关键短语(例如,“OOF”、“WFH”等)。在其他实现方式中,自动总结器还能够被配置为使用由管理员所提供的预先配置的消息模板或者经由其他合适的技术来检测这样的模板化消息。

能够使用预先配置的总结模板来有效地总结前述模板化消息。例如,针对OOF消息的总结模板能够包括“[发送者]从[日期/时间1]到[日期/时间2]为OOF”,其中,括号内的参数(例如,“发送者”)表示变量。在确定所接收到的电子邮件是OOF消息后,自动总结器能够被配置为通过例如识别所接收到的电子邮件的标题中的“来自”字段中的名称(例如,“Anand”)来提取针对[发送者]的值。自动总结器还能够被配置为基于例如所接收到的电子邮件中的文本的格式来识别第一日期/时间(例如,“2018年12月11日”)和第二日期/时间(例如,“2018年12月31日”)。自动总结器能够被配置为随后通过以所识别出的发送者和日期/时间替代总结模板来撰写总结,如“Anand从2018年12月11日到2018年12月31日为OOF”。

当确定所接收到的电子邮件不是模板化消息时,自动总结器能够被配置为至少基于所接收到的电子邮件的电子邮件正文中的内容来执行总结处理的第二阶段。在一个示例性实现方式中,所述自动总结器能够被配置为从电子邮件正文初始地提取实体值(例如,发送者姓名、(一个或多个)接收者姓名、发送/接收的日期/时间等)以及文本或者其他合适类型的内容。自动总结器能够被配置为随后基于一个或多个机器学习模型对来自所述电子邮件正文的内容进行分解以将个体句子(或者其部分)分类为不同类别的语句。在某些实施例中,语句的示例性类别能够包括事实、推理、判断和决策。例如,事实的语句能够是“我们的系统昨晚崩溃了”的语句。推理的语句能够是“代码中一定存在错误”。判断的语句能够是“我们的系统是最差的”,而决策的语句能够是“请联系开发团队以尽快将其修复”。在其他实施例中,自动总结器还能够将电子邮件分类为真相、证据、推理、请求或者其他合适类型的类别。

分类开发器能够被配置为通过使用被配置为通过学习已知示例而“学习”或逐步改善任务性能的“神经网络”或“人工神经网络”分析用户的一组电子邮件来生成一个或多个机器学习模型。在某些实现方式中,神经网络能够包括通常称为“神经元”或“人工神经元”的多层对象。每个神经元能够被配置为基于经由对应连接的一个或多个输入来执行功能,诸如非线性激活功能。人工神经元和连接通常具有随着学习的进行而调整的贡献值。贡献值增加或减少在连接处的输入的强度。通常,人工神经元是分层组织的。不同的层可以对各自的输入执行不同类型的转换。信号通常可能在遍历一个或多个中间层之后从输入层行进到输出层。因此,通过使用神经网络,分类开发器能够提供一组分类模型,自动总结器能够使用所述一组分类模型对所接收到的电子邮件中的语句进行分类。

在对所接收到的电子邮件的电子邮件正文中的内容的分解完成后,自动总结器能够被配置为基于做出语句的实体、语句的新近度和/或其他合适的标准,来为每个经分类的语句分配相关性分数。例如,自动总结器能够被配置为通过查阅组织图、人的职位等,基于他/她在组织中的职位来确定由该人所做的语句的相关性分数。这样,由管理者所做的语句能够比他/她的下属所做的语句具有更高的相关性分数。在其他示例中,自动总结器能够被配置为向最近所做的语句分配比之前所做的语句更高的相关性分数。在额外示例中,自动总结器能够被配置为基于语句的主题或者其他合适的标准来分配相关分数。

自动总结器还能够被配置为通过基于例如根据类别的层级的语句的相对接近度对所述语句进行聚类来确定事实、推理、判断和决策的语句的上下文。例如,接近决策的事实、推理和判断的语句能够围绕该决策进行聚类,而接近另一决策的事实、推理和判断的其他语句能够围绕该另一决策进行聚类。在某些实施例中,接近度能够基于预设的接近度阈值,例如字符、词语、句子等的数量。在其他实施例中,接近度阈值能够基于句法结构,诸如标点符号、段落、小节等。在另外的实施例中,接近度阈值能够基于其他合适的标准。

在某些场景下,所接收到的电子邮件可能不包含被分类为决策的任何语句。在这样的场景下,所公开的技术的实施例能够包括根据根据决策、判断、推理到事实的类别的层级对所接收到的电子邮件中的语句进行聚类。例如,当在所接收到的电子邮件中不存在决策的语句时,能够围绕判断的一个或多个语句执行聚类。当不存在决策或判断的语句时,能够围绕推理的一个或多个语句进行聚类。当所接收到的电子邮件仅包含事实的语句时,自动总结能够基于个体事实。

一旦语句被聚类,自动总结器就能够被配置为基于每个聚类中的个体语句的分配的相关性分数来计算聚类分数。在一个示例中,聚类分数能够是被分配给属于该聚类的语句的所有相关性分数的总和。在另一示例中,聚类分数能够是被分配给属于该聚类的语句的所有相关性分数的总和,并且基于语句的年龄、语句所针对的接收者的数量或者个体语句的其他合适的参数而有偏差。在前述示例中的任意示例中,能够基于例如零到一百或者其他合适的值范围的尺度来对计算出的聚类分数进行归一化。

基于计算出的聚类分数,自动总结器能够被配置为基于计算出的聚类分数来选择多个(例如,一个、两个、三个等)聚类,并且应用提取和/或抽象技术来生成所接收到的电子邮件的建议的总结的数量。在某些实施例中,可以例如经由用户界面输来出所生成的总结,以供用户选择作为所接收到的电子邮件的主题或总结。在其他实施例中,能够自动地选择所生成的具有最高聚类分数的总结以输出给用户,例如,经由文本到语音引擎以将所生成的总结转换为语音消息。然后,能够经由例如智能电话或者其他合适类型的计算设备向用户播放语音消息。

因此,所公开的技术的若干实施例能够经由上述分类技术有效地对电子邮件和其他类型的电子消息中的内容执行自动总结。在不受理论束缚的情况下,相信根据在所接收到的电子邮件中的决策、判断、推理和事实的层级对语句进行聚类能够有效地捕获在所接收到的电子邮件中所包含的主要主题。另外,通过考虑电子邮件和其他类型的电子消息的动态特性以及各种语句的源,能够准确地捕获在所接收到的电子邮件中所包含的相关主题并且将其呈现给用户。这样,与其他技术相比,能够改善自动总结应用和/或服务的用户体验。

附图说明

图1A和图1B是图示了根据所公开的技术的实施例的实现对电子消息中的内容的自动总结的计算系统的示意图。

图2是图示了根据所公开的技术的实施例的图1的计算系统的某些硬件/软件组件的示意图。

图3A-3C是图示了根据所公开的技术的实施例的语句聚类的示意图。

图4A-4C是图示了根据所公开的技术的实施例的对电子消息中的内容的自动总结的示例性过程的流程图。

图5是适用于图1中的计算系统的某些组件的计算设备。

具体实施方式

下文描述了用于在计算系统中对电子消息中的内容的自动总结的系统、设备、组件、模块、例程、数据结构和过程的某些实施例。在以下描述中,包括组件的具体细节以提供对所公开的技术的某些实施例的透彻理解。相关领域的技术人员还将理解,该技术能够具有额外的实施例。该技术也能够在没有以下参考图1A-5所描述的实施例的若干细节的情况下实践。

如在本文中所使用的,术语“电子邮件服务器”通常指代专用于运行被配置为接收来自发送者的传入电子邮件并且将所述传出电子邮件经由计算机网络(例如,互联网)转发给接收者的这样的应用的计算机。这样的应用的示例包括Microsoft

也如在本文中所使用的,“事实”一般指代包含被表示为具有客观现实的信息的语句。例如,示例性事实能够是“我们的系统昨晚崩溃了”的语句。“推理”一般指代包含由于已知事实或证据而形成的推理意见的语句。示例性推理能够是“代码中一定存在错误”。“判断”一般指代包含权威意见的发表的语句。示例性判断能够是“我们的系统是最差的”。“决策”一般指代包含对在考虑时和/或之后做出的行动和/或确定的调用的语句。示例性决策能够是“请联系开发团队尽快将其修复。”

提取和抽象的技术可能足以自动地总结在新闻报道、科学论文等中的文本,但是这样的技术可能不足以总结在用户之间交换的电子消息(例如,电子邮件)的内容。针对这样的不足的一种原因是电子邮件中的内容的状态会随时间而改变。例如,针对早期事件的语句现在可能不如当时那么相关。另一原因可能是电子邮件中的内容的相关性可能取决于对应电子邮件通信的上下文。例如,来自组织中的管理者的简短语句可能比由他/她的下属所发表的多条长语句更相关。

所公开的技术的若干实施例涉及实现基于上下文的自动总结以有效地执行对电子消息中的内容的自动总结。具体地,所公开的技术的各方面涉及将电子邮件正文中的个体句子(或者其部分)分类为不同类别的语句,诸如事实、推理、判断和决策。然后,在根据决策、判断、推理和事实的层级对经分类的语句进行聚类之前,能够将相关性分数分配给个体语句。然后,能够为个体聚类计算聚类分数。基于聚类分数,能够选择语句的一个或多个聚类来为电子消息生成合适的总结和/或主题,如下文参考图1A-5更详细描述的。

图1A是图示了根据所公开的技术的实施例的实现对电子消息中的内容的自动总结的计算系统100的示意图。如在图1A中所示的,计算系统100能够包括将客户端设备102与一个或多个电子邮件服务器106(在此为了简单起见被称为“电子邮件服务器106”)互连的计算机网络104。电子邮件服务器106还与包含一个或多个收件箱114的网络存储装置112以及包含分类指示符110的数据存储108互连。计算机网络104能够包括内联网、广域网、互联网或者其他合适类型的网络。尽管在图1A中示出了计算系统100的特定组件,但是在其他实施例中,计算系统100还能够包括额外的和/或不同的组件或布置。例如,计算系统100还能够包括额外的网络存储设备、额外的主机和/或其他合适的组件(未示出)。在其他实施例中,网络存储装置112和/或数据存储108可以被集成到电子邮件服务器106中。

客户端设备102能够各自包括计算设备,所述计算设备促进对应的用户101经由计算机网络104访问由电子邮件服务器106所提供的计算服务。例如,在所图示的实施例中,客户端设备102个体地包括智能电话和台式机计算机。在其他实施例中,客户端设备102还能够包括膝上型计算机、平板计算机、游戏机或者其他合适的计算设备。尽管为了例示说明的目的在图1中示出了第一用户101a和第二用户101b,但是在其他实施例中,计算系统100能够促进任意合适数量的用户101访问由电子邮件服务器106所提供的合适类型的计算服务。

电子邮件服务器106能够被配置为促进电子邮件接收、存储、转发以及其他相关功能。例如,如在图1A中所示的,第一用户101a能够利用客户端设备102直接地或者经由其他中间电子邮件服务器(未示出)来生成电子邮件116并且将其发送到电子邮件服务器106。电子邮件116被发往第二用户101b,并且能够包括电子邮件标题117、电子邮件正文118以及一个或多个可选附件(未示出)。电子邮件标题117能够包括各种字段,例如“来自:”、“发往:”、“Cc:”、“Bcc:”等。电子邮件正文118能够包括以句子、段落、部分等和/或其他合适类型的内容布置的文本。在从第一用户101a接收到电子邮件116时,电子邮件服务器106能够将电子邮件116的副本存储在与第二用户101b相对应的网络存储装置112上的收件箱114中。

如在图1A中所示的,计算系统100能够包括分类开发器130和自动总结器132,其可操作地彼此耦合,用于自动地总结在第一用户101a与第二用户101b之间交换的电子邮件116的内容。在图1A所图示的示例中,分类开发器130和自动总结器132是电子邮件服务器106的组件。在其他示例中,分类开发器130/或自动总结器132中的至少一个能够是被托管在一个或多个额外服务器(未示出)上的组件,所述一个或多个额外服务器与电子邮件服务器106分开,同时仍然可以访问在网络存储装置112处的收件箱114中的电子邮件116。

根据所公开的技术的实施例,分类开发器130能够被配置为开发一个或多个分类模型110,所述模型110可用于经由机器学习对电子邮件116中的语句进行分类。例如,分类开发器130能够被配置为通过使用被配置为通过学习已知示例“学习”或逐步改善任务的性能的“神经网络”或“人工神经网络”分析用户101的一组电子邮件来生成一个或多个分类模型110。在某些实现方式中,神经网络能够包括通常被称为“神经元”或“人工神经元”的多层对象。每个神经元能够被配置为基于经由对应连接的一个或多个输入来执行功能,诸如非线性激活功能。人工神经元和连接通常具有随着学习的进行而调整的权重值。权重值增加或减少在连接处的输入的强度。通常,人工神经元是分层组织的。不同的层可以对各自的输入执行不同类型的转换。信号通常可能在遍历一个或多个中间层之后从输入层行进到输出层。因此,通过使用神经网络,分类开发器130能够提供一个或多个分类模型,自动总结器132能够使用所述一个或多个分类模型对所接收到的电子邮件116中的语句进行分类。

自动总结器132能够被配置为利用分类模型110生成对电子邮件116中的内容的建议的总结119。然后,自动总结器132能够将建议的总结119提供给第一用户101a以供选择。第一用户101a然后能够从建议的总结119中选择总结119'。响应于所述选择,自动总结器132(或者电子邮件服务器106的其他合适的组件)能够被配置为在将电子邮件116'发送给第二用户101b之前将所选择的总结119'插入到所接收到的电子邮件116中。

如在图1A中所示的,在接收到电子邮件116'后,客户端设备102上的电子邮件客户端124能够将所接收到的电子邮件116'作为消息显示在第二用户101b的收件箱中。例如,示例性电子邮件116'能够包括包含发送者姓名(即,“Jane Doe”)的标题117、包含所选择的总结119'(例如,“项目进度总结”)的主题行、以及包含示例性文本(诸如“本周...)的电子邮件正文118。因此,第一用户101a能够利用自动生成的总结119'来有效地撰写给第二用户101b的电子邮件116。这样,即使当第一用户101a正在使用语音到文本转换来撰写电子邮件116时,或者以其他方式无法访问容易获得的打字工具时,也能够改善由电子邮件服务器106提供的电子邮件服务的可用性。

在某些实施例中,自动总结器132能够被配置为对所接收到的电子邮件116执行总结处理的第一阶段和第二阶段。总结处理的第一阶段能够包括基于模板的处理阶段。总结处理的第二阶段能够包括:基于分类模型110对电子邮件正文118中的语句进行分类、根据类别对经分类的语句进行聚类、计算聚类分数、以及选择聚类来自动地生成建议的总结119以供第一用户101选择。下文参考图2更详细地描述了自动总结器132的示例性组件和操作。

在其他实施例中,自动总结器132还能够被配置为执行其他合适的操作。例如,如在图1B中所示的,响应于由第一用户101a的选择,自动总结器132还能够被配置为将所选择的总结119'(图1A)转换为语音消息120,并且将语音消息120存储在网络存储装置112中的第二用户101b的收件箱114中。基于第二用户101b的请求或者以其他合适的方式,电子邮件服务器106能够被配置为将所生成的语音消息120提供给第二用户101b的客户端设备102。进而,客户端设备102能够被配置为经由例如扬声器103向第二用户101b播放包含所选择的总结119'的语音消息120。

图2是图示了根据所公开的技术的实施例的计算系统100的某些硬件/软件组件的示意图。在图2中,为清楚起见,仅示出了图1的计算系统100的某些组件。在图2中以及在本文的其他图中,个体软件组件、对象、类、模块和例程可以是以C、C++、C#、Java和/或其他适当的编程语言编写为源代码的计算机程序、过程或进程。组件可包括但不限于:一个或多个模块、对象、类、例程、属性、进程、线程、可执行文件、库或者其他组件。组件可以是源或二进制形式。组件可以包括编译之前的源代码的各方面(例如,类、属性、过程、例程)、经编译的二进制单元(例如,库、可执行文件)、或者在运行时实例化和使用的工件(例如,对象、进程、线程)。

系统内的组件可以在系统内采取不同的形式。作为一个示例,包括第一组件、第二组件和第三组件的系统能够并非限制地涵盖第一组件是源代码中的属性、第二组件是二进制编译库以及第三组件是在运行时创建的线程的系统。计算机程序、过程或进程可以被编译成对象、中间或机器代码并且呈现以供个人计算机、网络服务器、膝上型计算机、智能电话和/或其他合适的计算设备的一个或多个处理器来执行。

同样地,组件可以包括硬件电路。本领域普通技术人员将认识到,硬件可以被认为是石化软件,而软件可以被认为是液化硬件。仅作为一个示例,组件中的软件指令可以被烧制到可编程逻辑阵列电路中,或者可以被设计为具有适当集成电路的硬件电路。同样地,硬件可以由软件来模拟。源代码、中间代码和/或目标代码以及相关联数据的各种实现方式可以被存储在计算机存储器中,包括只读存储器、随机存取存储器、磁盘存储介质、光存储介质、闪存设备和/或其他合适的计算机可读存储介质,不包括传播信号。

如在图2中所示的,电子邮件服务器106能够包括分类开发器130和自动总结器132。尽管分类开发器130和自动总结器132在图2中被示为电子邮件服务器106的组件,但是在其他实施例中,分类开发器130能够由与电子邮件服务器106分开的一个或多个其他在线或离线服务器(未示出)提供。在另外的实施例中,电子邮件服务器106能够包括在图2中未示出的额外的和/或不同的组件。

分类开发器130能够被配置为基于包含先前电子邮件116”和相关联的语句类122以及关于建议的总结的用户输入115的数据集经由各种机器学习技术来生成分类模型110。语句类122能够手动地生成、经由非结构化学习而自动地生成、或者经由其他合适的技术来生成。在一种实现方式中,分类开发器130能够被配置为使用包括多层对象的神经网络,所述多层对象通常被称为“神经元”或“人工神经元”,以基于电子邮件116”的数据集来执行机器学习,如上文参考图1A所描述的。通过使用神经网络,分类开发器130能够提供一组分类模型110,自动总结器132能够使用所述一组分类模型110对额外的接收到的电子邮件116进行分类。在一个示例中,分类模型110能够包括与电子邮件正文118相关的变量的各种值。示例性变量能够包括关键字或关键短语(例如,“可能”、“必须是”等)、语法(例如,名词和形容词之前的动词)、句子结构(例如,主语后跟动词和名词)以及其他合适的内容参数。这样,一个示例性分类模型110能够包括以在任何名词之前具有动词的句子为条件的决策的指示(例如,“请联系开发团队尽快将其修复”)。在其他示例中,分类模型110能够具有其他合适的条件和指示。在所图示的实施例中,分类开发器130提供分类模型110以存储在数据存储108中。在其他实施例中,分类开发器130能够直接向自动总结器132提供分类模型110或者将分类模型110存储在其他合适的位置中。

如在图2中所示的,自动总结器132能够包括彼此操作耦合的模板处理器133、分类器134、聚类生成器136、总结生成器138和反馈处理器139。尽管出于例示说明的目的在图2中示出了自动总结器132的特定组件或模块,但是在其他实施例中,自动总结器132还能够包括接口、网络或者其他合适类型的组件和/或模块。在其他实施例中,上述组件中的至少一个组件能够由与自动总结器132分开的外部应用/服务器提供。

在某些实施例中,在总结处理的第一阶段处,自动总结器的模板处理器133能够被配置为确定来自第一用户101a的所接收的电子邮件116是否是模板化消息。在不受理论束缚的情况下,相信在企业、政府办公室、学校或者其他合适类型的组织中交换的电子邮件常常是模板化消息。示例性模板化消息能够包括与外出(OOF)、事假、在家工作(WFH)、会议邀请、自动响应、状态更新、欢迎辞、会议备忘等相关的消息。在一种实现方式中,模板处理器133能够被配置为经由机器学习使用例如具有电子邮件116”的训练数据集来检测这样的模板化消息。在其他实现方式中,模板处理器133还能够被配置为使用由管理员(未示出)所提供的预先配置的消息模板或者经由其他合适的技术来检测这样的模板化消息。

模板处理器133能够被配置为使用预先配置的总结模板来有效地总结模板化消息。例如,针对OOF消息的总结模板能够包括“[发送者]从[日期/时间1]到[日期/时间2]为OOF”,其中,括号内的参数(例如,“发送者”)表示变量。在确定所接收到的电子邮件是OOF消息后,模板处理器133能够被配置为通过例如识别在所接收到的电子邮件的标题中的“来自”字段中的名称(例如,“Anand”)来提取[发送者]的值。模板处理器133还能够被配置为基于例如在所接收到的电子邮件中的文本的格式来识别第一日期/时间(例如,“2018年12月11日”)和第二日期/时间(例如,“2018年12月31日”)。模板处理器133能够被配置为随后通过将所识别出的发送者和日期/时间替代总结模板来撰写总结119,如“Anand从2018年12月11日到2018年12月31日为OOF”。

当确定所接收到的电子邮件116不是模板化消息时,模板处理器133能够被配置为将处理转发到分类器134以至少基于所接收到的电子邮件116的电子邮件正文118中的内容来执行总结处理的第二阶段。在一个示例性实现方式中,分类器134能够被配置为从电子邮件主体118初始地提取实体值(例如,发送者姓名、(一个或多个)接收者姓名、发送/接收日期/时间等)以及文本或其他合适类型的内容。分类器134能够被配置为然后基于来自数据存储108的一个或多个分类模型110对来自电子邮件正文118的内容进行分解以将电子邮件正文118中的个体句子(或者其部分)分类为不同类别的语句。在某些实施例中,语句的示例性类别能够包括事实、推理、判断和决策。例如,事实的语句能够是“我们的系统昨晚崩溃了”的语句。推理的语句能够是“代码中一定存在错误”。判断的语句能够是“我们的系统是最差的”,并且决策的语句能够是“请联系开发团队尽快将其修复”。在其他实施例中,自动总结器还能够将电子邮件分类为真相、证据、推理、请求或者其他合适类型的类别。

在完成对所接收到的电子邮件116的电子邮件正文118中的内容的分解后,分类器134能够被配置为基于做出语句的实体、语句的新近度和/或其他适当的标准来为每个分类的语句分配相关性分数。例如,分类器134能够被配置为通过查阅组织图、人的职位等,基于他/她在组织中的职位来确定由该人所做的语句的相关性分数。这样,由管理者所做的语句能够比他/她的下属所做的那些语句具有更高的相关性分数。例如,在图2中所示的示例中,被示为第一用户101a的下属的第二用户101b和其他用户101n的语句将具有比由第一用户101a所做的那些语句更低的相关性分数。在其他示例中,分类器134能够被配置为向更新近所做的语句分配比之前所做的另一语句更高的相关性分数。在额外的示例中,分类器134能够被配置为基于语句的主题或者其他合适的标准来分配所述相关分数。

自动总结器132还能够被配置为基于例如根据类别的层级的语句的相对接近度通过使用聚类生成器136对语句进行聚类来确定事实、推理、判断和决策的语句的上下文。例如,接近决策的事实、推理和判断的语句能够围绕所述决策进行聚类,而接近另一决策的事实、推理和判断的其他语句能够围绕其他决策进行聚类。在某些实施例中,接近度能够基于预设的接近度阈值,例如字符、词语、句子等的数量。在其他实施例中,接近度阈值能够基于句法结构,诸如标点符号、段落、小节等。在另外的实施例中,接近度阈值能够基于其他合适的标准。

在某些场景下,所接收到的电子邮件可能不包含被分类为决策的任何语句。在这样的场景下,聚类生成器136能够被配置为根据从决策、判断、推理到事实的类别的层级对所接收到的电子邮件116中的语句进行聚类。例如,当在所接收到的电子邮件中不存在决策的语句时,能够围绕判断的一个或多个语句执行聚类。当不存在决策或判断的语句时,能够围绕推理的一个或多个语句执行聚类。当所接收到的电子邮件仅包含事实的语句时,自动总结能够基于个体事实。以下参考图3A-3C更详细地描述了示例性聚类140(在图3A-3C中示出的)。

一旦语句被聚类,聚类生成器136就能够被配置为基于在每个聚类中的个体语句的分配的相关性分数来计算针对个体聚类140的聚类分数。在一个示例中,聚类分数能够是被分配给属于所述聚类的语句的所有相关性分数的总和。在另一示例中,所述聚类分数能够是被分配给属于所述聚类的语句的所有相关性分数的总和,并且基于语句的年龄、语句所针对的接收者的数量或者个体语句的其他合适的参数而有偏差。在前述示例中的任意示例中,能够基于例如零到一百或者其他合适的值范围的尺度来对计算出的聚类分数进行归一化。

基于计算出的聚类分数,聚类生成器136能够被配置为基于计算出的聚类分数(或者其他适当的标准)排序并且选择多个(例如,一个、两个、三个等)聚类140,并且将所选择的聚类140转发给总结生成器138以供进一步处理。总结生成器138能够被配置为应用提取和/或抽象技术来生成所接收到的电子邮件116的多个建议的总结119。在某些实施例中,能够例如经由用户界面(未示出)输出所生成的总结119,以供用户选择作为所接收到的电子邮件116的主题或总结。在其他实施例中,能够自动地选择所生成的具有最高聚类分数的总结119以用于输出给第一用户101a,例如,经由文本到语音引擎以将所生成的总结转换为语音消息120(在图1B中示出)。然后,能够经由例如智能电话或者其他合适类型的计算设备向用户101播放语音消息120。在另外的实施例中,在用户101选择建议的总结119之一后,总结生成器138能够将所选择的总结119插入到在网络存储装置112处的收件箱114处存储的电子邮件116中。在某些实现方式中,反馈处理器139能够被配置为接收关于建议的总结119的相关性的用户输入115。响应于接收到用户输入115,分类器134能够被配置为将相关性分数重新分配给每个分类的语句;总结生成器138能够重新生成建议的总结,或者在自动总结器132中执行其他合适的操作。

所公开的技术的若干实施例因此能够经由前述分类技术有效地执行对电子邮件116和其他类型的电子消息中的内容的自动总结。在不受理论束缚的情况下,相信根据在所接收到的电子邮件116中的决策、判断、推理和事实的层级对语句进行聚类能够有效地捕获被包含在所接收到的电子邮件中的主要主题。另外,通过考虑电子邮件116和其他类型的电子消息的动态特性以及各种语句的来源,能够准确地捕获在所接收到的电子邮件中所包含的相关主题并且将其显示给用户。例如,能够随着新对话被添加、新用户101被添加或移除,而改变所生成的总结。基于相同电子邮件的所生成的总结也能够基于查找所生成的总结的人而变化。例如,管理者对所生成的总结的看法可能与管理者的任何下属的看法不同。这样,与其他技术相比,能够改善自动总结应用和/或服务的用户体验。

图3A-3C是图示了根据所公开的技术的实施例的语句聚类的示意图。如在图3A中所示的,聚类140能够包括决策141和一个或多个事实142a和142b、推理144以及与决策141相关联的判断146,如由边143所表示的。如上文参考图1A所描述的,当电子邮件正文118不包括任何决策141时,能够基于判断146来生成聚类140,如在图3B中所示的。当电子邮件正文118不包括任何决策141或判断146时,能够基于推理144来生成聚类140,如在图3C中所示的。尽管为了例示说明的目的在图3A-3C中示出了特定数量的决策、判断、推理和事实,但是在其他示例中,每个聚类140能够包括被任意合适数量的其他类别的语句围绕的决策、判断或推理之一。

图4A-4C是图示了根据所公开的技术的实施例的对电子消息中的内容的自动总结的示例性过程的流程图。尽管下文参考图1A和图1B的计算系统100描述了所述过程,但是在其他实施例中,所述过程也能够在具有额外和/或不同组件的计算系统中实现。

如在图4A中所示的,过程200能够包括在阶段202处接收电子邮件。过程200然后能够包括决策阶段204以确定所接收到的电子邮件是否是模板化消息。在一个实施例中,所述确定能够基于使用机器学习开发的模板模型。在其他实施例中,所述确定还能够基于由例如管理者或者其他合适的实体提供的消息模板。响应于确定所接收到的电子邮件是模板化消息,过程200能够在阶段206处继续基于总结模板来生成所接收到的电子邮件的总结。在一些实施例中,生成总结能够包括识别实体特定总结模板。例如,销售部门可能具有与财务部门不同的总结模板。下文参考图4B更详细地描述了基于总结模板生成总结的示例性操作。响应于确定所接收到的电子邮件不是模板化消息,过程200能够继续在阶段208处执行基于分类的总结处理。下文参考图4C更详细地描述执行基于分类的总结处理的示例性操作。过程200还能够可选地包括在阶段211处学习新的总结模板。新的总结模板能够基于来自阶段210或者来自其他合适的源的所生成的总结。然后,新的总结模板能够被用于在阶段206中基于总结模板来生成总结。

如在图4B中所示的,基于总结模板生成总结的示例性操作能够包括在阶段212处识别与所接收到的电子邮件相对应的总结模板。在某些实施例中,识别所述总结模板能够包括确定是否存在任何用户或实体特定的模板。响应于确定存在用户或模板实体。如果存在用户或实体总结模板,则操作能够识别和/或选择用户或实体特定的总结模板。否则,操作能够包括识别或选择通用总结模板。然后,操作能够包括在阶段214处从所接收到的电子邮件中提取模板值。示例性提取出的模板值能够包括发送者的姓名、日期/时间、位置或者其他合适的信息。然后,操作能够包括将所提取出的模板值插入到所识别出的总结模板中,以在阶段216生成对电子邮件的总结。在某些实现方式中,总结模板能够是基于用户简档的。例如,能够将电子邮件识别为与模板“请假申请”相对应。如果用户具有提供电子邮件的主题行的特定方式,则生成所述总结能够包括使用用户在电子邮件中所使用的主题行构造来生成总结。操作还能够包括在阶段217处接收关于所生成的总结的用户反馈。基于所接收到的用户反馈,操作能够包括在阶段212处将所识别出的总结模板指定为用户或实体特定的总结模板,或者执行其他合适的操作来探索新的用户或者实体特定的总结模板。

如在图4C中所示的,执行基于分类的总结处理的示例性操作能够包括在阶段218处基于主题或者其他合适的属性聚合电子邮件的可选阶段。例如,能够使用向量化或者电子邮件/对话片段将具有相似对话的电子邮件分组在一起。操作还能够包括在阶段220处对电子邮件正文中的语句进行分类。上文参考图2描述了用于对语句进行分类的示例性技术。然后,操作能够包括在阶段222处为每个分类的语句分配相关性分数。然后,操作能够包括在阶段224对经分类的语句进行聚类。上文参考图3A-3C描述了示例性聚类。然后,操作能够包括在阶段226处计算针对每个聚类的聚类分数,并且基于计算出的分数、聚类中的电子邮件的新近度或者组织中的电子邮件的作者的用户简档中的一个或多个来对聚类进行排名。这样的聚类排名能够被用于选择要被包含在最终总结中的前五名、前三名或者其他合适数量的聚类。操作还能够包括在阶段228处生成一个或多个所选择的聚类的总结,如上文参考图2所描述的。操作还能够包括在阶段230处收集关于所生成的总结的用户反馈。然后,能够使用所收集到的用户反馈分别在阶段226和阶段227处调整聚类分数和/或聚类排名。

图5是适用于在图1中的计算系统100的某些组件的计算设备300。例如,计算设备300能够适用于图1A的电子邮件服务器106或客户端设备102。在非常基本的配置302中,计算设备300能够包括一个或多个处理器304和系统存储器306。存储器总线308能够被用于在处理器304与系统存储器306之间进行通信。

取决于期望的配置,处理器304能够是任意类型,包括但不限于:微处理器(μR)、微控制器(μC)、数字信号处理器(DSP)或者其任意组合。处理器304能够包括一个多级高速缓存(诸如一级高速缓存310和二级高速缓存312)、处理器核心314和寄存器316。示例性处理器核心314能够包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核心(DSP核心)或者其任意组合。示例性存储器控制器318也能够与处理器304一起使用,或者在一些实现方式中,存储器控制器318能够是处理器304的内部部分。

取决于所需的配置,系统存储器306能够是任意类型,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者其任意组合。系统存储器306能够包括操作系统320、一个或多个应用322和程序数据324。该描述的基本配置302由内部虚线内的那些组件图示出。

计算设备300能够具有额外特征或功能以及额外接口以促进在基本配置302与任何其他设备和接口之间的通信。例如,总线/接口控制器330能够被用于促进经由存储接口总线334在基本配置302与一个或多个数据存储设备332之间的通信。数据存储设备332能够是可移动存储设备336、不可移动存储设备338或者其组合。可移动存储设备和不可移动存储设备的示例包括:磁盘设备,诸如软盘驱动器和硬盘驱动器(HDD),光盘驱动器,诸如光盘(CD)驱动器或数字通用磁盘(DVD)驱动器,固态驱动器(SSD)和磁带驱动器等。示例性计算机存储介质能够包括以用于存储信息(例如,计算机可读指令、数据结构、程序模块或者其他数据)的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。术语“计算机可读存储介质”或“计算机可读存储设备”不包括传播信号和通信介质。

系统存储器306、可移动存储设备336和不可移动存储设备338是计算机可读存储介质的示例。计算机可读存储介质包括但不限于:RAM、ROM、EEPROM、闪存或者其他存储技术、CD-ROM、数字多功能磁盘(DVD)或者其他光存储设备、盒式磁带、磁带、磁盘存储或者其他磁存储设备,或者能够被用于存储所需的信息并且能够由计算设备300访问的任何其他介质。任何这样的计算机可读存储介质都能够是计算设备300的一部分。术语“计算机可读存储介质”不包括传播信号和通信介质。

计算设备300还能够包括接口总线340,其用于促进从各种接口设备(例如,输出设备342、外围接口344和通信设备346)经由总线/接口控制器330到基本配置302的通信。示例性输出设备342包括图形处理单元348和音频处理单元350,其能够被配置为经由一个或多个A/V端口352与各种外部设备通信,诸如显示器或扬声器。示例性外围接口344包括串行接口控制器354或并行接口控制器356,其能够被配置为经由一个或多个I/O端口358与诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备等)或者其他外围设备(例如,打印机、扫描仪等)的外部设备通信。示例性通信设备346包括网络控制器360,其能够被布置为促进经由一个或多个通信端口364在网络通信链路上与一个或多个其他计算设备362进行通信。

网络通信链路能够是通信介质的一个示例。通信介质通常能够由计算机可读指令、数据结构、程序模块或者经调制的数据信号中的其他数据来体现,诸如载波或者其他传输机制,并且能够包括任何信息传递介质。“经调制的数据信号”能够是以编码信号中的信息的方式设置或改变其一个或多个特性的信号。通过示例而非限制,通信介质能够包括诸如有线网络或直接有线连接的有线介质,以及诸如声学、射频(RF)、微波、红外(IR)以及其他无线介质的无线介质。如在本文中所使用的术语“计算机可读介质”能够包括存储介质和通信介质两者。

计算设备300能够被实现为小形状因子便携式(或移动式)电子设备的一部分,诸如手机、个人数据助理(PDA)、个人媒体播放器设备、无线网络观看设备、个人耳机设备、特定应用设备或者包含上述任何功能的混合设备。计算设备300也能够被实现为包括膝上型计算机和非膝上型计算机配置两者的个人计算机。

根据前述内容,将意识到本公开的特定实施例已经在本文中描述用于说明的目的,但是在不背离本公开的情况下可以进行各种修改。另外,一个实施例的许多要素可以与其他实施例进行组合,以补充或代替其他实施例的要素。因此,本技术不受除了所附的权利要求之外的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号