首页> 中国专利> 确定交谈主题并获取和呈现相关内容的方法和系统

确定交谈主题并获取和呈现相关内容的方法和系统

摘要

公开了一种确定交谈主题并获取和呈现相关内容的方法和系统。所公开的系统在正在进行的交谈中提供了“创造性激励者”的作用。该系统从交谈中提取关键词并利用关键词确定所讨论的主题。随后所公开的系统根据交谈主题进行搜索以获取补充内容。内容随后可被呈现给交谈中的参与方作为他们讨论的补充。还公开了一种确定文档主题的方法,文档包括音轨转录、报纸文章和期刊论文。

著录项

  • 公开/公告号CN1910654A

    专利类型发明专利

  • 公开/公告日2007-02-07

    原文格式PDF

  • 申请/专利权人 皇家飞利浦电子股份有限公司;

    申请/专利号CN200580002763.9

  • 申请日2005-01-17

  • 分类号G10L15/26(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人程天正;刘杰

  • 地址 荷兰艾恩德霍芬

  • 入库时间 2023-12-17 18:16:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-03-12

    未缴年费专利权终止 IPC(主分类):G10L15/26 授权公告日:20120125 终止日期:20130117 申请日:20050117

    专利权的终止

  • 2012-01-25

    授权

    授权

  • 2007-04-04

    实质审查的生效

    实质审查的生效

  • 2007-02-07

    公开

    公开

说明书

技术领域

本发明涉及对内容的分析、搜索和检索,特别涉及一种获取和呈现与正在进行中的交谈相关的内容。

背景技术

在探求新奇而富有创造性的想法时,专业人士总是希望在一种通过互相激励产生新联想的环境中进行头脑风暴活动并以不同的方式去思考问题,从而形成新的视角和想法。人们尝试着在一种受激环境下互相交流和作深入的思考,即使是在闲暇的活动期间。在所有这些情况下,在参与交谈的人中有一个富有创造力的激励者是有用的,因为他对交谈主题有着深入的了解并且能够通过引入新奇的联想而将讨论引向新的方向。在当今的网络世界,如果有一个智能网络能够担当起创造性激励者的角色,则同样也是有价值的。

为此,该智能网络需要对交谈进行监视,并且无需参与者们明确输入就能够理解正在讨论的主题。该系统根据交谈搜索和检索能够启发新的讨论方向的内容和信息,包括有关的词语和主题。这种系统适合于各种场合,包括起居室、列车、图书馆、会议室和等候室。

发明内容

公开了一种方法和系统,用于确定交谈的主题并且获取和呈现与该交谈相关的内容。所公开的系统在正在进行的交谈中起着“创造性激励者”的作用。该系统从交谈中提取关键词并且利用关键词来确定讨论的主题。所公开的系统随后在一个智能的网络化环境内进行搜索操作,以根据交谈的主题获得内容。内容作为讨论的补充被呈现给交谈中的参与者们。

还公开了一种用于确定文本文档主题的方法,文本文档包括音轨转录(transcript)、报纸文章和期刊论文。主题确定方法利用从文本中提取的关键词和词干(wordstem)的上位词树来识别上位词(hypernym)树中两个或更多的被提取词的共同亲本(common parent)。随后利用选定的共同亲本的下位词(hyponym)树来确定对关键词覆盖度最高的共同亲本。这些共同亲本随后被选择代表文档的主题。

附图说明

参照下列详细描述和附图将对本发明及其进一步的特征和优点有更为全面的理解。

图1示出了一个专家系统,用于获取和呈现作为所进行交谈的补充的内容;

图2为图1专家系统的示意性框图;

图3为流程图,描述了图2专家系统过程的示例性实现方式,其包含了本发明的特征;

图4为流程图,描述了主题寻找过程的示例性实现方式,其包含了本发明的特征;

图5A示出了交谈的转录;

图5B示出了图5A转录的关键词集合;

图5C示出了图5B的关键词集合的词干;

图5D示出了图5C的词干的上位词树部分;

图5E示出了图5D的上位词树的共同亲本和层-5亲本;以及

图5F示出了图5D的被选定的层-5亲本的上位词树的变平(flattened)部分。

具体实施方式

图1示出了示例性的网络环境,下面结合图2所述的包含本发明特征的专家系统200可在其中运行。如图1所示,两个人采用电话设备105、110经网络(例如公用电话交换网(PSTN)130进行通信。按照本发明的一个方面,专家系统200从参与方105、110之间的交谈中提取关键词,并根据提取的关键词确定交谈的主题。虽然在示例性实施例中参与方经网络进行通信,但是作为替换方式,参与方也可位于同一位置,对于本领域内的普通技术人员来说,这是显而易见的。

按照本发明的另一方面,专家系统200可以识别呈现给参与方105、110中的一个或多个的补充信息,从而提供附加的信息,活跃参与方105、110的思维或者鼓励对新主题进行讨论。专家系统200可以利用识别的交谈主题搜索补充的内容,这些内容例如存储在网络环境内(例如因特网)160或本地数据库155。补充内容随后被呈现给参与方105、110以补充他们的讨论。在示例性的实现方式中,由于交谈只以口头方式体现,因此专家系统200以音频信息的形式(包括语音、声音和音乐)呈现内容。但是利用显示设备,内容也可以例如以文本、视频或图像的形式呈现给用户,对于本领域内的普通技术人员来说这是显而易见的。

图2为包含本发明特征的专家系统200的示意框图。正如本领域内所公知的那样,这里讨论的方法和装置可以作为本身包含计算机可读介质的制品(article of manufacture)发布,该计算机可读介质包含在其上体现的计算机可读代码装置。计算机程序代码装置可以与计算机系统(例如中央处理单元201)相结合来执行全部或部分步骤,以实现这里所述的方法或构成这里所述的装置。计算机可读介质可以是可记录介质(例如软盘、硬盘、压缩盘或存储器卡),或者可以是传输介质(例如包含光纤的网络、万维网160、电缆或利用时分多址、码分多址或其它射频信道的无线信道)。可以采用任何已知或研制出来的可存储适于由计算机系统使用的信息的介质。计算机可读代码装置是使得计算机可以读取指令和数据的任何机制,例如磁介质上的磁性变化或压缩盘表面的高度变化。

存储器202将把处理器201配置为实现此处公开的方法、步骤和功能。存储器202可以是分布式的或本地的,并且处理器201可以是分布式的或单个的。存储器202的实现方式可以是电的、磁的或光学的存储器,或者这些或其它类型存储设备的任何组合。术语“存储器”的解释应当足够的宽泛,即包含任何能够从一个地址读取或向一个地址写入的信息,该地址位于由处理器201访问的可寻址空间内。

如图2所示,专家系统200包含下面结合图3描述的专家系统过程300、语音识别系统210、关键词提取器220、下面结合图4描述的主题发现器过程400、内容发现器240、内容呈现器250和关键词与树数据库260。专家系统过程300一般从交谈中提取关键词,利用关键词确定所讨论的主题并根据交谈的主题识别补充内容。

语音识别系统210以已知的方式捕获一个或多个参与者105、110的交谈并将音频信息转换为完整或不完整转录形式的文本。如果交谈中的参与者105、110位于同一地理区域并且参与者105、110的语音在时间上是重叠的,则语音的识别可能比较困难。在一种实现方案中,可以采用波束形成(beam-forming)技术,该技术利用话筒阵列(未画出),通过拾取每个参与者105、110的单独的语音信号来改进语音的识别。作为一种替换方式,每个参与者105、110可以佩戴一个小型话筒以拾取每个发言者的话音。如果交谈的参与者105、110位于分离的区域,则无需使用话筒阵列或小型话筒就可以完成语音的识别。专家系统200可以采用一个或多个语音识别系统210。

关键词提取器220按照已知的方式,从每个参与者105、110的音轨转录中提取关键词。当提取每个关键词时,可选择用说出该关键词的时间为该关键词加上时间戳。(替换方式为用识别或提取该关键词的时间为该关键词加上时间戳)。时间戳可用于将发现的内容与包含关键词的交谈部分相关联。

如下面结合图4所作的进一步描述那样,主题发现器400利用语言模型,从提取自交谈的一个或多个关键词中导出一个主题。内容发现器240利用主题发现器400发现的交谈主题来搜索内容知识库,内容知识库包括本地数据库155、万维网160、电子百科全书、用户个人媒体收藏,或者可选择有相关信息和内容的无线和电视频道(未画出)。在一个替换的实施例中,内容发现器240能够直接利用关键词和/或词干进行搜索。例如可采用诸如Google.com之类的万维网搜索引擎对包含与交谈相关的信息的网站进行广泛的搜索。同样,可以搜索相关的关键词或相关的主题并送至内容呈现系统以向交谈的参与者呈现。还可以维护和呈现关键词、相关的关键词、主题和相关的主题的历史记录。

内容呈现系统250以各种形式呈现内容。例如在电话交谈中,内容呈现系统250将呈现一段音轨。在另一个实施例中,内容呈现系统250可呈现其它类型的内容,包括文本、图形、图像和视频。在本实例中,内容呈现系统250利用一种音调通知交谈中的参与者105、110有新内容可用。参与者105、110随后借助输入机制(例如语音命令或电话机的双音多频(DTMF)音调)通知专家系统200呈现(播放)该内容。

图3为描述专家系统过程300示例性实现方式的流程图。如图3所示,专家系统过程300进行语音识别以生成交谈的转录(步骤310),从所述转录中提取关键词(步骤320),通过以下面结合图4所述的方式分析被提取的关键词来确定交谈的主题(步骤330),根据交谈主题搜索智能网络化环境160中获得的补充内容(步骤340),并且向交谈的参与者105、110呈现所发现的内容(步骤350)。

例如,如果参与者105、110正在讨论天气,则系统200可通过呈现天气预报信息来活跃参与者105、110的思路,或者将呈现过去的天气信息;如果他们正在讨论去澳大利亚的休假计划,系统200可呈现有关澳大利亚的照片和自然声音;以及如果他们只是讨论晚餐吃什么,则系统200可将主菜的图片连同菜谱呈现出来。

图4为描述主题发现器过程400的示例性实现方式的流程图。一般而言,主题发现器400确定各种内容(包括口头交谈的转录)的主题、基于文本的对话(例如即时通信)、演讲和报纸文章。如图4所示,主题发现器400开始时从一个或多个关键词构成的集合中读取关键词(步骤410)并随后确定每个选定关键词的词干(步骤420)。在步骤422,进行检测以确定是否找到选定关键词的词干。如果在步骤422中确定未找到词干,则进行检测以确定是否对选定关键词的所有单词类型都作了核查(步骤424)。如果在步骤424中确定已经对给定关键词的所有单词类型都作了核查,则读取新的关键词(步骤410)。如果在步骤424中确定未核查所有的单词类型,则将选定关键词的单词类型改变为不同的单词类型(步骤426),并且对新的单词类型重复步骤420。

如果词干检测(步骤422)确定发现选定关键词的词干,则将该词干加入词干列表(步骤427),并进行检测以确定是否读取了所有的关键词(步骤428)。如果在步骤428中确定未读取所有的关键词,则重复步骤410;否则过程进行到步骤430。

在步骤430中,确定词干集内所有单词的所有含义(语义学含义)的上位词树。上位词是总称术语,用来指定特例所属的类别,即,如果X是Y的一种,则Y就是X的上位词。例如“小汽车”是一种“交通工具”,因此“交通工具”就是“小汽车”的上位词。上位词树是由一个单词的所有上位词构成的树,这些上位词在分层结构中一直排列到最高层,并包括单词本身。

随后在步骤440中,在所有的上位词树对之间进行比较以寻找分层结构中处于指定层(或更下层)的共同亲本。共同亲本是一个上位词树中对于关键词集合中的两个或更多单词的第一个相同的上位词。需要指出的是,例如一个层-5亲本是一个在分层结构中处于第五层的条目(entry),也即在分层结构中从最高层向下四个阶梯,该亲本是一个共同亲本的上位词或者一个共同亲本本身。被选作指定层的层应当具有适当的抽象程度,以使主题不是太具体从而导致找不到相关的内容,也不能太抽象从而导致发现的内容与交谈不相关。在本实施例中,选择层-5作为分层结构中的指定层。

随后为所有共同的亲本进行搜索以找到相应的层-5亲本(步骤450)。随后确定层-5亲本所有含义的下位词树(步骤460)。下位词是一个具体化术语,用来指定一个类别X内的一个成员。如果X是Y的一种,则X就是Y的下位词,即,“小汽车”是一种“交通工具”,因此“小汽车”就是“交通工具”的下位词。下位词树是由一个单词的所有下位词构成的树,这些下位词在分层结构中一直排列到最底层,并包括单词本身。对于每个下位词树,统计对下位词树和关键词集合都是共同的单词的数量(步骤470)。

随后在步骤480中,编辑其下位词树覆盖(包含)词干集合中两个以上单词的层-5亲本的列表。最后,选择覆盖程度最高(包含词干集合中最多的单词)的一个或两个层-5亲本(步骤490)来代表交谈的主题。在主题发现器过程400的一个替换实施例中,如果对于用来选择先前主题的关键词的含义存在共同的亲本,则步骤440和/或步骤450可以忽略未被用来选择基于关键词的特定含义的主题的关键词含义的共同亲本。这将避免不必要的处理并使主题的选择更为稳定。

在第二替换实施例中,略过步骤450-480,并且步骤490根据先前主题的共同亲本和步骤440中发现的共同亲本来选择主题。同样,在第三替换实施例中,略过步骤450-480,并且步骤490根据先前的主题和步骤440中发现的共同亲本选择主题。在第四替换实施例中,略过步骤460-480,并且步骤490根据步骤450中确定的所有特定层亲本选择主题。

例如考虑图5A中来自交谈的转录的句子510。图5B示出了该句子的关键词集合520{计算机/N,列车/N,交通工具/N,小汽车/N},这里的/N表示在前的单词是名词。对于该关键词集合,将确定词干530{计算机/N,列车/N,交通工具/N,小汽车/N}(步骤420;步骤5C)。随后确定上位词树540(步骤430),图5D示出了其中的一部分。对于该实例,图5E示出了在前两个域内列出的树对的共同亲本550和层-5亲本555,而图5F示出了层-5亲本{设备}和{运输工具,运输}的下位词树分别的变平(flattened)部分560、565。

在本实例中,{设备}的下位词树内也属于该词干集合的单词的数量确定为有两个:“计算机”和“列车”。同样,{运输工具,运输}的下位词树内也属于该集合的单词的数量确定为有三个:“列车”、“交通工具”和“小汽车”。因此{设备}的覆盖程度为1/2;{运输工具,运输}的覆盖程度为3/4。在步骤480,两个层-5亲本都予以报告,并且由于{运输工具,运输}具有最大的相关单词计数,因此设定其为主题(步骤490)。

内容发现器240随后以已知方式,根据该交谈主题{运输工具,运输}在本地数据库155或智能网络化环境160内搜索内容。例如可以请求谷歌(google)因特网搜索引擎利用交谈中发现的主题或主题的组合进行全球搜索。随后将找到的内容列表和/或内容本身送至内容呈现系统250以向参与者105、110呈现。

内容呈现系统250以主动或被动方式向参与者105、110呈现内容。在主动模式下,内容呈现系统250打断交谈以呈现内容。在被动模式下,内容呈现系统250提醒参与者105、110有可用的内容。参与者105、110随后可以按应需(on-demand)方式访问内容。在本实例中,内容呈现系统250借助音调提醒电话交谈中的参与者105、110。参与者105、110随后利用电话键盘产生的DTMF信号选择需呈现的内容并指定呈现的时间。内容呈现系统250随后就会在指定时间播放所选定的音轨。

应当理解的是,这里所示和所述的实施例仅用于阐释本发明的原理,本领域内技术人员可以在不偏离本发明范围和精神的前提下作出各种修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号