首页> 中国专利> 提供文本阅读器的信息

提供文本阅读器的信息

摘要

一种用于基于文本文档提供数字信息的方法,包括:使用第一自然语言分析为文本文档的至少第一章节生成指示第一章节的主题的第一主题数据,使用第一主题数据执行数字信息的第一搜索,第一搜索提供第一搜索结果,将第一搜索结果链接至第一章节,并且在请求时显示第一搜索结果。

著录项

  • 公开/公告号CN104428769A

    专利类型发明专利

  • 公开/公告日2015-03-18

    原文格式PDF

  • 申请/专利权人 索尼公司;

    申请/专利号CN201380037264.8

  • 发明设计人 威廉·哈格;托马斯·克姆普;

    申请日2013-06-06

  • 分类号G06F17/30;G06F17/22;G06F1/16;

  • 代理机构北京康信知识产权代理有限责任公司;

  • 代理人余刚

  • 地址 日本东京

  • 入库时间 2023-12-17 06:30:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-04-06

    授权

    授权

  • 2015-06-10

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130606

    实质审查的生效

  • 2015-03-18

    公开

    公开

说明书

技术领域

本公开内容涉及一种用于基于文本文档提供数字信息的方法。此外, 本公开内容涉及一种数据处理装置、一种计算机程序,且涉及一种适用于 执行该方法的非暂存性计算机可读介质。

背景技术

已知与用于将文本显示给用户的显示器结合地使用电子数据处理设 备。例如,用户在所谓的“电子书阅读器”设备上而非印刷媒体上阅读文 本(例如,书籍和杂志)正变得日益流行。同样地,用户使用桌上型电脑、 膝上型电脑、或者平板电脑从互联网下载文本并且在与计算机通信或者内 置于计算机中的显示设备上阅读文本变得越来越流行。如果有兴趣获得与 文本有关的进一步信息,则用户可以使用(例如)搜索引擎来输入查询更 多信息。

在此所提供的〝背景〞说明是用于一般性地呈现本发明的背景之目 的。在此背景章节,以及在申请时可能不被认定为现有技术的说明观点中 所述范围内的目前所指名发明人的著述,并未被明确地或暗示地认可作为 相对本发明的现有技术。

发明内容

本发明的目的是提供一种增强用户阅读体验的方法。

通过根据独立权利要求的一种方法、数据处理装置、计算机程序、以 及非暂存性计算机可读介质实现了此目的。

一种用于基于文本文档提供数字信息的方法,包括:针对文本文档的 至少第一章节(passage,片段),使用第一自然语言分析(natural language  analysis,自然语言分析法)生成指示第一章节的主题的第一主题数据;使 用第一主题数据执行关于数字信息的第一搜索,第一搜索提供第一搜索结 果;将第一搜索结果链接至第一章节;并且经请求,将第一搜索结果与第 一章节一起显示。

一种数据处理装置包括:数据接收器,数据接收器适用于接收文本文 档。自然语言分析器,自然语言分析器适用于对文本文档的第一章节执行 第一自然语言分析并且适用于生成指示第一章节的主题的第一主题数据; 数据处理器,数据处理器适用于使用第一主题数据执行关于数字信息的第 一搜索,第一搜索提供第一搜索结果,并且数据处理器适用于将第一搜索 结果链接至第一章节;以及显示器,显示器适用于经请求将第一搜索结果 与第一章节一起显示。

一种计算机程序包括计算机程序指令,该计算机程序指令在由计算机 执行时使计算机执行下列方法,该方法包括:针对文本文档的至少第一章 节,使用第一自然语言分析生成指示第一章节的主题的第一主题数据;使 用第一主题数据执行关于数字信息的第一搜索,第一搜索提供第一搜索结 果;将第一搜索结果链接至第一章节;并且经请求,将第一搜索结果与第 一章节一起显示。

此外,一种非暂存性计算机可读介质包括上述的计算机程序。

已经通过一般介绍方式提供了上述章节,并且上述章节并不旨在限制 所附权利要求的范围。通过参考结合附图的具体实施方式,将更好理解所 描述的实施方式以及进一步的优点。附图中的元件相对于彼此不一定按比 例绘制。

附图说明

当结合附图考虑时,通过参考下列细节描述,由于变得更易于理解, 所以容易获得对本公开内容更为完整的认识和本公开内容的许多伴随优 点,其中:

图1示出了一种用于基于文本文档提供数字信息的方法;

图2示出了图1中的方法与(非限制性)示范文本结合使用时的步骤;

图3示出了通过图1中的方法结合示范文本实施时所实现的效果;

图4示出了结合图1中的方法来产生迭代搜索方法可选执行的进一步 步骤;

图5示出了图4中所示的可选的进一步步骤对示例性文本实现的效 果;

图6示出了图4中所示的可选的进一步步骤在该方法的另一实施方式 的效果;

图7示出了结合图1中的方法来产生精确搜索方法可执行的进一步可 选步骤。

图8示出了图7中的可选方法步骤对示范文本的应用;

图9示出了图1中的方法的协作应用;

图10示出了基于自然语言分析的示范文本的聚类;

图11示出了图1中方法的用于显示搜索结果的实施方式;

图12示出了其中执行要被显示的搜索结果的关键字相关选择的另外 实施方式;

图13示出了其中数字信息的最佳匹配文档与文本文档一起显示的实 施方式;

图14示出了数据处理装置的实施方式;并且

图15示出了数据处理装置的另外实施方式。

具体实施方式

现参考附图,其中,贯穿几幅图,相同参考标号指相同或者相应的部 分,图1示出了一种用于基于文本文档提供数字信息的方法。在框100中, 使用第一自然语言分析对文本文档的至少第一章节生成第一主题数据,第 一主题数据指示第一章节的主题。

文本文档可以是任何形式的文本,诸如,文本文件、在文本编辑器中 待读取或者编辑的文本文档、在查看器中以查看格式(例如,“便携式文 档格式”PDF)显示的文本文档、网页、电子存储的书籍或者杂志(例如 “电子书”)、或者任何其他类型的电子存储文档。例如,文本文档可包括 文本的一个或多个部分或者整体的ASCII表示、文本的一个或多个部分或 者整体的Unicode表示、文本的一个或多个部分或者整体的XML表示、 文本的一个或多个部分或者整体的HTML表示和/或文本的一个或多个部 分或者整体的二进制表示。

文本文档可以存储或者位于执行该方法的设备上、本地服务器和/或经 由网络可以访问的远程服务器上。例如,网络可以是本地网络、内联网、 或者互联网、或者任何其他网络,诸如用于电信等的网络。

可以从文本文档中选择第一章节。第一章节可以是文本文档的任何片 段(segment),诸如,片段包括几个段落、单个段落、几个或单个句子、 几个或者单个短语和/或几个或者单个字词(word)。例如,该片段可包括 不需要连续位于文本内的子片段。

此外,在框100,也可以选择多个章节。例如,文本(即,整个文本 或者该文本的整个显示部分)可被自动地划分成多个章节,例如,被划分 成第一章节至第x章节。在这种情况下,可以选择单个章节(即,第一章 节)和/或多个章节的子集,该子集包括多个所选择的章节。

通过对触控式显示器的对应区域进行触摸或者通过命令,读者(例如) 通过利用定点设备对其操作,可以明确选择第一章节(或相应地包括多个 所选择的段落的子集)。此外,另外,例如,当读者侧重于、停留在或标 志第一段第一章节或者对应章节时,例如,即使没有读者(reader)的注 意(notice,通知),该选择可以隐含发生。

在进行选择时,第一章节通过该方法可以但不必被自动地突出显示 (highlight,加亮)。例如,根据用于突出显示的预定显示参数,第一章节 可以其他格式来显示。显示参数可以由用户使用该方法进行设定或者可自 动确定。当自动确定时,可以根据第一章节的语义内容,例如根据通过该 方法所确定的第一主题来设定显示参数。例如,突出显示可包括以预先设 定的颜色和/或粗体、斜体等显示字符或背景。

基于第一章节,特别是基于第一章节的文本语言和/或其语义内容,进 行第一自然语言分析用于确定第一主题数据。

第一自然语言分析可包括语义分析,并且可以基于自然语言处理领域 中的任何技术。例如,可以分析字词之间的主语/宾语关系与字词在句子中 各自的作用。在第一自然语言分析过程中,可将这些作用和/或关系分配给 第一章节中的各个字词或者词语(term),并且可被用于确定第一主题。

此外,第一章节中的字词可被映射至现有本体(existing ontology,现 有本体论),以便识别第一主题。例如,诸如“狗”和“猫”等字词可被 映射至“动物”,从而用于确定第一主题。这允许找出其他相关文档,例 如有关鸟的那些文档。

此外,当分析字词时,可以分析各个字词在第一章节中出现的频率。 多次包含在第一章节中且不包含或仅很少包含在文档的其余部分的字词 可能表征为第一主题数据所依赖的本地主题。这些字词可被称之为本地关 键字。当基于第一章节的字词以加权方式确定第一主题数据时,这些字词 将被给予比其他字词更高的权重。

此外,第一自然语言分析还可包括其他技术,诸如词性标注、语法分 析、语义分析、情绪分析和总结等。

因此,基于字词、词语、本体、子主题等可以定义和描述第一主题数 据。第一主题可包括例如用在搜索查询中的搜索词语。因此,第一主题数 据可包括说明和/或与第一章节的问题、内容、主题或者题目有关。

在框102中,使用第一主题数据执行对数字信息的第一搜索。第一搜 索提供第一搜索结果。

对于第一搜索,可以使用任何种类的搜索策略。例如,可以使用用于 搜索数字信息的搜索引擎。搜索引擎可以是特别适用于实施该方法和/或基 于文本的搜索的专门的搜索引擎。可替代地,也可以使用通用的搜索引擎, 如经由互联网访问的公共可用的搜索引擎,例如通过经互联网提交搜索查 询和检索结果。包括各种搜索词语的第一主题可被用作搜索的基础,例如, 用作搜索查询。因此,第一主题数据可作为例如搜索词语的集合或基于搜 索词语的逻辑表达式被供应至搜索引擎。

在第一搜索过程中,可以搜索和/或访问任何形式的数字存储器。例如, 可以访问和/或检索本地数据存储器、本地访问文件、和/或经由网络(通 过该网络存取文本文档)或者经由诸如内联网、互联网或者电信网络等其 他(进一步)网络可访问的位于远处的数据。

可以搜索、访问、和/或检索任何形式的数字信息作为第一搜索结果。 例如,可以访问至少一个数据文件或者多个数据文件,例如,与第一主题 数据有关的进一步文本文档。然而,不仅可以访问文本文档,而且还可以 访问任何种类的数字编码的且由此可搜索的信息,诸如,网页、媒体数据 等。

在框104,将第一搜索结果链接至第一章节。该链接可包括任何种类 的链接,例如,描述第一搜索结果的元数据的指针和/或直接指向或者包括 若干条信息的地址的多个链接。例如,链接可包括统一资源标识符、统一 资源定点符、和/或统一资源名称。因此,当访问第一章节时,该链接可允 许易于检索第一搜索结果中包含的数字信息。

在可选框106,其可被执行但并非必须执行,可以将根据第一搜索结 果的内容加载到执行该方法的设备中。可以使用框104中的链接进行加载。 例如,只要它被识别,该加载就允许搜索结果的检索,如在后台进行检索, 而无需用户的注意。例如,加载可包括在执行该方法的设备的本地存储器 存储加载的内容,当用户请求时,可以从本地存储器瞬间检索该内容。加 载可包括将链接内容作为整体加载,和/或仅加载内容的代表性部分,例如, 快捷方式或者概要。例如,可以确定与第一主题有关的各个部分(概要)。 然后,可以将代表性部分与表示链接信息的图标一起显示。

在可选框108,该框108可以但并非必须被执行,根据显示参数(用 于在选择第一段落时进行突出显示)和/或进一步显示参数来显示第一章 节。根据第一主题数据、第一搜索结果、以及第一搜索结果的语义内容中 的至少一种可以确定显示参数和/或进一步显示参数。

例如,当进行该链接时,可以使第一章节格式化以使得用户注意该附 加内容是可用的。第一章节可以被格式化,例如,作为整体来突出显示, 或者可仅标记重要关键字。(进一步)显示参数可描述字体、颜色、背景 颜色、粗体的字符设定、斜体或者下划线,并且可取决于用户的预先存储 的设定。

根据第一段落的内容、根据第一主题、和/或根据第一搜索结果和/或 相关内容可以确定显示参数和/或进一步显示参数。例如,除可选材料之外, 的技术事实可被格式化。例如,通过利用潜在情绪或者情感可以选择突出 显示来强化阅读。通过突出显示,将进一步内容的可用性向兴趣上升的用 户的指出。

在框110,将第一搜索结果与第一章节一起显示。该显示可经请求而 发生,例如,由用户在阅读文本文档时输入请求。

请求可经由用于阅读文本文档的阅读设备的输入设备进行输入。例 如,在个人电脑,请求可通过鼠标点击第一章节、表示链接的第一搜索结 果和/或加载的第一搜索结果的标记或者图标输入。可替代地,请求可通过 按下请求键、通过触摸用作显示器的触控式面板上的对应区域、或者通过 将对应的语音命令输入到麦克风中进行输入。

如下面更为详细描述的,当显示第一搜索结果时,可以显示形成第一 搜索结果(例如,整个文本、文本章节、搜索结果的概要或者快捷方式) 的各条信息的内容和/或指示可以访问各条信息的内容的地址数据(例如, 搜索结果的链接)。

例如,在显示器的显示第一章节的邻近或者相邻区域中,可以将第一 搜索结果与第一章节一起显示。例如,可以在第一章节附近和/或与第一章 节重叠处显示用于显示第一搜索结果的特定窗口或者栏。因此,将找出的 与第一章节有关的数字信息与第一章节一起展示给读者,从而提供一种对 数字信息的简单和直接访问。还可以单独显示第一搜索结果,例如,在之 前显示文本文档的区域中进行显示,该区域覆盖其中之前显示文本文档的 整个显示器或者整个窗口的区域。例如,如果已经(明确)选择/请求将第 一搜索结果用于显示,则可以执行这种类型的显示。

可替代地,该显示也可未经请求而执行,例如一旦检索到第一搜索结 果就显示。在这种情况下,可以在不与文本文档的显示重叠的单独区域中 显示第一搜索结果,以不妨碍阅读中的用户。

应注意,可以在后台执行第一章节的确定、第一主题数据的生成、第 一搜索和第一搜索结果的链接、或者其步骤的任何组合。例如,第一章节 的确定可在读者不注意的情况下发生,例如当读者停留在在第一章节或者 相应章节,花费较长时间来阅读第一章节或者重点集中在第一章节上时发 生,例如,使用定点设备在显示器上指向对应位置。然后,可在后台执行 第一自然语言分析、第一搜索、和/或第一搜索结果的信息检索。例如,根 据用户预先存储设定,在未进行请求情况下或者当用户输入相应请求时, 可将第一搜索结果展示给读者。

因此,在未进行主动请求、搜索、搜索词语的输入等的情况下,可以 提供对数字信息的访问。该处理可在用户阅读的同时,方便地在后台进行。 因此,不需要任何等待的时间。换言之,在没有用户交互和没有等待的情 况下,可将文本文档的补充数字信息结合用户正在阅读的文本章节一起提 供给读者,作为文本阅读软件或者文本阅读设备的后台服务。

在图2中,示出了图1中的方法对示范文本的应用。作为示范文本200, 使用苹果蛋糕的食谱作为非限制性实施例。

例如,在202,通过用户的鼠标单击,或者根据用户阅读所花费的时 间,将介绍性段落201识别为第一章节,或者显示的文本文档被自动划分 成第一章节至第x章节。

在第一自然语言分析中,例如,通过分析它们在句子中作为主语或宾 语的作用,通过分析它们的关系,通过将其内容映射至现有本体,或者通 过确定它们在介绍性段落210(第一章节)中出现的频率与它们在整个文 本文档中或者在一般语言文档中出现的频率,将介绍性段落210中的关键 字识别为对第一章节重要。例如,如图所示,可以通过下划线标记这些关 键字。

基于这些关键字,在204,将有关苹果蛋糕的一般信息确定为第一主 题。

在此基础上,在206,使用搜索词语208作为搜索(例如,搜索筛选 器)基础执行第一搜索。

在210,将若干条的数字信息链接到第一章节作为第一搜索结果。以 虚箭头示出了到介绍性段落210的链接。在所描述情况下,第一搜索结果 包括到提供小酒吧(例如,室内咖啡厅)报价的内联网网页的第一链接。 此外,包括到提供词典的互联网网页的链接和包括含食谱的数据库的内联 网网页的链接。此外,提供到包括个人食谱的本地数据文件的链接。

图3a示出了当结合示范文本执行时通过图1中的方法实现的效果。 如箭头300所示,例如,通过使用其定点设备,用户点击突出显示的介绍 性段落210。经请求,通过(例如)与文本文档的其他部分重叠而在介绍 性章节210的区域内和/或附近处显示结果的一般性主题、结果的相关关键 字、以及到结果的链接信息306、308,来将搜索结果302、304向用户呈 现。因此,经请求,结合第一章节将第一搜索结果展示给用户。

图3b示出了通过图1中的方法在该方法的另一实施方式中实现的效 果,其中,在介绍性段落210附近的单独栏中呈现搜索结果302、304、以 及链接信息306、308。

在图4中,示出了结合图1中的方法所执行的进一步可选步骤。通过 这些步骤,可以获得迭代搜索方法。

在框400,可以选择第一搜索结果中包括的第二文本文档。第二文本 文档可以是第一搜索结果中包括的任何文档,特别是包括文本的文档或者 文件。在框402,针对第二文本文档中的至少第二章节,使用第二自然语 言分析生成指示第二章节的主题的第二主题数据。在框404,使用第二主 题数据可以执行对进一步的数字信息的第二搜索,从而提供第二搜索结 果。在框406,可将第二搜索结果链接至第二章节。

通过任何类型的选择,例如,通过使用定点设备或者触摸屏的定点功 能对文本文档重点集中或者指向,可以选择第二文本文档。然后,对第二 文本文档执行框402至框406中所描述的各方法步骤。可以与图1中所示 出和上述所述的方法步骤对应的方式执行这些步骤。因此,可以按照在图 1中的框100和相关说明中对第一章节的描述,来从文本文档选择第二章 节。此外,第二自然语言分析可对应于在框100中实施的第一自然语言分 析或者使用与在框100中实施的第一自然语言分析对应的技术。此外,使 用框102中的第一搜索过程中的相应技术,可以执行利用第二主题的第二 搜索。而且,第二搜索结果的链接可对应于有关框104所描述的链接。当 然,还可以针对第二搜索结果执行对应于框106的内容的可选加载。进一 步地,例如,根据第二显示参数还可以显示第二章节并且由此如框108所 述的方法来突出显示。此外,对应于框110所描述的显示,例如,经请求, 也可将链接至第二章节的第二搜索结果与第二章节一起显示。

图4中所示出的方法步骤允许执行迭代搜索,从而能够使用户从一个 文档反复地移动至搜索结果中包括的其他文档。因此,用户在阅读过程中 仅按照其兴趣的引导,从提供数字信息的各种源检索的文档间进行浏览和 移动。因为在后台中检索和关联(链接)进一步感兴趣的文档,所以无需 返回到搜索栏或者输入搜索词语。

这产生了一种文本整体搜索引擎,用户可以基于搜索引擎结果和本地 主题和搜索/浏览历史直接从一个文本文档和/或互联网网页冲浪到另一 个。它结合了冲浪和搜索,并支持访问网络的新模式。自然给出相应的搜 索会话的开始和结束。当用户正在寻找某个主题时,用户将使用上述所述 方法逐个网页移动。然而,当查找不同的主题时,用户可返回至搜索引擎, 例如,输入新搜索查询。

例如,如图3所示的结果一般,图5示出了图4中的可选方法步骤的 效果。在图5中,箭头300被视为指示用户从搜索结果304选择词语“哈 布斯堡帝国”作为第二章节。因此,将哈布斯堡帝国用作第二主题数据, 例如,用作进一步的搜索词语500,并且可基于此完成第二搜索。因此, 在不脱离文本文档并且在不输入搜索词语的情况下,例如,输入到搜索栏, 用户可开始进一步搜索。因此,用户可便捷地从一个文档切换至另一个, 通过从其正在阅读的文档选择章节表明其兴趣。因为在后台运行,所以通 过该方法所使用的搜索引擎看似内置于阅读器中或者甚至可能并不被用 户注意。

图6示出了另一实施方式,其中,已经加载了图5中的第二搜索结果 304并且现被显示为主文本文档。因此,例如,当应用图1或者图4中的 方法时,可以将第二搜索结果用作第二搜索的第二文本文档。在本实施方 式中,使用第一主题数据和第二主题数据执行第二搜索。

换言之,第一主题数据和第二主题数据都对搜索词语600产生影响, 其中,使用来自图2中所示出的第一搜索的词语“苹果蛋糕”、“流行的”、 以及“传统的”并且以因数0.5加权,同时,添加新搜索词语“哈布斯堡 帝国(Habsburg empire)”并且以因数1.0加权。因此,例如,作为第二搜 索的搜索参数,第一主题数据对第二搜索产生影响,但是,比第二主题数 据具有的影响(权重)小。

因此,在本实施方式中,将来自当前会话的搜索历史用作各个搜索查 询的附加资源。会话历史反映在每个迭代搜索的步骤中。这允许精确的搜 索反映从当前会话知道的用户的兴趣。

在进一步实施方式中,当执行第一搜索时,可以使用来自预定次数(或 者全部)的先前搜索的主题数据。因此,例如,在第一搜索的搜索查询中, 可以包括来自先前搜索的搜索词语。因此,在每个迭代搜索步骤中,使用 来自当前会话的搜索历史。同样,也还可包括来自先前会话的搜索历史。

当使用搜索历史数据时,可以应用邻近性加权(proximity weighting)。 这允许忽略过去的搜索主题并且集中于用户的当前兴趣。然而,可以期望 搜索结果比在仅使用用户当前输入的搜索词语的单步骤搜索中的搜索结 果更为精确,例如,适应用户的兴趣。

在图6中所示出的实施例中,即使仅选择“哈布斯堡帝国”作为关键 字,其也是从用户处理传统流行食谱的历史中知道的。在应用邻近性加权 的搜索词语600中对此有所反映。因此,处理哈布斯堡帝国传统食谱的搜 索结果602可排列在顶部且在与食谱领域不相关的搜索结果606、608和 610、612之前。

在图7中,示出了结合图1中的方法所执行的进一步可选步骤。这些 步骤允许使搜索精确。

在框700,可以从文本文档中选择第三章节。如同有关上述第一章节 的描述,第三章节还可包括连续或者非连续存在的单个或者多个字词、短 语、句子、或者段落。在框702,通过使用第三自然语言分析,可以生成 第三主题数据,第三主题数据指示第三章节的语义内容。第三自然语言分 析可包括与上述所述第一自然语言分析和第二自然语言分析相同的方法。 在框704,使用第一主题数据和第三主题数据可执行第三搜索。因为除第 一主题数据之外,例如,通过将对应的搜索词语添加到搜索查询中,还使 用第三主题数据,所以提供精确的搜索结果。然后,在框706,将精确的 搜索结果设置为第一搜索结果。

图7中的额外和可选方法步骤允许,例如通过添加第三章节的第三主 题数据来使搜索比图1中示出的结果更精确。因此,如果用户对搜索结果 不满意,例如,产生不符合其兴趣的过多结果,其可通过选择文本文档的 进一步章节而使搜索精确化。

图8的实施方式中示出了这些可选方法步骤的效果,其中,箭头300 示出了选择“肉桂粉”作为第三章节。一旦做出该选择,则生成的搜索词 语800包括具有权重1.0的“肉桂”,进一步包括具有权重0.5的搜索词语 “传统苹果蛋糕”和具有权重0.2的搜索词语“食谱”、“甜点”(作为基于 历史的搜索词语)。

因此,可以通过选择文本章节来逐步骤地使第一搜索结果精确。这支 持仅由用户选择的章节和通过他的阅读行为引导的、对任何感兴趣的数字 信息的方便的导航。应再次注意,手动输入搜索词语,例如,输入到搜索 栏不是必需的。在精确过程中,基于历史的搜索和加权也是可以的,其中, 第一主题数据与第三主题数据相比可具有对第三搜索或多或少的影响。例 如,可以应用基于历史的搜索词语的邻近性加权。

因为搜索基于从选定的章节、整个基本文本和从会话历史得出的广泛 的上下文,所以搜索结果可预期比单一步骤的搜索与手动输入的搜索查询 更精确。此外,因为只需要最少的用户交互,所以搜索是方便的,且因为 它的大多数步骤在后台进行,所以是节省时间的。

在图9中所示出的方法的另一实施方式中,例如,可以将第一、第二 和/或第三主题数据存储在日志文件中或者存储为协议数据。从而允许用户 通过搜索历史而向前和向后移动,例如,返回和开始其搜索的新分支。此 外,该日志文件或日志数据可以与用户共享。例如,当执行第一搜索、第 二搜索、和/或第三搜索时,可以使用另一用户的搜索历史数据。从而允许 从另一用户学习搜索策略和/或在至少两个用户之间共享搜索历史。

图9中示出了对应的协作应用,其中,从用户的社区900,若干基于 历史的搜索数据日志文件902到908是已知的。另一用户908计划根据由 社区提供的搜索数据来学习和使用日志文件906来制定搜索查询910。又 一用户912使用搜索数据日志文件902制定(formulate)新查询914,其 中包括例如结合逻辑运算符的进一步搜索词语。因此,根据基于历史的搜 索数据,可以定义一些基于会话的应用。

在图10中所示出的另一实施方式中,通过聚类文本文档的短语、句 子、和/或段落来确定章节,短语、句子、和/或段落具有对应的语义内容。 通过根据各部分的各自语义内容来聚类文本文档的部分,可以自动确定该 聚类(cluster)。例如,使用自然语言分析,可以如上所述自动确定各部分 的语义内容。因此,通过对与其主题有关的文本文档的各部分进行聚类的 聚类处理可以自动确定第一章节,从而获得各自具有同源主题的聚类。

图10中示出了文本文档200的自动聚类。第一聚类T1包括一般性信 息,而第二聚类T2汇总了各种成分。聚类T3阐述苹果蛋糕的制备,并且 聚类T4提供营养成分。聚类T3包括处理奶蛋糊的制备的子聚类T3.1和 描述烘焙的子聚类T3.2。

因此,通过将文本文档聚类成具有相似内容的片段可以确定第一段 落、第二段落、和/或第三段落。这些片段可包括不需要连续存在于文本中 但是通过其主题仅被限定为属于该聚类的多个文档段落、句子、短语、或 者字词。因此,通过相关主题和/或语义内容可以限定聚类,且文档结构对 该聚类不产生任何影响。

在该方法的另一实施方式中,基于在各个章节(聚类)和/或在相邻章 节(聚类)中识别的字词确定各个章节的第一主题数据、第二数据、和/ 或第三主题数据。为了确定各个主题数据,使用下列各项中的至少一种: 各个章节中字词的频率,文本文档中字词的频率,文本文档中和进一步文 本文档的集合中的字词的词语频率-逆文档频率(term frequency-inverse  document),字词至本体(ontology,本体论)的映射;与至少一个字词相 关联的各个权重,使用至少一个字词的出现频率和/或该至少一个字词距所 选择的词语的距离确定的各个权重、以及字词的语义分析。

例如,关于确定各个章节的第一主题数据、第二主题数据、和/或第三 主题数据,可以忽略该章节中的所有停用词,即,类似“和”、“或”、或 者“该”等的字词。可以确定各个章节中其余字词的频率。如果字词以更 高的频率出现,则这些字词可能对该章节主题更为重要。此外,在各个章 节中以较高频率出现并且在其余文档中以较低频率出现的字词可能对该 章节的(本地,例如,第一、第二、和/或第三)主题比较重要。可以给与 这些字词更高的权重,而给与很少出现的字词较低的权重。从而能够做出 基于权重字词的主题定义。通过差异分析可以限定段落或者部分的本地主 题。

通常,可以使用“词语频率-逆文档频率”权重(TF-IDF)反映字词 相对于大型全球文本集合在当前文档中的重要性。因此,可以识别对主题 定义重要的字词。

如上所述,还可将字词映射至本体,从而识别更广泛含义的类别。

各个权重可以基于文本内该字词距选择项(selected item,选择词语) (例如,用户标记的选择文本章节)的距离而与字词相关联。如果不对章 节做标记,并且如果文本不被构造成段落的序列,则产生的字词的基于距 离加权是有用的。

此外,可以对字词执行反映其在短语或者句子内的关系的语义分析, 诸如,其用作句子的主语或者宾语,从而识别对主题定义的更为重要的字 词。

在简单实施方式中,各个章节中包括的所有字词的列表(但不包括停 用词)可用于主题定义并且进一步用于定义搜索查询。例如,搜索查询可 对应于该列表。

在该方法的进一步实施方式中,经请求,第一搜索结果可被显示在列 表中。该列表和/或该列表中的项(term)可包括表示该项与文本文档之间 有关内容的关系、从有关该项的反馈数据中所获得的反馈信息、先前从其 他用户收集的反馈数据、以及该项内容的类型中的至少一种的信息。

例如,通过显示具有不同的颜色、字体或设定的项,该信息可以被包 括在列表中。列表中各项的格式化取决于用户的资料或者预先存储的设 定。

例如,该信息可涉及该项与文本文档之间有关内的的关系。例如,可 以在列表中看到,该项是否涉及与第一章节有关的更多细节信息,或者对 应的或替代的意见是否由列表的项给出。相应的信息可以很好地通过颜色 或字体属性进行编码。

此外,该列表可包括反馈信息。从与该列表中的该项有关的反馈数据 中可以导出反馈信息。可提前从其他用户收集反馈。例如,服务器可记录 用户是否花很长的时间阅读文档或者用户是否快速脱离该文档。该反馈可 被视为隐式反馈。然而,服务器还可收集由用户提供的明确反馈。如果之 前收集该反馈,则在列表中可以反映出此情况。例如,列表中所表示的有 用项提升,而其他项则下降。可替代地或者此外,可以添加反映反馈的图 标或者字符,诸如,用于非常有用文档的“+++”或者用于感兴趣度较低 的文档的“-”。

此外,可以根据各项内容的类型对列表进行分组。例如,可以将与词 典或者百科信息有关的各项分为一组,而可与内容数据库、购物站点、或 者社交协作站点有关的各项单独分组。

图11示出了其中对列表1100进行分组的对应实施方式。各百科项形 成第一组,食谱形成第二组,并且购物站点形成第三组。每项(即,每个 链接)均包括等级信息,来反映由其他用户给出并且之前通过服务器设备 收集的反馈。因此,附加值被提供给执行该方法的阅读设备。例如,可以 对用户完全透明的方式将该方法编码为代理服务。

在图12中所示出的进一步实施方式中,经请求,显示与第一主题数 据有关的关键字的列表1200。一旦从列表中选择关键字中的至少一个,则 (仅)显示与搜索结果中的关键字中的至少一个有关的搜索结果。因此, 列表1200可包括允许控制向其请求搜索结果的主题的关键字。如箭头300 所示,用户可以选择关键字“后台信息—哈布斯堡帝国”仅获得对应的搜 索结果。因此,可以使用与第一主题(本地关键字)有关的关键字对与第 一章节有关的文档进行分组,即,形成第一搜索结果的文档。

在另一实施方式中,当定点设备在突出显示的文本上移动时,关键字 和关键字组合的相关列表,可能会出现以供选择。这提供了有关该主题方 向上用户的进一步控制,并允许方便的专注于搜索结果。

在图13中所示出的又进一步实施方式中,经请求,显示来自第一搜 索结果的最佳匹配文本文档、最佳匹配文档的链接和/或使用第一主题数据 从最佳匹配文本文档衍生的修改内容。

例如,如果在阅读文本文档200的同时,通过关键字选择请求与哈布 斯堡帝国有关的更多信息,则可以提供最佳匹配文档2300的快捷方式。 此外,来自最佳匹配文档的文本主体的有关摘录可被呈现,并且到最佳匹 配文档的链接可能被包括在内。因此,最佳匹配的文本文档的相关部分经 请求而被显示,并与第一章节一起显示。因此,最佳匹配示出为不离开文 档。因此,用户可以迅速掌握最佳匹配的信息。

图14是体现本公开的各方面的处理系统的硬件示图,其中包括涉及 用于执行上述所述方法的实施方式的计算机的各方面。计算机可与移动终 端或者设备通信,例如,以用于显示文本文档和/或第一搜索结果、第二搜 索结果、以及第三搜索结果。

经由分立控制设备或者计算系统可以实施的此处所描述的处理、算法 和电子驱动系统与图14中所示的结构一致。此处将该系统描述为数据处 理装置1400。

如图14所示,使用微处理器1402或者其等同物,诸如中央处理器 (CPU)或者至少一个专用处理器ASP(未示出)可以实现根据本公开的 数据处理装置1400的处理系统。微处理器1402利用被配置为控制微处理 器1402的计算机可读存储介质1404,诸如,存储器(例如,ROM、EPROM、 EEPROM、闪存、静态存储器、DRAM、SDRAM、及其等同物),以执行 和/或控制本公开的处理和系统。经由可控制硬盘驱动器或者光盘驱动器 1408的诸如磁盘控制器1406等控制器可以控制其他存储介质。

在可替代的实施方式中,微处理器1402或者其各个方面可包括或专 门包括逻辑器件,用于增加或完全实施本发明。该逻辑器件包括但不限于 专用集成电路(ASIC)、场可编程门阵列(FPGA)、通用阵列逻辑(GAL)、 及其等同物。微处理器可以是单独的设备或者单处理机构。此外,本公开 可从多核CPU的并行处理能力获益。

另一方面,根据本公开的处理的结果或者数据输入,具体地,经由显 示控制器1410至监控器1412可以显示文本文档以及第一搜索结果、第二 搜索结果、及第三搜索结构。然后,显示控制器优选包括用于提高计算效 率的至少一个图形处理单元。而且,监控器1412可设置有触控式界面和 命令/指令界面,并且可整合其他外围设备,其中包括扫描仪、用于输入语 音命令的麦克风、或者使用基于图像的数据输入时的网络摄像头。

如图14所示,上述所述部件经由用于传输和/或接收数据的网络接口 1420可以耦接至若干个网络,诸如,互联网1414、本地局域网1416、和/ 或连接数据处理1400与例如包括本地数据库1418(包括可控制参数)的 存储设备等的本地网络。具体地,经由网络接口1420可从上述网络1414、 1416、1418中的任一个或者可替代地经由磁盘控制器1406从磁盘驱动器 1408可检索并且加载文本文档。此外,第一搜索、第二搜索、以及第三搜 索可通过上述网络1414、1416、1418中的任一个经由网络接口1420访问 本地存储器和远程存储器上的数字信息。

此外,网络接口1420可提供到移动设备的通信路径,例如,用于读 取文本文档和显示所检索的数字信息的阅读设备。可以通过数据包形式设 置通信路径。可替代地,在监控器1412上,即,在数据处理装置1400本 地上也可显示文本文档和/或所检索的数字信息。

此外,可以设置I/O接口1421,从而允许连接诸如键盘1422、鼠标 1424、及其他外围设备1426等输入设备,例如,用于读取诸如光盘、磁 盘、半导体存储器等非暂存性存储介质1428的阅读设备。

非暂存性存储介质1428可包含软件,例如,包括在由数据处理装置 1400执行时致使计算机执行上述所述方法的实施方式的计算机程序指令 的计算机程序。如上所述,该方法可包括:针对文本文档的至少第一章节, 使用第一自然语言分析生成指示第一章节的主题的第一主题数据;使用第 一主题数据执行对数字信息第一搜索,第一搜索提供第一搜索结果;将第 一搜索结果链接至第一章节;并且经请求,一起显示第一搜索结果与第一 章节。

此外,中央总线1430可被设置成将上述硬件部件连接在一起并且提 供用于在期间进行数字通信的至少一条路径。

数据处理装置1400可进一步包括适用于接收文本文档的数据接收器, 例如,数据接收器可包括网络接口1420、磁盘控制器1406、和/或I/O接 口1421。此外,可以包括自然语言分析器,自然语言分析器适用于对文本 文档的第一章节执行第一自然语言分析并且适用于生成指示第一章节的 主题的第一主题数据。自然语言分析器可尤其包括微处理器1402和/或存 储器1404的特定部分。此外,例如,可以包括数据处理器,数据处理器 包括微处理器1402,数据处理器可适用于使用第一主题数据执行对数字信 息的第一搜索,其中,第一搜索提供第一搜索结果。例如,数据处理器可 适用于通过包括指示可存储第一搜索结果和/或对应元数据的存储器1404 的地址,将第一搜索结果链接至第一章节。此外,例如,数据处理装置1400 可包括监控器1412和/或移动设备中包括的适用于经请求一起显示第一搜 索结果和第一章节的显示器。

在可替代的实施方式中,数据处理装置1400可包括诸如存储器1404 等适用于存储第一主题数据和来自之前预定次数搜索的主题数据的存储 装置,其中,数据处理器进一步适用于使用包括来自第一主题数据和之前 预定次数搜索中的主题数据的搜索词语的搜索查询执行第一搜索。因此, 如同有关上述方法的各种实施方式的描述,可以执行利用基于历史的搜索 数据、搜索词语、和/或搜索查询的迭代搜索。

此外,数据处理装置1400可包括输入设备,例如,键盘1422、鼠标 1424、监控器1412的触控式界面至命令/指令界面、和/或扫描仪、麦克风 或者用于基于图像数据输入的网络摄像头。输入设备可适用于接收用户对 第一搜索结果中包括的第二文本文档的选择。第二文本文档可被数据接收 器接收、通过提供第二主题数据由自然语言分析器进行分析、并且在使用 第二主题数据和/或第一主题数据(例如,以加权方式组合)的第二搜索中 通过数据处理器进行处理。然后,在显示器上可显示第二搜索的结果,例 如,在监控器1412上或者在移动设备的显示器上可显示第二搜索的结果。

此外,输入设备可适用于接收用户从文本文档对第三章节进行的选 择。因此,通过提供第三主题数据的自然语言分析器可对第三章节进行分 析,并且使用在第三主题数据和/或第一主题数据(例如,再次以加权方式 组合)的第三搜索中通过数据处理器对第三章节进行处理。然后,在显示 器上可显示第三搜索的结果。

数据处理系统的进一步实施方式是桌上型计算机(系统)、膝上型计 算机(系统)、或者平板计算机(系统)、电子书阅读器、或者智能电话。

图15示出了对应于“电子书阅读器”的阅读设备1500的数据处理装 置的进一步实施方式。阅读设备1500可以是具有位于其表面中的一个表 面上的显示器1502的便携式设备。显示器可适用于显示文本文档以及进 一步的第一搜索结果、第二搜索结果、及第三搜索结果。显示设备可进一 步包括上述所述用于由用户输入命令的触控式界面。可以提供键1504a、 1504b、1504c、…作为进一步的输入功能。此外,天线1506可提供对任 何形式网络的接入,诸如,移动电信网络或者WiFi网络。天线1506可包 括在/连接至数据接收器(未示出),数据接收器适用于接收文本文档并且 适用于提供用于执行第一搜索、第二搜索、以及第三搜索的通信界面。此 外,在数据接收器处经由天线1506可以接收第一搜索结果、第二搜索结 果、以及第三搜索结果。

阅读设备1500可以提供处理功能,例如,包括第一自然语言分析器、 第二自然语言分析器、和/或第三自然语言分析器和适用于执行第一搜索、 第二搜索、以及第三搜索的数据处理器。然而,在阅读设备1500的可替 代实施方式中,这些处理功能中的任何部分,例如,执行第一搜索、第二 搜索、和/或第三搜索的自然语言分析器和/或数据处理器,还可驻留在例 如经由上述所述网络可访问的外部设备中。在这种情况下,例如,如果通 过例如远程静态设备和/或中央服务器执行处理步骤中的至少一些,则可以 保持阅读设备1500的处理功能较低。然后,可将链接至第一章节、第二 章节、或者第三章节的第一搜索结果、第二搜索结果、和/或第三搜索结果 存储在阅读设备本机上和/或远程服务器设备上。在后者情况下,可以保持 阅读设备1500的存储功能较低。此外,如图15所示,例如,可将与第一 主题数据、第二主题数据、以及第三主题数据有关的少量摘录或者快捷方 式存储在阅读设备1500上并且当经请求对文档的其余部分进行检索时, 可即时显示给读者。

上述设备允许执行文本整体搜索,例如,通过用户的阅读兴趣整体控 制离开感兴趣的文本文档的章节的搜索。当执行搜索并且离开文本文档 时,不需要返回至用于输入进一步搜索词语的搜索栏。例如,通过自然语 言分析,从文本文档中提取所述搜索词语。因为搜索基于包括本地主题的 第一文本文档是整个基本文本和/或会话搜索历史的大量上下文,所以期望 搜索结果非常精确并且满足用户兴趣。

显而易见,根据上述教导,本公开内容的多种修改和变形是可能的。 因此,应当理解的是,在所附权利要求的范围内,可以不同于本公开中所 具体描述的其他方式实现本发明。此外,不存在对以任何方式组合上述提 及的各方面和特征的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号