首页> 中国专利> 从文档到排名短语的语义分析

从文档到排名短语的语义分析

摘要

一种为语义分析器提供的方法、装置和计算机产品,用于产生和排名语义短语以反映它们与文档主题和话题的关联性。在语义分析器执行文本提取之前,文本和文档可以与任意预先选择的关键字没有关系。语义分析器从文档中提取文本,并且对提取出的文本执行语义分析。作为该语义分析的结果,语义分析器提供多个已排名的语义短语,并且将语义短语作为语义关键字与该文档相关联。语义短语定义出与该文档一起被呈现的内容,该内容是广告、到远程信息资源的链接和第二文档。

著录项

  • 公开/公告号CN101681251A

    专利类型发明专利

  • 公开/公告日2010-03-24

    原文格式PDF

  • 申请/专利权人 奥多比公司;

    申请/专利号CN200880015001.6

  • 发明设计人 W·常;N·格哈姆拉维;

    申请日2008-03-14

  • 分类号G06F7/00;

  • 代理机构北京市金杜律师事务所;

  • 代理人吴立明

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-17 23:44:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-10

    授权

    授权

  • 2010-05-05

    实质审查的生效 IPC(主分类):G06F7/00 申请日:20080314

    实质审查的生效

  • 2010-03-24

    公开

    公开

说明书

背景技术

用于向潜在消费者呈现广告的传统技术提供了在其中呈现出这 些广告的多个媒介。目前,与杂志出版商在他们的杂志中出售广告 空间相类似,人们可以通过出售文档中的空间,而在他们的非网站 内容文档中布置广告。广告也可以例如经由广告横幅而显示在网站 上。另外,广告可以经由赞助广告而显示在搜索引擎上。在目标广 告中,广告商通过选择关键字或关键字词组,并通过与也期望这些 关键字或关键字词组相关的网站上出现他们广告的其它广告商竞争 而为广告付费。

当最终用户登录包含广告的网站时,广告(广告商已经为关键 字或关键字词组出价)被显示。广告的显示称为“印象(impression)”。 广告商并不为印象付费。相反,广告商为他们的目标消费者最有可 能在为找到他们的产品类型或服务类型而在搜索栏中输入的“关键 字”而出价。当最终用户选择(即,“点击”)广告时,广告商因 该选择而被计费。无论广告商为导致广告显示(即,印象)的关键 字或关键字词组出价多少,广告商都被计费。最终用户每点击一次 该广告,广告商都由于该选择被计费。例如,如果广告商出售蓝点 (blue dot),则广告商将为关键字“蓝点”出价,并期望用户在搜 索栏中键入这些字、浏览他们的广告、点击这个广告并且最终购买。 这些广告称为“赞助链接”或“赞助广告”,并出现在搜索引擎的 网页上邻近搜索结果处或在搜索结果之上。广告商只是当最终用户 选择(即,“点击”)广告时才为广告付费,这是已知的“按每次 点击支付”。每当最终用户选择(即,“点击”)出现在网站所有 者的网站上的广告时,该网站所有者也会有少量的收入。

发明内容

传统的计算机系统有许多缺陷。例如,这些传统系统(例如, 传统广告内容服务系统)需要手动输入被用于确定广告关联性的关 键字。具体地,搜索引擎通常依赖诸如关键字元标签的网站管理者 提供的信息。这里,网站管理者可以向期望的搜索引擎提交网页或 URI(统一资源标识符),该搜索引擎会发出蜘蛛(spider)以“爬 取”该页面、从中提取到其它页面的链接以及在该网页中发现的索 引信息。搜索引擎蜘蛛下载该页面,并且在搜索引擎自己的服务器 时存储该页面,其中,在搜索引擎自已的服务器中有称为索引器的 第二程序,其提取关于该页面的各种信息。由于网站管理者通常通 过加入不相关的关键字以虚假增加他们网站的页面印象以及增加他 们的广告收入,而经常滥用提交的元标签,所以基于元数据来为页 面编制索引并不很可靠。由于这会导致为不相关的搜索创建条件以 及创建具有不准确搜索结果排名的搜索,所以网站管理者负面地影 响搜索引擎的声誉。

传统系统的另外缺陷在于针对从广告商群体(pool)收集的广告 关键字来匹配用户查询(或用户创建的电子邮件文本)。为了实施 这样的技术,传统搜索引擎依赖跨越巨量内容搜索基础架构的数据 挖掘。维持这样的基础架构花费高昂,而且久而久之,随着存储的 数据量的显著增加而变得复杂。由于还必须创建和存储为了高效挖 掘数据而需要与预定广告关键字的复杂联系和数据关系,并且还要 保持其容易访问且响应于用户查询及时被处理,这点尤其可以体会。

这里讨论的技术显著克服了诸如上面已讨论那些之类的传统应 用和现有技术已知的其它技术的缺陷。正如进一步被讨论,这里的 某些特定实施方式是针对语义分析器的。这里描述的语义分析器的 一个或多个实施方式与传统系统相比,允许自动分析文档以识别关 键字。

例如,用户具有需要关键字的大文档,以确保与文件内容相关 的广告将与该文件一起被呈现。用户不是该文档的作者,而且仅具 有关于该文档内容的相关主题的浅显知识。虽然如此,该用户期望 还是想要选择能提供恰当反映该文档的主题与内容的广告的关键 字。在一个实施方式中,该语义分析器能够自动向用户提供这样的 关键字。

与用户浪费时间阅读整篇文档不同,语义分析器自动分析文档 中的短语,而且评估文档内容与短语的关联性。语义分析器提取短 语(短语是包括一个或多个并列字、标点、数字和/或缩写的组)的 所有出现(即,提及)、对提取的短语执行统计功能(或计算), 而且基于与文档内容的主题的相关程度来产生相异语义短语的统计 排名类。

基于反馈广告的优良程度,语义分析器允许用户审核和编辑语 义短语的列表。一旦用户预览出语义短语反馈广告的优良程度,语 义分析器便允许用户将期望的语义短语作为语义关键字关联回到文 档中。

因此,语义分析器向用户提供了这样的优势,即,与用户对文 档主题对象的理解无关,而是从基于从文档中提取的文本的列表已 排名语义短语中确定关键字。而且,允许该用户当与文档一起呈现 广告时,预览具体某个语义短语如何最终执行。

特别地,语义分析器对语义短语进行排名,以反映它们与文档 的主题和话题的关系。在语义分析器执行文本提取之前,文本和文 档可以与任意预先选择的关键字没有关系。语义分析器从文档中提 取文本,并且对提取出的文本执行语义分析。语义分析器提供多个 已排名的语义短语作为该语义分析的结果,和将语义短语作为语义 关键字与该文档相关联。语义短语定义出与该文档一起被呈现的内 容,该内容是广告、到远程信息资源的链接或第二文档。

这里披露的其它实施方式包括任意类型的计算化设备、工作站、 手持或膝上型计算机,或配置有软件和/或电路(例如,处理器)以 处理这里披露的方法的全部或任意操作的其它设备。换句话说,被 编程或配置以如这里解释的来进行操作的诸如计算机或数据通信设 备或任意类型处理器的计算化设备,视为这里披露的实施方式。这 里披露的其它实施方式包括用于执行上面概括和下面详细披露的步 骤和操作的软件程序。一种这样的实施方式包括具有编码其上的计 算机程序逻辑的计算机可读介质的计算机程序产品,当在具有存储 器和处理器耦合的计算化设备中执行时,为处理器编程以执行这里 披露的操作。典型地,这些布置被提供为:布置或编码在诸如光学 介质(例如,CD-ROM)、软盘或硬盘、或一或多个ROM或RAM 或PROM芯片中诸如固件或微代码的其它介质的计算机可读介质上 的软件、代码和/或其它数据(例如,数据结构),或作为专用集成 电路(ASIC)。软件或固件或其它这种配置可以安装到计算化设备 中,以引起该计算化设备执行作为在这里披露的实施方式所解释的 技术。

可以理解,这里披露的系统可以仅实施为软件程序,软件和硬 件,或仅硬件。这里披露的实施方式,可以在数据通信设备和这些 设备的其它计算化设备和软件系统中使用,诸如由美国加利福尼亚 圣何塞的Adobe系统集成公司制造的那些,此后在这里称为“Adobe” 和“Adobe系统”。

附图说明

根据下面对配置用于提供反映文档主题和话题的语义短语排名 列表的语义分析器的方法和装置的实施方式的更加特定描述,如在 各个不同视图中用相同参考符号表示相同部分的附图中所图示,本 发明的前述以及其它目标、特点和优点将变得明显。附图侧重于图 示出与本发明一致的方法和装置的实施方式、原则和概念,并没有 必要严格依照比例。

图1为配置有根据这里的实施方式的语义分析器的计算机系统 的框图。

图2为配置有根据这里的实施方式的语义分析器的计算机系统 的框图。

图3为由语义分析器执行的处理步骤的流程图。

图4为根据这里的实施方式,由语义分析器执行对提取文本的 语义处理的处理步骤的流程图。

图5为根据这里的实施方式,由语义分析器执行对提取文本的 统计处理的处理步骤的流程图。

图6为根据这里的实施方式,由语义分析器执行提供语义短语 的排名列表以及内容预览的处理步骤的流程图。

具体实施方式

根据这里的实施方式,语义分析器被配置以提供反映本文档的 主题和话题的语义短语的排名列表。这样的已排名语义短语可以由 用户选择,以作为文档的关键字。具体地,在语义分析器执行文本 提取之前,文本和文档可以与任意预先选择的关键字没有关系。语 义分析器从文档中提取文本,并且对提取出的文本执行语义分析。 以作为语义分析的结果,语义分析器提供多个已排名语义短语,并 且将语义短语作为语义关键字与该文档相关联。语义短语定义出与 文档一起呈现的内容,该内容是广告、到远程信息资源的链接或第 二文档。

可以理解,标志是包含文档中单词(误拼写的或虚构的),以 及来自标点、缩写和数字等字符的任意串。短语可以是标志的连续 组,诸如两或三个单词。另外,提及是短语在文档中的实例,或者 换句话说,短语在文档中的单次出现。关键字是具有特别意义的单 词或概念,诸如被分离出或指定为具有特别意义的短语。语义分析 器根据由语义分析器的计算所推导的关联分数,对在文档中发现的 短语进行排名。语义分析器接着向用户提供机会以便预览已排名短 语,以及选择哪个已排名短语作为文档的关键字。

现在转到图1,框图示出根据这里的实施方式,实施、运行、翻 译、操作或以其他方式执行语义分析器应用150-1和/或语义分析器 过程150-2(例如,由用户108控制的应用150-1的执行版本)的计 算机系统110的架构实例。计算机系统110可以是任意类型的计算 化设备,诸如个人计算机、工作站、便携式计算设备、控制台、膝 上型计算机、网络终端或类似。

如在当前实例中所示,计算机系统110包括诸如数据总线、主 板或耦合存储器系统112、处理器113、输入/输出接口114和显示器 130的其它电路的互连结构111。输入设备116(例如,诸如键盘、 鼠标、触摸板等的一个或多个用户/开发者控制设备)通过输入/输出 (I/O)接口114耦合到计算机系统110和处理器113。

存储器系统112可以是任意类型的计算机可读介质,以及在这 个实例中,其编码有支持这里将进一步解释的功能操作的产生、显 示和实施的自封闭时间线修剪器应用150-1。例如,可以在显示器130 提供已排名语义短语210的列表。而且,可以响应于用户108从已 排名语义短语210的列表中选择一个或多个语义短语,提供内容预 览220。

在计算机系统110的操作中,处理器113经由互连111访问存 储器系统112,以发起、运行、执行、翻译或以其他方式执行语义分 析器应用150-1的逻辑指令。以这种方式执行语义分析器应用150-1 会产生语义分析器过程150-2。换句话说,语义分析器过程150-2表 示语义分析器应用150-1的于运行时在计算化设备110中的处理器 113内部或其上执行或实施的一个或多个部分或运行时实例(或整个 应用150-1)。

关于图2,示出了配置有根据这里的实施方式的语义分析器150 的计算机系统110的方框图。语义分析器150包括文本提取器150-1、 语义处理器150-2、短语存储150-3、统计量处理器150-4,以及报告 组件150-5。另外,该计算机系统100包括显示器130,以提供针对 文档200的语义短语的已排名列表210的视图以及由所选择的语义 短语定义的内容的预览220。

一旦将文档200提交到计算机系统110,会由语义分析器150处 理。开始,文本提取器150-1使用例如标准开源文本提取从文档200 提取纯文本。可以理解,纯文本可以表示ASCII格式的文本数据。 纯文本可以是每个机器或计算器上的几乎所有应用支持的便携式格 式,不包含任意的格式命令。接着,纯文本被提交到语义处理器 150-2。

语义处理器150-2可以包括一个或多个短语、提及和主题提取 器。语义处理器150-2另外还可以包括具有结束词消除的标志化器 (tokenizer),以从文档文本提取一序列标志并且移除诸如介词、限 定词和逻辑算子的不重要单词(例如,不重要文本,不重要文本串)。 语义处理器150-2识别标志、短语;计数短语和标志的单次出现(即, 提及);以及记录在文档中针对每个短语的每个提及开始的位置(即, 提及偏置)。

在短语存储150-3中,所有提取的语义短语、提及和主题可以存 储在一组标准化的关系数据库表中,以允许对提取数据的有效统计 处理。例如,在一个实施方式中,关系模式可以每行存储一个提及/ 主题,以允许使用SQL统计和分析函数的排名处理。

另外,在统计处理器150-4中,可以对从文档200提取的所有短 语施加几个统计排名函数,以确定最相关和重要的语义短语。可以 理解,对于某些类型的文档内容,可能适合不同的统计和排名方法。 因此,语义分析器150为许多类型的文档提供语义短语。这种类型 的文档包括但是不局限于,诸如具有一个中心主题和少量子话题的 新闻故事的长文章、诸如具有大量领域词汇和公知的文档结构(摘 要、介绍、结论、参考,等等)的会议和期刊会议记录的科技期刊 和科技论文,电子邮件,信件,以及特征在于较少文档结构而且可 能具有许多相同重要性的不同想法的通告。

最后,在报告组件150-5中,根据统计数据创建语义短语的已排 名列表210。创建已排名列表210的视图,并且经由显示器130提供 给用户108。语义分析器150允许用户108测试哪些已排名语义短语 对于文档200是最佳的。经由报告组件150-5,用户108从列表210 中选择一个或多个语义短语。内容预览220被创建并显示给用户。 内容预览220向用户显示由选择的语义短语所界定的内容的集合视 图。

图3为由语义分析器150执行的处理步骤310-340的流程图300。 流程图300中的步骤涉及在图2的框图中示出的特征。语义分析器 150(例如,图1中的语义分析器应用150-1和/或语义分析器过程 150-2)自动分析文档以根据语义关联性来排名短语。具体地,在步 骤310,语义分析器150从文档200提取文本,而且在步骤315,从 文档200提取纯文本。可以理解,在文本提取之前,文本和文档200 与任意预先选择的一个或多个关键字没有关系。在步骤320,语义分 析器150对提取出的文本执行语义分析。在步骤330,作为语义分析 的结果,语义分析器150提供多个已排名的语义短语,而且在步骤 340,将语义短语与该文档200相关联。语义短语定义出与文档200 一起呈现的内容,该内容是广告、到远程信息资源的链接或第二文 档。

图4为根据这里的实施方式,由语义分析器150执行对提取文 本的语义处理的处理步骤410-450的流程图400。流程图400中的步 骤涉及在图2的框图中示出的语义处理器150-2。在步骤410,语义 分析器150在提取的纯文本内识别至少一个标志,该标志表示文档 中的一串文本和字符。具体地,语义分析器150基于在文档200中 的出现而保留标志(例如,文档200中的单词)。然而,不需要保 留标点、算数符号、数字、介词、限定词和逻辑算子。

在步骤420,语义分析器150为表示标志在文档中出现的总次数 的标志值列表。在步骤430,语义分析器150在提取的纯文本中识别 至少一个短语,该短语包含相邻标志的分组。在步骤440,语义分析 器150为短语(xj)的短语值(n)列表,该值表示该短语在文档中 出现的总次数。

例如,假设有关于清醒梦境的主题内容的文档200具有在文档 200中出现的每个短语。短语“梦状态”提及(例如,单个出现)2 次。短语“清醒梦境”提及(例如,单个出现)8次。短语“我的梦 提及4次,而短语“梦世界”仅仅提及1次。每个短语都指定有该 短语在文档中单个出现的总次数的提及值。因此,由于提及(例如, 单个出现)了2次短语“梦状态”,所以“梦状态”的提及值为2。

在这些短语中,标志“梦”都出现其中,出现总共15次。诸如 “梦”的标志的标志出现值是标志作为短语的一部分在文档的所有 提取短语中出现的总次数。因此,“梦”的标志出现值是15。

在步骤450,语义分析器150为短语的至少一个提及偏置(offset) 列表,该提及偏置表示短语在文档中单个出现(即,提及)的位置。 例如,短语“清醒梦境”在文档200中被提及(例如,单个出现)8 次,所以“清醒梦境”的提及值是8(n=8)。“清醒梦境”的8 个单次出现中的每一个都将具有表示它在文档200中的位置的提及 偏置。“清醒梦境”的首次出现将具有提及偏置,其表示比“清醒 梦境”的第7次出现的提及偏置在文档200中的位置更早位置。因 此,“清醒梦境”的第7次出现将具有这样的提及偏置,其表示了 在文档200中比“清醒梦境”的第8次(nth)出现的提及偏置的位 置更早的位置。

图5为根据这里的实施方式,由语义分析器150执行对提取文 本的统计处理的处理步骤510-565的流程图500。标志和短语的统计 处理的目的是产生分数以对每个语义短语进行排名,从而帮助评估 语义短语返回诸如高度关联性广告的内容的合适性。流程图500描 述每个文档类型的最佳排名算法。流程图500中的步骤涉及在图2 的框图中示出的统计处理器150-4。在步骤510,语义分析器150计 算至少一个短语统计量。可以理解,步骤515-565的下列讨论描述一 个或多个可以分别和共同(取决于文档200的特定类型)计算的短 语统计量。

在步骤515,语义分析器150计算短语的标志频率(tf(xj)), 作为短语中标志的标志值的函数,该函数包括短语中标志的标志出 现值的平均值和中间值中的至少一个。例如,诸如“梦状态”的短 语的标志频率为它的所有标志的标志出现值的函数。因此,“梦状 态”的标志频率为“梦”(15)和“状态”(2)的标志值的函数。 即使可以使用任意的函数,用于计算短语xj的平均标志频率tf(xj) 的函数是各个标志出现值的平均值或中间值。

在步骤520,语义分析器150计算短语的平均偏置(moffset(xj))。 短语的平均偏置由下列等式确定:

moffset(xj)=1nΣi=1noffset(mi)

可以理解,offset(mi)表示短语(xj)在文档200内的一组n 次出现中的单个出现(即,提及)的提及偏置。因此,总共8次出 现(n=8)的“清醒梦境”的第7次出现的提及偏置由offset(m7) 表示。可以理解,n可以等于或者大于1(n=1)。

利用中间偏置,在步骤525,语义分析器150计算短语的偏置标 准差(soffset(xj))。偏置标准差由下面的等式确定:

soffset(xj)=1nΣi=1n(offset(mi)-moffset(xj))2

在步骤530,当文档200是讨论多个中心话题的长文章时,语义 分析器150计算文章分值(ascore(xj))。文章分值由下面的等式 确定:

ascore(xj)=n(soffset(xj))tf(xj)moffset(xj)

也就是,对于文章分值,分子是短语的“宏频”(由短语在文 档200中的出现次数(n)测定)、这些短语的出现的“分布”(由 这些出现的位置的标准差测定)、作为短语的标志频率的平方根的 短语“微频”(由文档中200中标志的频率的中间值测定)的乘积。 由于假定主题提及均匀分布,所以这被中间偏置的平方根约分(例 如,除)。

在步骤530的ascore(xj)测量中,短语频率作出积极贡献,而 且其标志还贡献由于其平方根而具有较小影响的平均频率。而且, 短语在文档中的分布程度(或在开始或最后频繁提及)还对整体分 值做出积极贡献。

在步骤535,当文档是科技文章时,语义分析器150计算科技文 章分值(tscore(xj))。相反,如果短语的提及在文档200中平均 分布,步骤530的先前测量ascore(xj)使用短语在文档中位置的标 准差。接着,ascore(xj)的值最大。然而,对于步骤535的科技文 章,文档开始和结尾的短语可能只有一半,接着标准差也最大。因 此,只有当提及(例如,单个发生)在文档200中平均分布时,科 技分值ascore(xj)才最大。通过获取短语的相邻提及间差异的标准 差,而利用了短语的提及的分布平均性。科技分值由下列等式确定:

tscore(xj)=nrsdiff(xj)

在步骤540,语义分析器150计算短语的两个单个出现的至少一 个差(r)。具体地,r定义为下列等式中的一个:r1=offset(m1)-0、 ri=offset(mi)-offset(mi-1)和rn+1=doclen-offset(mn)。可以理解,doclen表示 文档200中的文本和字符的总数。

在步骤545,语义分析器150计算中间差距(r(xj))。平均差 距由下面等式确定:

r(xj)=1nΣi=1nri

在步骤550,语义分析器150计算差距标准差(rsdiff(xj)。差 距标准差由下面等式确定:

rsdiff(xj)=1nΣi=1n(ri-r(xj))2

在步骤555,当文档200是信件(例如,信件、电子邮件、通告) 时,语义分析器150计算标准差信件分值和微频信件分值。标准差 信件分值假定:短语提及在文档200中的分布(由其提及偏置的标 准差测定)与出现次数(n)等同关联性。一般地,在文档200中均 匀提及的短语具有最大分值,在开始和结尾处同等(equally)提及 的短语也是这样。经常提及但是在分离部分的短语具有较低的权重。 对于大部分电子邮件、通告和信件,这非常合适。微频信件分值包 括对“微频”的测量,典型地,其对于使用更多先进或科技语言的 文档产生更好的结果。

在步骤560,语义分析器150定义标准差信件分值(sdlscore(xj))。 标准差信件分值由下列等式确定:sdlscore(xj)=n(soffset(xj))。在步 骤565,语义分析器150定义微频信件分值(mflscore(xj))。微频信件 分值由下列等式确定:

可以理解,对于更快的计算机,这些公式可以封装到一组关系 数据库视图定义中,这些定义使用文本标志化的高效实施来计算标 志频率。接着这些视图定义可以用于呈现和格式化计算结果。

图6为根据这里的实施方式,由语义分析器150执行提供语义 短语的已排名列表以及内容预览的处理步骤610-635的流程图600。 流程图600中的某些步骤涉及在图2的框图中示出的报告组件 150-5。另外,用于多个作为语义分析结果而提供已排名语义短语的 步骤330在步骤610-620中详细描述。

在步骤610,语义分析器150提供多个已排名语义短语的列表, 该列表根据一个或多个短语统计量对语义短语进行排名。例如,用 户接口(例如,G.U.I,网页浏览器)可以显示和概述出列出的统计 排名算法的结果。在用户接口中,可以显示语义短语(基于提取的 文本)及其各自语义统计量。可以理解,已排名语义短语210的列 表是可排序的,而且能够被用户操纵以调整排名结果。

在步骤615,语义分析器150从列表中选择一个或多个语义短语, 以创建由选中的一个或者多个语义短语中每一个所定义的内容的预 览(例如,弹出窗口、G.U.I、网页浏览器),该预览显示由选中的 一个或者多个语义短语中每一个所确定的内容的聚合。具体地,在 用户接口中列出的已排名语义短语被使能,从而能够呈现定义的内 容(例如,实际广告)以确定选中的语义短语的有效性。

例如,用户可以从已排名语义短语210的列表中选择两个短语。 响应于该选择,语义分析器150可以创建内容预览220,并且显示由 选中的语义短语确定的内容(例如,广告)。在一个实施方式中, 如果从已排名语义短语210的列表中选择的短语是“化学工程”和 “学院”,则内容预览220接着显示与“化学工程”和“学院”相 关的广告,从而用户可以判定语义短语“化学工程”和“学院”是 否提供了保证指定“化学工程”和“学院”作为文档200的语义关 键字的期望广告。如果用户确定选择的语义短语的内容预览220是 可接受的,则语义分析器150向用户提供为文档200创建关键字的 功能性。具体地,在步骤620,语义分析器150从列表中指定一个或 多个语义短语,以作为语义关键字与文档200相关联。

用于将至少一个语义短语与文档200相关联的步骤340的细节 包括,在步骤625,语义分析器150将该至少一个语义短语插入到文 档的元数据部分。在步骤630,语义分析器150将该至少一个语义短 语插入到文档的可扩展元数据平台(XMP)部分。可以理解,元数 据平台或称XMP,是使用在PDF、摄影和照片编辑应用中的可扩展 标记语言。XMP定义可以与任意已定义的元数据项目的集合一起使 用的元数据模型。XMP还为基本属性定义了特定方案,用于记录资 源(例如,文档)经过多个处理步骤的历史,例如,从被摄影、扫 描,或创作为文本;或者经过照片编辑步骤(诸如,剪裁或调色), 整装成最终图像。XMP可以允许每个软件程序或设备沿着该途径, 增加自身信息到数字资源(例如文档),其随后可以在最终数字文 件中予以保留。

在步骤635,语义分析器150为文档200指定策略。该策略使该 文档200能够利用与该文档200相关联的至少一个语义短语作为语 义关键字,以当文档200被呈现时显示该内容。在可选方式中,该 策略使文档200能够忽略与该文档相关联的该至少一个语义短语, 以当文档200被呈现时不显示该内容。

再次注意,这里的技术良好适用于配置用以自动分析文档和提 供反映文档主题及话题的语义短语的已排名列表(基于提取的文本) 的语义分析器。然而,应当注意,这里的实施方式并不局限于应用 在这些应用中,这里讨论的技术还良好适用于其它应用。

虽然参照优选实施方式特别示出和描述了本发明,本领域技术 人员可以理解,可以不脱离由附录权利要求所限定的本发明的精神 和范围,作出各种形式上或详细的改变。期望本发明的范围覆盖这 些变化。因此,本申请实施方式的前面描述并不意欲为限制性的。 相反,在下面权利要求中呈现对本发明的任意限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号