公开/公告号CN101351794A
专利类型发明专利
公开/公告日2009-01-21
原文格式PDF
申请/专利权人 汤姆森环球资源公司;
申请/专利号CN200680037240.2
申请日2006-10-04
分类号G06F17/30(20060101);
代理机构72001 中国专利代理(香港)有限公司;
代理人蒋骏;魏军
地址 瑞士祖格
入库时间 2023-12-17 21:23:40
法律状态公告日
法律状态信息
法律状态
2020-05-01
专利权的转移 IPC(主分类):G06F17/30 登记生效日:20200414 变更前: 变更后: 申请日:20061004
专利申请权、专利权的转移
2018-07-20
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20061004
专利权人的姓名或者名称、地址的变更
2016-10-12
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20061004
专利权人的姓名或者名称、地址的变更
2016-02-10
授权
授权
2009-03-11
实质审查的生效
实质审查的生效
2009-01-21
公开
公开
查看全部
版权声明和许可
[01]本专利文件的一部分包括受到版权保护的材料。当专利文件或专利公开物出现在专利和商标局的专利文件或记录中时,版权所有人不反对任何人复制所述专利文件或专利公开物,但是保留其他任何版权。下面的公告适用于该文件:Copyright2005-2006,Thomson GlobalResources。
有关申请的交叉引用
[02]本申请要求2005年10月4日递交的美国临时申请60/723,483的优先权。该临时申请通过引用并入本文。
技术领域
[03]本发明的各个实施例涉及用于识别文件中的医学内容并且将那些文件根据所述医学内容链接到其他文件的系统、方法和软件。
背景技术
[04]互联网和其他计算机网络的显著发展已经促进通过这些网络可获得的数据同样显著增长。与所述数据相互作用的一种基本模式是通过在电子文件中使用超链接。
[05]超链接是用户可选择的组元,例如突出显示的文字或图标,所述文字或图标将电子文件的一部分链接到相同文件的另一部分或者将之链接到数据库或计算机网络中的其他文件。通过合适的计算机设备和网络访问,用户可选择或调用链接,并且几乎同时地浏览事实上位于全世界任何计算机上的其他文件。
[06]虽然很多超链接通过手动形成且插入文件中,但是近年来已经发现用于识别特定类型文件文字并且将所识别的文字使用超链接链接到其他相关文件的自动技术的开发。例如,为了便于法律研究,Westlaw法律研究系统自动识别文字中的法律引用和律师名称,并且将所述引用链接到数据库中相对应的法律文件,并且将律师名称链接到在线通讯录中介绍人物生平的词条。更详细的内容参见美国专利7,003,719和美国公开的专利申请US2003/0135826A1,这两个专利文件都通过引用并入本文。
[07]虽然Westlaw系统中的自动链接技术对于法律引用和名称非常有效,但是本发明人认为,该技术对于例如医学术语等其他类型的内容不是很适合。例如,本发明人意识到,识别文字中的法律引用和单位名称通常比识别医学术语更简单,因为术语在一个上下文中可能用作医学术语,而在另一个上下文中可能用作非医学术语。另一方面,法律引用和人物名称通常用作法律引用和人物名称而与上下文无关。
[08]因此,本发明人认为需要识别术语为医学术语还是非医学术语的自动方法。
发明内容
[09]为了解决这个和/或其他需要,本发明人设计了便于确定术语为医学术语还是非医学术语的系统、方法和软件等。
附图说明
[10]图1是对应于本发明一个或多个实施方式的示例性系统100的方框图。
[11]图2是对应于本发明一个或多个实施方式的操作系统100的示例性方法的流程图。
具体事实方式
[12]下面参照并结合图1和2的详细的说明书描述并说明了本发明的一个或多个示例性实施方式。对这些不是试图限制,而仅为例证并教导本发明而提供的实施方式足够详细地进行了展示和描述,已使本领域的技术人员能够制造并且使用本发明。因而,在适于避免使本发明不清楚之处,可能会省略某些本领域技术人员公知的信息。
[13][13]体现发明的示例性计算机系统
[14]图1显示了结合用于评估例如医学术语等术语模糊性的系统、方法和软件的示例性计算机系统100的示意图。虽然该示例性系统显示为互相连接的单独部件的集合,但是一些其他实施方式可使用更多或更少的部件来实现其功能。而且,一些实施方式通过有线或无线的局域或宽区网络将一个或多个部件互相连接。一些实施方式使用一个或多个大型计算机或服务器实现系统100的一个或多个部分。因而,本发明不限于任何具体的功能划分。
[15]通常,系统100包括输入术语110、术语模糊性计算器120和模糊性分数(score)输出130。
[16]输入术语110包括一个或多个术语,例如来自医学数据库的一组术语。在示例性实施方式中,输入术语110包括来自一体化医学语言系统(Unified Medical Language System,UMLS)的术语。下面的表格显示出,UMLS包括很多疾病、损伤、药物处理(medical procedure)、身体部分和药物类别中的术语。
[17]在一些实施方式中,输入术语110是从一个或多个输入文件中摘录的术语,所述术语例如电子司法意见或其他类型的法律文件等。
[18]术语模糊性计算器120连接到数据库110。计算器120包括一个或多个传统的处理器121、显示装置122、接口装置123、网络通讯装置124和存储器125。存储器125可以采用各种形式,例如电、磁和/或光学载体介质上的编码指令或数据,所述存储器125包括术语模糊性软件126。术语模糊性软件126包括用于确定或计算每一个输入术语t和模糊性分数的各种软件和数据组件,Score(term)(分数(术语))定义为:
>
其中
>
并且lamda1和lamda2是常数,其在一些实施方式中用于标准化或光滑处理计分函数。在一些实施方式中,lamda1和lamda2设置为0.5。该示例性实施方式使用断词法语言模型(ngram backoff),通过Witten Bell平滑处理补偿来使语言模型平滑化。
[19]示例性计分函数基于某种直觉,即例如“hepatic(肝的)”等医学断词法(ngrams)在UMLS中出现得比在新闻或法律中更频繁并且例如“drinki酒”等断词在新闻或法律中比在UMLS中出现得更频繁。具有某种断词的术语倾向于产生更高的分数,所述断词在UMLS中比在新闻或法律中更可能被预知,因而表明,给定术语当在新闻或法律文件中被发现时,所述给定术语是医学术语的可能性比不是医学术语的可能性更大。
[20]术语模糊性计算器120根据输入术语而输出一组一个或多个的模糊性分数130。(图1显示出,输入术语110和输出分数130也保留在存储器130中。)在示例性实施方式中,分数作为有序列表而被输出,每一个分数与对应的术语相关。(注意术语可包括一个或多个词)。
[21]模糊性分数可用于各种目的,包括例如确定是否合适在包括给定术语的文件中插入回到与所述术语相关的ULMS文件的链接。例如,在所显示的输出术语中,模糊性分数大于1.5的术语可认为明显是医学术语,并且因而有把握地链接回到相关的ULMS文件。另一方面,在没有上下文关系确证的情况下,具有低分数的例如“文字沙拉”或“预期性呕吐”等术语通常不应链接回到相关的ULMS文件。
系统100的示例性操作
[22]图2显示了示出操作系统100的示例性方法的流程图200。流程图200包括方框210-230。虽然这些方框(及该文件中其他流程图的方框)在示例性实施方式中连续布置,但是其他实施方式可将方框重新排序、省略一个或多个方框和/或使用多处理器或构成两个或多个虚拟机或子处理器的单个处理器执行并联的两个或多个方框。而且,其他实施方式可将所述方框实现为一个或多个特定的相互连接的硬件或具有相关控制和数据信号模块的集成电路,所述相关的控制和数据信号在所述模块之间并且通过所述模块通讯。因而,该文件中的这个和其他示例性步骤流程适用于软件、韧件、硬件及其他类型的实现方式。
[23]方框210需要接收一组术语。在该示例性实施方式中,这种需要从ULMS或输入到术语模糊性计算器120的存储器126中的新闻或法律文件接收一组术语。在方框220处继续执行。
[24]方框220需要为一个或多个输入术语确定一个或多个模糊性分数。在示例性实施方式中,这需要根据在上述方程中的用于Score(term)的以上提出的定义来计算模糊性分数,所述定义提供了两种条件概率的比率之和。每一个条件概率基于一组文件或文件集语言模型。在一些实施方式中,一个条件概率比率由计分函数忽略。而且,在一些实施例中,条件概率比率颠倒。
[25]方框230需要输出一个或多个确定的模糊性分数。在示例性实施方式中,这需要以打印或其他人类可读形式输出;但是,在其他实施方式中,输出也可由另一个机器、部件或软件模块使用,或仅保留在存储器中。
结论
[26]上面描述的实施例仅出于示例并且教导一种或多种实现或应用本发明的方式目的,而不是为了限制其宽度或范围。本发明的包括所有实现或应用本发明教导的实际范围仅由下面的权利要求及其等同物限定。
机译: 用于评估医学术语模糊性的系统,方法和软件
机译: 用于评估医学术语模糊性的系统,方法和软件
机译: 用于评估医学术语模糊性的系统,方法和软件