首页> 中国专利> 用于机器人外科手术平台的基于机器学习的视觉-触觉反馈系统

用于机器人外科手术平台的基于机器学习的视觉-触觉反馈系统

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明题为“用于机器人外科手术平台的基于机器学习的视觉‑触觉反馈系统”。本文所述的实施方案提供了用于基于捕获的内窥镜图像生成触觉反馈信号的视觉‑触觉反馈系统的各种示例。在一个方面，用于生成该触觉反馈信号的方法包括以下步骤：接收针对在机器人外科手术系统上执行的外科手术规程捕获的内窥镜视频；检测该内窥镜视频中涉及给定类型的外科手术工具‑组织交互的外科手术任务；选择被配置用于分析该给定类型的外科手术工具‑组织交互的机器学习模型；对于与描绘该给定类型的外科手术工具‑组织交互的该检测到的外科手术任务相关联的视频图像，将该选择的机器学习模型应用于该视频图像以预测该描绘的外科手术工具‑组织交互的强度水平；以及然后向执行该外科手术任务的外科医生提供该预测强度水平，作为该给定类型的外科手术工具‑组织交互的触觉反馈信号。

著录项

公开/公告号CN113164208A

专利类型发明专利
公开/公告日2021-07-23

原文格式PDF
申请/专利权人威博外科公司;
展开▼

申请/专利号CN201880097480.4
发明设计人 J·文卡塔拉曼;D·A·米勒;
展开▼

申请日2018-09-18
分类号A61B34/00(20160101);A61B34/10(20160101);A61B90/00(20160101);A61B34/35(20160101);G16H20/40(20180101);G06N20/00(20190101);A61B17/00(20060101);A61B18/00(20060101);
代理机构72001 中国专利代理(香港)有限公司;
代理人刘书航;吕传奇
地址美国加利福尼亚州
入库时间 2023-06-19 11:57:35

说明书

技术领域

本公开整体涉及构建外科手术视频分析工具，并且更具体地涉及用于基于描绘外科手术工具-组织交互类型的捕获的内窥镜图像生成触觉反馈信号并且向执行涉及外科手术工具-组织交互类型的外科手术任务的外科医生提供触觉反馈信号的系统、设备和技术。

背景技术

在包括常规腹腔镜规程在内的常规外科手术规程中，握持一个或两个外科手术工具并且随后将一个或两个外科手术工具施加到组织上的外科医生，例如，通过推动或牵拉组织，实际上可感觉到由于通过外科手术工具传输回外科医生的物理触觉反馈而对组织施加的压力或张力。基于该物理触觉反馈，外科医生可快速调节施加的力，直到接收到期望的物理触觉反馈。

相比之下，在机器人外科手术平台中，与远程控制器一起工作的外科医生与机器人臂和与外科受检者交互的端部执行器/外科手术工具物理地和机械地分离，并且因此不接收物理触觉反馈。为了计量施加的力，通常使用“视觉触觉”技术。更具体地，外科医生在视频监视器上的视频馈送中观看组织在施加的力下的视觉外观，并且使用他们的经验和专业知识在他们在视频馈送看到的内容与他们认为应对组织施加的力之间做出精神映射，并且在必要时对施加的力做出调整。

然而，在基于从一个外科医生到另一个外科医生以及在不同技能/经验水平的外科医生之间的视觉外观来判断对组织施加的力，可存在大量的不一致性。可以预期的是，经验更丰富的外科医生可基于视觉触觉做出比经验不太丰富的外科医生更准确的映射。遗憾的是，没有好的方法提供外科医生在视频中看到的内容与真实施加的力之间的一致相关性。

发明内容

在一个方面，公开了一种用于基于捕获的内窥镜视频生成触觉反馈的方法，该捕获的内窥镜视频描绘了在机器人外科手术规程期间一个或多个外科手术工具与组织之间的交互。该方法可通过接收针对在机器人外科手术系统上执行的外科手术规程捕获的内窥镜视频而开始。该方法然后检测内窥镜视频中的外科手术任务，该外科手术任务涉及通过使用一个或多个外科手术工具对组织施加力而引起的给定类型的外科手术工具-组织交互。接下来，该方法基于检测到的外科手术任务从一组机器学习模型中选择机器学习模型，其中该组机器学习模型中的每个机器学习模型被训练成分析给定类型的外科手术工具-组织交互。对于与描绘给定类型的外科手术工具-组织交互的检测到的外科手术任务相关联的视频图像，该方法然后将选择的机器学习模型应用于视频图像，以预测描绘的外科手术工具-组织交互的强度水平。最后，该方法向执行外科手术任务的外科医生提供预测的强度水平，作为给定类型的外科手术工具-组织交互的触觉反馈信号。

在一些实施方案中，该方法通过检测进入视野中的一个或多个外科手术工具来检测内窥镜视频中涉及给定类型的外科手术工具-组织交互的外科手术任务。

在一些实施方案中，选择的机器学习模型被训练成将描绘给定类型的外科手术工具-组织交互的视频图像或视频图像序列分类成针对给定类型的外科手术工具-组织交互定义的一组预定强度水平中的一个。

在一些实施方案中，该方法将选择的机器学习模型应用于视频图像，以基于分析描绘的外科手术工具-组织交互的视觉外观，通过针对给定类型的外科手术工具-组织交互将视频图像分类成一组预定强度水平中的一个来预测描绘的外科手术工具-组织交互的强度水平。

在一些实施方案中，该方法通过以下方式向执行外科手术任务的外科医生提供预测的强度水平：由选择的机器学习模型将预测的强度水平转换成物理反馈信号；以及经由机器人外科手术系统的用户界面设备（UID）将转换的物理反馈信号传送至执行外科手术任务的外科医生。

在一些实施方案中，物理反馈信号是机械振动，并且该方法通过将机械振动传输至由外科医生握持的UID的远程控制器，经由机器人外科手术系统的UID将转换的物理反馈信号传送至外科医生，使得外科医生可直接感觉到物理反馈信号。

在一些实施方案中，该方法还包括使用机械振动的不同频率或不同强度表示给定类型的外科手术工具-组织交互的不同的预测强度水平。

在一些实施方案中，物理反馈信号是听觉信号，并且该方法通过使用UID的扬声器传输听觉信号，经由机器人外科手术系统的UID将转换的物理反馈信号传送至外科医生，使得外科医生可直接听到物理反馈信号。

在一些实施方案中，该方法还包括使用听觉信号的不同音量或不同音高表示给定类型的外科手术工具-组织交互的不同的预测强度水平。

在一些实施方案中，通过使用一个或多个外科手术工具对组织施加压缩力而引起给定类型的外科手术工具-组织交互。

在一些实施方案中，通过使用一个或多个外科手术工具对组织施加张力而引起给定类型的外科手术工具-组织交互。

在一些实施方案中，通过使用单个外科手术工具对组织施加力而引起给定类型的外科手术工具-组织交互。

在一些实施方案中，通过使用两个或更多个外科手术工具对组织施加力而引起给定类型的外科手术工具-组织交互。

在一些实施方案中，给定类型的外科手术工具-组织交互与以下中的一者相关联：(1)在缝合操作期间系外科结；(2)在烧灼操作期间牵拉组织；以及(3)在吻合操作期间压缩组织。

在一些实施方案中，该组预定强度水平包括最大强度水平。如果确定预测强度水平高于最大强度水平，则该方法还包括生成警告信号以传送至外科医生。

在一些实施方案中，在使用选择的机器学习模型之前，该方法还包括通过以下方式训练选择的机器学习模型：(1)接收一组内窥镜视频；(2)处理所述内窥镜视频中的每个内窥镜视频，以从所述内窥镜视频中提取描绘所述给定类型的工具-组织交互的一个或多个片段；(3)对于所述提取的视频片段中的每个视频片段，根据一组预定强度水平注释描绘所述给定类型的工具-组织交互的视频图像；以及(4)使用注释的视频图像作为地面实况信息训练机器学习模型以分析给定类型的外科手术工具-组织交互。

在另一方面，公开了一种用于基于捕获的内窥镜视频生成触觉反馈的系统，该捕获的内窥镜视频描绘了在机器人外科手术规程期间一个或多个外科手术工具与组织之间的交互。该系统包括：一个或多个处理器；存储器，所述存储器联接到所述一个或多个处理器；接收模块，该接收模块用于接收针对在机器人外科手术系统上执行的外科手术规程捕获的内窥镜视频；检测模块，该检测模块用于检测内窥镜视频中的外科手术任务，该外科手术任务涉及通过使用一个或多个外科手术工具对组织施加力而引起的给定类型的外科手术工具-组织交互；选择模块，该选择模块用于基于检测到的外科手术任务从一组机器学习模型中选择机器学习模型，其中该组机器学习模型中的每个机器学习模型被训练成分析给定类型的外科手术工具-组织交互；机器学习模块，该机器学习模块被配置为，对于与描绘给定类型的外科手术工具-组织交互的检测到的外科手术任务相关联的视频图像，将选择的机器学习模型应用于视频图像以预测描绘的外科手术工具-组织交互的强度水平；和用户界面模块，该用户界面模块用于向执行外科手术任务的外科医生提供预测的强度水平，作为给定类型的外科手术工具-组织交互的触觉反馈信号。

在一些实施方案中，该系统还包括用于用以下步骤训练选择的机器学习模型的机器学习模型训练模块：(1)接收一组内窥镜视频；(2)处理所述内窥镜视频中的每个内窥镜视频，以从所述内窥镜视频中提取描绘所述给定类型的工具-组织交互的一个或多个片段；(3)对于所述提取的视频片段中的每个视频片段，根据一组预定强度水平注释描绘所述给定类型的工具-组织交互的视频图像；以及(4)使用注释的视频图像作为地面实况信息训练机器学习模型以分析给定类型的外科手术工具-组织交互。

在又一个方面，公开了一种机器人外科手术系统。该机器人外科手术系统包括：一个或多个外科手术工具，每个外科手术工具联接到机器人臂；内窥镜，所述内窥镜被配置为捕获内窥镜视频；接收模块，该接收模块用于接收在机器人外科手术系统上执行的外科手术规程的捕获的内窥镜视频；检测模块，该检测模块用于检测内窥镜视频中的外科手术任务，该外科手术任务涉及通过使用一个或多个外科手术工具对组织施加力而引起的给定类型的外科手术工具-组织交互；选择模块，该选择模块用于基于检测到的外科手术任务从一组机器学习模型中选择机器学习模型，其中该组机器学习模型中的每个机器学习模型被训练成分析给定类型的外科手术工具-组织交互；机器学习模块，该机器学习模块被配置为，对于与描绘给定类型的外科手术工具-组织交互的检测到的外科手术任务相关联的视频图像，将选择的机器学习模型应用于视频图像以预测描绘的外科手术工具-组织交互的强度水平；和用户界面模块，该用户界面模块用于向执行外科手术任务的外科医生提供预测的强度水平，作为给定类型的外科手术工具-组织交互的触觉反馈信号。

附图说明

将通过查看以下具体实施方式和附图来理解本公开的结构和操作，其中类似的附图标号是指类似的部件，在附图中：

图1A示出了根据本文所述的一些实施方案的示出具有机器人外科手术系统的示例手术室环境的图。

图1B示出了根据本文所述的一些实施方案的在图1A中的机器人外科手术系统中实现的示例性视觉-触觉反馈系统的框图。

图2呈现了根据本文所述的一些实施方案的示出用于构建新的视觉-触觉模型以用于分析特定类型的外科手术工具-组织交互的示例性方法的流程图。

图3呈现了根据本文所述的一些实施方案的示出用于使用所公开的视觉-触觉反馈系统向在机器人外科手术系统中操作的外科医生提供实时触觉反馈的示例性方法的流程图。

图4示出了根据本文所述的一些实施方案的描绘正在系一系列外科结的缝合操作的组合的摄影和示意图像。

图5示出了根据本文所述的一些实施方案的描绘在抓持器正在牵拉待烧灼的组织的机器人外科手术规程期间的烧灼准备步骤的摄影图像。

图6概念性地示出可用来实现主题技术的一些实施方案的计算机系统。

具体实施方式

下文列出的具体实施方式旨在描述主题技术的各种配置，并且并非意在表示可实践主题技术的唯一配置。附图并入本文并构成具体实施方式的一部分。具体实施方式包括具体细节，以便透彻理解主题技术。然而，主题技术不限于本文列出的具体细节，并且可在没有这些具体细节的情况下实施。在一些情况下，结构和部件以框图形式示出，以避免模糊主题技术的概念。

在整个该专利公开中，术语“强度水平”一般用于指在外科手术期间由一个或多个外科手术工具直接或间接地施加在身体组织上的力的强度，其中施加的力可包括压缩力（例如，通过压缩组织）或张力（例如，通过牵拉组织）。此外，术语“外科手术工具-组织交互”一般用于指一个或多个外科手术工具与身体组织之间的任何交互，该交互涉及由一个或多个外科手术工具将力（例如，压缩力或张力）直接或间接地对组织施加。一般地，假设该外科手术工具-组织交互将导致一定程度的组织形状变化，诸如组织的长度、厚度、曲率或总体尺寸。在整个该专利公开中，给定类型的外科手术工具-组织交互也称为给定类型的“外科手术任务”。

医学规程诸如外科手术的录制视频包含非常有价值的丰富信息，用于医学教育和培训、评估和分析外科医生的外科手术质量和技能、以及改善外科医生的外科手术结果和技能。有许多外科手术规程涉及显示和捕获外科手术规程的视频图像。例如，几乎所有微创手术（MIS）诸如内窥镜、腹腔镜检查和关节镜检查都涉及使用视频摄像机和视频图像来协助外科医生。此外，最先进的机器人辅助外科手术需要捕获手术中视频图像并显示在外科医生的监视器上。因此，对于许多前述外科手术规程，例如胃套管手术或胆囊切除术，大堆外科手术视频已经存在，并且由于由来自不同医院的许多不同外科医生执行的大量外科手术病例而持续产生。存在特定外科手术规程的大量（并且不断增加的）外科手术视频的简单事实让给定规程的外科手术视频处理和分析成为潜在的机器学习问题。

如上所述，机器人外科手术平台一般缺少从安装在机器人臂上的外科手术工具到通过远程控制器操纵外科手术工具的外科医生的直接物理触觉反馈。因此，操作附接到机器人臂的外科手术工具的外科医生必须基于来自内窥镜视频馈送的视觉反馈（例如，通过查看用户显示器）计量外科手术工具对器官或组织施加的力，诸如外科结被系在组织上有多紧或组织被抓持器牵拉有多紧以用于烧灼。换句话讲，外科医生直接观察内窥镜视频馈送中外科手术工具与组织之间交互的视频图像，并且基于这些视觉图像的心理解读计量施加的力。因此，这种视觉触觉技术严重依赖于外科医生的经验，以将外科手术工具-组织交互的视觉外观与交互的物理强度相关，并且因此可以会不准确和不一致两者。

本专利公开的一个目的是在外科手术工具-组织交互在内窥镜视频馈送中的视觉外观与外科医生可通过某种形式的物理反馈经由机器人外科手术系统的一个或多个用户界面设备（UID）物理地“感觉”的内容之间建立相关性。为了实现该目的，本专利公开的各种实施方案将在机器人外科手术平台上使用的基于经验的视觉触觉技术结合到包括各种机器学习模型的基于机器学习的视觉-触觉反馈系统中。这些机器学习模型中的每一个在被适当训练时（即，用训练数据教导机器），可在描绘各种程度的外科手术工具-组织交互的视频图像与由外科手术工具对组织施加的实际量的力之间建立准确且一致的相关性。因此，所提出的机器学习模型也可称为“视觉-触觉机器学习模型”或“视觉-触觉模型”。更具体地，每个独特的视觉-触觉模型可被构造用于特定类型的外科手术工具-组织交互，该外科手术工具-组织交互涉及由一个或多个外科手术工具将压缩或张力直接或间接地对组织施加。例如，一个此类视觉触觉机器学习模型可被构造用于预测缝合操作中外科结的紧密度水平（其中两个镊子通过正在系的外科结间接对组织施加力），另一个此类机器学习模型可被构造用于当用抓持器牵拉组织以准备烧灼时预测组织上的张力水平，并且又一个此类视觉-触觉模型可被构造用于当用吻合器挤压组织以准备吻合时预测组织上的压缩水平。

在各种实施方案中，所公开的基于机器学习的视觉-触觉反馈系统还包括视觉-触觉分析模块，该视觉-触觉分析模块包括训练的视觉-触觉模型。使用给定类型的外科手术工具-组织交互的训练的视觉-触觉模型，所公开的视觉-触觉分析模块可自动分割内窥镜视频，以检测包含给定类型的外科手术工具-组织交互的视频图像，以及实时预测这些视频图像中描绘的外科手术工具-组织交互的强度水平，例如，以预测外科结有多紧或有多松或者组织被一个或多个外科手术工具握持有多紧或有多松。

在各种实施方案中，所公开的视觉-触觉反馈系统还包括联接在所公开的视觉-触觉分析模块与机器人外科手术系统的UID之间的触觉反馈信号发生器。在各种实施方案中，来自给定视觉-触觉模型的图像分类输出可被馈送到反馈信号发生器以转换成适当的物理反馈信号，也称为“触觉提示”。这些触觉提示随后通过UID传送至机器人外科手术系统的外科医生/用户作为物理反馈，以指示外科手术工具-组织交互的当前强度水平，诸如外科结或组织抓取的紧密度。基于接收的物理反馈，外科医生可快速调节外科手术工具上的力以在被操纵的组织上实现期望的强度水平。

在一些实施方案中，为了建立用于给定类型的外科手术工具-组织交互的机器学习模型，可从相关的外科手术视频中收集大量的视频帧，例如，包含描绘给定类型的外科手术工具-组织交互的图像的数千到数十万个那些视频帧。接下来，图像由一组专家注释/标记成一组预定强度水平，这些专家被训练成基于用于将外科手术工具-组织交互的视觉外观映射到该组预定强度水平的一组建立的标准将适当的强度水平分配给外科手术工具-组织交互的视频图像。然后，给定类型的外科手术工具-组织交互的注释的视频图像可用作地面实况/训练数据，以在外科手术工具-组织交互中训练对应的视觉-触觉模型。一旦已用训练数据训练视觉-触觉模型，视觉-触觉模型就可被结合到被配置为接收实时内窥镜视频的所公开的视觉-触觉分析模块中。

因此，所公开的视觉-触觉反馈系统允许在机器人外科手术规程的外科手术视频馈送中的外科手术工具-组织交互的视觉外观与执行外科手术规程的外科医生可经由机器人外科手术系统的一个或多个UID物理地感觉到的内容之间建立相关性。集成所公开的视觉-触觉反馈系统与机器人外科手术系统可使给定类型的外科手术工具-组织交互的视觉图像的解释成为自动且高度标准化的操作，从而去除外科医生在精神上解释视觉图像的需要以及与此类解释相关联的不确定性和不一致性。虽然所公开的视觉-触觉反馈系统和技术一般借助与外科手术规程相关联的少数特定操作（诸如缝合、烧灼和吻合（stapling））来描述，但是本公开并不意在限于上述指定操作。一般地，所公开的视觉-触觉反馈系统和技术适用于涉及一个或多个外科手术工具与身体组织之间交互的任何外科手术规程，对于该交互，外科手术规程可在视频馈送中捕获。注意，所公开的视觉-触觉反馈系统还可使机器人外科手术体验对于外科医生而言显著更真实和自然。

图1A示出了根据本文所述的一些实施方案的示出具有机器人外科手术系统100的示例手术室环境的图。如图1A所示，机器人外科手术系统100包括外科医生控制台120、控制塔130和位于机器人外科手术平台116（例如，桌或床等）处的一个或多个外科机器人臂112，其中具有端部执行器的外科手术工具附接到机器人臂112的远端以用于执行外科手术规程。机器人臂112被示出为桌上安装的系统，但是在其他配置中，机器人臂可被安装到推车、天花板或侧壁或其他合适的支撑表面中。机器人外科手术系统100可包括任何当前存在的或未来开发的机器人辅助外科手术系统以用于执行机器人辅助外科手术。

一般地，用户/操作者140，诸如外科医生或其他操作者，可使用用户控制台120远程操纵机器人臂112和/或外科手术器械（例如，在遥控操作中）。用户控制台120可位于与机器人外科手术系统100相同的手术室中，如图1A所示。在其他环境中，用户控制台120可位于相邻或附近的房间中，或从不同的建筑物、城市或国家的远程位置遥控操作。用户控制台120可包括座椅132、脚操作的控件134、一个或多个手持式用户界面设备（UID）136以及至少一个用户显示器138，该至少一个用户显示器被配置为显示例如患者体内的外科手术部位的视图。如示例性用户控制台120所示，位于座椅132中并且查看用户显示器138的外科医生可操纵脚操作的控件134和/或UID 136以远程控制机器人臂112和/或安装到该臂的远端的外科手术器械。

在一些变型中，用户可在“在床上”（OTB）模式下操作机器人外科手术系统100，其中用户在患者的一侧并且同时操纵附接至其的机器人驱动的工具/端部执行器（例如，用一只手握持手持式用户界面设备（UID）136）和手动腹腔镜工具。例如，用户的左手可操纵手持式UID 136以控制机器人外科手术部件，同时用户的右手可操纵手动腹腔镜工具。因此，在这些变型中，用户可对患者执行机器人辅助MIS和手动腹腔镜外科技术两者。

在示例性规程或外科手术期间，以无菌的方式预备和覆盖患者以实现麻醉。对手术部位的初始进入可用收起配置或抽出配置的机器人外科手术系统100手动地执行以促进进入外科手术部位。一旦完成进入，就可执行机器人系统的初始定位和/或准备。在手术规程期间，用户控制台120中的外科医生可利用脚操作的控件134和/或UID 136操纵各种外科手术工具/端部执行器和/或成像系统以执行外科手术。手动辅助也可由穿着无菌手术服的人员在手术规程台处提供，这些人员可执行任务包括但不限于，缩回组织或者执行涉及一个或多个机器人臂112的手动重新定位或工具更换。还可存在非无菌人员以在用户控制台120处辅助外科医生。机器人外科手术系统100和/或用户控制台120可被配置或设定成当完成规程或外科手术时，处于用于促进一个或多个术后规程的状态，包括但不限于机器人外科手术系统100清洁和/或灭菌、和/或保健记录进入或打印输出，无论是电子的还是硬拷贝的，诸如经由用户控制台120。

在一些方面，机器人外科手术平台116与用户控制台120之间的通信可通过控制塔130，该控制塔可将来自用户控制台120的用户命令翻译成机器人控制命令并且传输到机器人外科手术平台116。控制塔130还可将来自机器人外科手术平台116的状态和反馈传输回用户控制台120。机器人外科手术平台116、用户控制台120和控制塔130之间的连接可经由有线和/或无线连接，并且可以是专有的和/或可使用各种数据通信协议中的任一个来执行。任何有线连接可任选地内置到手术室的地板和/或墙壁或天花板中。机器人外科手术系统100可将视频输出提供给一个或多个显示器，包括手术室内的显示器以及可经由互联网或其他网络访问的远程显示器。视频输出或馈送还可以被加密以确保隐私，并且全部或部分视频输出可以被保存到服务器或电子保健记录系统。

图1B示出了根据本文所述的一些实施方案的在图1A中的机器人外科手术系统100中实现的示例性视觉-触觉反馈系统110的框图。如图1B中可见，视觉-触觉反馈系统110包括以所示顺序联接的视觉-触觉分析模块102、触觉反馈生成模块104和视觉-触觉模型训练模块106。视觉-触觉反馈系统110可实现为机器人外科手术系统100的控制塔130（未示出）内的模块作为机器人外科手术系统100的一部分。在图1B的实施方案中，机器人外科手术系统100还包括内窥镜-视频捕获模块122（图1A中描绘的系统100的实施方案中未明确示出）和一个或多个用户界面设备（UID）124。UID 124可包括结合图1A所述的手持式UID 136。然而，UID 124可包括用于向机器人外科手术系统100的用户传递物理反馈信号的其他类型的用户界面设备，诸如扬声器或监视器。

为了清楚和简单的目的，图1A中描绘的机器人外科手术系统100的各种模块，诸如外科医生控制台120、控制塔130、外科机器人臂112和机器人外科手术平台116的一些部件，在图1B中未明确示出。然而，这些模块也是图1B中描绘的机器人外科手术系统100的实施方案的集成部分。例如，所公开的视觉-触觉反馈系统110可实现为控制塔130内的计算机软件、电子硬件或两者的组合的形式的模块。

如图1B所示，所公开的视觉-触觉反馈系统110的视觉-触觉分析模块102联接到机器人外科手术系统100的内窥镜-视频捕获模块122。在一些实施方案中，内窥镜-视频捕获模块122被配置为在实时的机器人辅助外科手术规程期间捕获和记录内窥镜视频和/或静止图像。视觉-触觉分析模块102被配置为从内窥镜-视频捕获模块122接收捕获的视频和/或静止图像（下文统称为“捕获的视频图像126”），以及执行实时的视频和图像处理以分析捕获的视频和静止图像中的触觉信息。

更具体地，视觉-触觉分析模块102包括一组视觉-触觉模型108，其中该组视觉-触觉模型108中的每一个用于处理包含特定类型的外科手术工具-组织交互的视频和图像。例如，一个视觉-触觉模型108可用于分析和确定捕获的视频图像126中描绘的外科结的紧密度水平。另一个视觉-触觉模型108可用于分析和确定组织被抓持器牵拉的张力水平，以准备捕获的视频图像126中描绘的烧灼。又一个视觉-触觉模型108可用于在击发捕获的视频图像126中描绘的吻合器之前分析和确定吻合器对组织施加的压缩水平。这些仅是视觉-触觉模型108的可能用途的一些示例。可以理解，随着时间的推移，视觉-触觉模型108可包括越来越多的模型，这些模型被训练成处理在各种机器人辅助外科手术规程中发生的甚至更多类型的外科手术工具-组织交互。在各种实施方案中，视觉-触觉分析模块102还被配置为确定捕获的视频或静止图像的片段中描绘的外科手术工具-组织交互的类型，并且随后从该组视觉-触觉模型108中选择对应模型以处理视频或静止图像的片段。在各种实施方案中，给定视觉-触觉模型108可包括回归模型、基于深度神经网络的模型诸如卷积神经网络（CNN）或递归神经网络（RNN）、支持向量机、决策树、朴素甲贝叶斯分类器、贝叶斯网络或K最近邻（KNN）模型。

在一些实施方案中，视觉-触觉分析模块102中选择的视觉-触觉模型108被配置为自动分析包含对应类型的外科手术工具-组织交互的捕获的内窥镜视频的视频图像126。更具体地，对于内窥镜视频中包含给定类型的交互的内窥镜视频中包含给定类型的交互的每个视频图像/帧，选择的视觉-触觉模型108可对给定视频图像/帧做出预测和/或将其分类成一组预定的交互强度水平中的一个。来自视觉-触觉分析模块102的输出可包括对应于处理的视频图像/帧序列的计算机确定的强度水平序列。注意，如果视觉-触觉分析模块102在机器人外科手术规程期间实时操作，则来自视觉-触觉分析模块102的输出提供对由外科手术工具对组织施加的力的实时评估。

另选地或附加地，对于内窥镜视频中包含给定类型的交互的视频图像/帧序列，选择的视觉-触觉模型108可对视频图像/帧序列做出预测和/或将其分类成一组预定的交互强度水平中的一个。注意，处理多个连续视频图像/帧以生成对应的强度水平预测可比独立处理每个视频图像/帧以及生成每个视频图像/帧的强度水平预测更准确。这是因为视频图像/帧的连续序列可表示用于实现预定强度水平的连续动作，并且通过处理视频帧序列共同允许识别视频图像/帧序列之间的相关性，以促进生成视频图像/帧序列的更准确预测。在一些情况下，外科医生可在短时间段内暂停动作，以允许视觉-触觉反馈系统110有更多时间处理视频图像/帧。在这种情况下，处理视频图像/帧序列共同允许识别暂停并且预测与该暂停的持续时间相关联的视频图像/帧序列的单个强度水平。因此，来自视觉-触觉分析模块102的输出可包括对应于处理的视频图像/帧的多个序列的多个计算机确定的强度水平。

如图1B所示，来自视觉-触觉分析模块102的输出由触觉反馈生成模块104接收。在一些实施方案中，触觉反馈生成模块104被配置为将由视觉-触觉分析模块102预测和输出的强度水平转换成可传输到UID 124的物理反馈信号128。接下来，该物理反馈信号128可传送至通过机器人外科手术系统100的UID 124执行或辅助外科手术规程的操作者140（例如，外科医生140或外科医生的助手140），以引起操作者140注意。

注意，物理反馈信号128可以是操作者140可快速理解的多种形式中的一种。例如，物理反馈信号128可以是操作者140可听到的听觉反馈信号。在这种情况下，物理反馈信号128可被配置为具有音频声音的不同的音调、音量或音高以表示不同的强度水平给操作者140，并且音频信号可通过UID 124的扬声器传送到操作者140。物理反馈信号128也可以是机械信号，诸如外科医生可直接感觉到的振动。在这种情况下，物理反馈信号128可被配置具有振动的不同的振幅、频率或数量的分立脉冲以表示不同的强度水平，并且机械信号可通过UID 124的一个或两个手持控制器传送至操作者140。又如，物理反馈信号128可以是可在UID 124的监视器上显示的视觉信号以供操作员140查看。在一些实施方案中，部分或整个触觉反馈生成模块104可与机器人外科手术系统100的UID 124集成以执行前述功能。

注意，来自触觉反馈生成模块104的输出可作为触觉反馈信号实时传输给机器人外科手术系统100的操作者140，使得如果触觉反馈信号指示施加的压力或张力高于或低于期望的强度水平则操作者140可使用该信息实时调节对组织施加的压力或张力。如上所述，如果物理反馈信号128被配置为机械信号，则反馈信号可传输到由操作者140握持的远程控制器，使得反馈信号可被操作者140的手直接感觉到。

注意，即使当外科医生通过外科手术工具未接收到直接物理的触觉反馈时，所提出的视觉-触觉反馈系统110也为使用机器人外科手术系统中一个或多个外科手术工具操纵组织的外科医生提供对组织施加的力的实时反馈。此外，用所提出的视觉-触觉反馈系统，外科医生不必依赖于“视觉触觉”，即，基于视频图像中描绘的外科手术工具-组织交互的视觉外观的施加的力的心理解读。然而，外科医生仍可使用常规视觉触觉解释和交叉引用由视觉-触觉反馈系统110生成的物理反馈信号128。

继续参见图1B，注意，视觉-触觉反馈系统110还包括视觉-触觉模型训练模块106，该视觉-触觉模型训练模块被配置为用训练数据构建新的视觉-触觉模型108，然后将其添加到视觉-触觉分析模块102中的视觉-触觉模型108，并且在一些实施方案中，用附加的训练数据精细化现有的视觉-触觉模型108。如上所述，给定的视觉-触觉模型108被构造成预测特定类型的外科手术工具-组织交互的强度水平，例如外科结的紧密度水平、准备烧灼时组织抓取的紧密度水平、或在击发吻合器之前吻合器对组织施加的压缩水平。因此，在单独的模型训练过程中构建/训练这些独特的视觉-触觉模型108中的每一个。更具体地，在使用特定视觉-触觉模型108分析外科手术视频中描绘的特定类型的外科手术工具-组织交互之前，所提出的系统和技术还包括用由相同类型的外科手术工具-组织交互的注释图像构成的训练数据训练此类视觉-触觉模型。

图2呈现了根据本文所述的一些实施方案的示出用于构建新的视觉-触觉模型108以用于分析特定类型的外科手术工具-组织交互的示例性方法200的流程图。在一个或多个实施方案中，可省略、重复和/或以不同顺序执行图2中的一个或多个步骤。因此，图2所示步骤的具体布置不应被视为限制技术的范围。

方法200开始于收集包含目标类型的外科手术工具-组织交互的大量训练视频，诸如包括系外科结或牵拉组织以准备烧灼的缝合操作（步骤202）。注意，收集的训练视频可包括由外科医生对机器人辅助外科手术规程和非机器人辅助外科手术规程两者执行的实际外科手术规程视频。此外，收集的训练视频可包括为各种训练目的而创建的人工生成的规程视频。此外，收集的训练视频可包括专门创建以提供训练数据以用于建立新的视觉-触觉模型108的人工生成的规程视频。

方法200接下来处理每个视频以从视频中提取描绘目标类型的工具-组织交互的一个或多个片段（步骤204）。理想的是，每个选择的视频片段描绘了从一个或多个外科手术工具与组织的初始接触直到一个或多个外科手术工具与组织之间的交互已达到施加的力的期望量的目标交互的完整过程。例如，对于系外科结，当牵拉外科结的两个镊子工具解开结时，可认为达到力的期望量。又如，对于烧灼动作，当烧灼工具开始烧灼被抓持器牵拉的组织时，认为达到力的期望量。又如，对于吻合动作，当击发压缩组织的吻合器时，认为达到力的期望量。注意，从单个外科手术视频中，可提取同一类型的外科手术工具-组织交互的多个视频片段。

接下来，对于每个提取的视频片段，方法200然后根据一组预定强度水平注释包含目标类型的工具-组织交互的图像的视频帧（步骤206）。更具体地，对于描绘目标类型的外科手术工具-组织交互的每个视频图像，外科手术工具-组织交互的视觉外观，诸如正在系的缝合结或在张力或压缩下的组织，被一个或多个注释者观察，然后由一个或多个注释者用一组预定强度水平中的一个来标记/注释。

在各种实施方案中，该组预定强度水平可包括指示对组织施加的压力或张力的量足够高的“适当”、“中等”或“中间”强度水平。在系缝合结的情况下，当达到此类中间强度水平时，一个或多个外科手术工具与组织之间的交互完成。在烧灼或吻合的情况下，当达到此类中间强度水平时，后续动作通常将发生（即，烧灼工具或吻合器开始击发）。此外，该组预定强度水平还可包括低于中等强度水平的至少一个强度水平（可称为“低强度”水平）和高于中等强度水平的至少一个强度水平（可称为“高强度”水平）。例如，对于系缝合结，可有三个预定强度水平，指定为松散（即，低）、中等和紧密（即，高）。对于准备烧灼的组织牵拉的示例，也可有三个预定强度水平，指定为松散（即，低）、中等和紧密（即，高）。

在一些实施方案中，该组预定强度水平还可包括低于中等强度水平的两个或更多个强度水平，以及高于中等强度水平的两个或更多个强度水平。例如，对于缝合结示例，可有五个预定强度水平，指定为太松散（即，太低）、松散（即，低）、中等、紧密（即，高）和太紧密（即，太高）。注意，使用该组预定强度水平中的更多水平允许将描绘目标类型的外科手术工具-组织交互的图像更准确地注释到对应的强度水平，但是在另一方面，也将使得注释步骤206显著更耗时。在一些实施方案中，该组预定强度水平可包括表示组织在施加的力下的安全阈值的最大安全强度水平，以及高于最大安全强度水平的至少一个或多个强度水平。例如，在上述示例中，“紧密”强度水平可被指定为最大安全强度水平。

在一些实施方案中，步骤206由包括临床专家的注释者执行，该临床专家的主要工作是审查外科手术视频、分析不同类型的外科手术工具-组织交互的图像以及将适当的强度水平分配给描绘各种类型的外科手术工具-组织交互的图像。因此，这些专家被专业地训练成理解各种外科手术工具-组织交互的视觉外观（例如，外科结的形状或组织在压缩或张力下的形状）与外科手术工具的施加的力之间的正确映射。

在一些实施方案中，在执行步骤206的图像注释之前，首先基于多个专家意见/指导原则建立该组预定强度水平。更具体地，一组视觉外观标准首先由在有相关外科手术规程中具有丰富经验的临床专家和外科医生建立，使得该组视觉外观标准中的每一个将该组预定强度水平中的给定预定强度水平与外科手术工具-组织交互的某种视觉外观相关。当收集多个专家意见/指导原则时，可建立给定强度水平的视觉外观标准作为多个专家意见/指导原则的平均。在准备烧灼的组织牵拉的示例中，专家意见/指导原则可包括将组织牵拉的给定强度水平映射到沿组织在张力下的边缘的一定曲率。显然，较小的曲率（即，拉紧的组织）将指示牵拉力的较高强度水平，并且较大的曲率（即，松软的组织）将指示牵拉力的较低强度水平。注意，通过收集多个专家意见和取这些值的平均来建立视觉外观标准可显著提高建立的标准的可靠性。

接下来，该组建立的视觉外观标准可用作该组预定强度水平的标称值（在视觉意义上）。因此，注释描绘目标类型的外科手术工具-组织交互的视频图像涉及将预定强度水平分配给与针对该预定强度水平建立的视觉外观标准最相似的给定图像。这样，注释的图像数据可准确地反映该组视觉外观标准，并且因此可用作地面实况数据。

在收集与目标类型的外科手术工具-组织交互有关的足够量的视频图像并且适当地注释/标记之后，方法200包括使用注释的图像作为地面实况数据训练新的视觉-触觉模型108以用于目标类型的外科手术工具-组织交互（步骤208）。如上所述，新的视觉-触觉模型108可被构造为回归模型、基于深度神经网络的模型诸如卷积神经网络（CNN）或递归神经网络（RNN）、支持向量机、决策树、朴素甲贝叶斯分类器、贝叶斯网络或K最近邻（KNN）模型。在一些实施方案中，用注释的训练图像训练新的视觉-触觉模型108涉及使用基于图像网络的深度学习框架，诸如VGGNet、ResNet、DenseNet、双通道网络、MobileNet或Inception v1-v3。然而，其他类型的深度学习框架可用于用注释的训练图像训练新的视觉-触觉模型108。最后，方法200将新的视觉-触觉模型108添加到视觉-触觉分析模块102中，以用于预测描绘目标外科手术工具-组织交互的其他未分类图像中的强度水平（步骤210）。

图3呈现了根据本文所述的一些实施方案的示出用于使用所公开的视觉-触觉反馈系统向在机器人外科手术系统中操作的外科医生提供实时触觉反馈的示例性方法300的流程图。在一个或多个实施方案中，可省略、重复和/或以不同顺序执行图3中的一个或多个步骤。因此，图3所示步骤的具体布置不应被视为限制技术的范围。注意，图3的方法300可结合图1B中所述的视觉-触觉反馈系统110来理解。

方法300开始于在机器人外科手术系统上执行的实时外科手术规程期间接收内窥镜视频馈送（步骤302）。接下来，方法300检测涉及使用一个或多个外科手术工具对组织施加压缩力或张力的特定外科手术任务（即，给定类型的外科手术工具-组织交互）的开始（步骤304）。在一些实施方案中，方法300可通过首先检测涉及此类事件的特定外科手术工具进入视野中来检测此类事件。例如，对于缝合任务，该步骤可涉及检测两对镊子进入视野中。对于吻合任务，该步骤可涉及检测吻合器进入视野中。又如，对于烧灼任务，该步骤可涉及检测一对抓持组织的镊子进入视野中。在一些实施方案中，方法300还可基于接收的内窥镜视频的自动分割检测外科手术任务的开始。例如，方法300可与内窥镜视频分割工具集成，该内窥镜视频分割工具被配置为自动识别一组预定义外科手术阶段的开始以及该组预定义外科手术阶段中每一个内的一个或多个预定义外科手术任务。在这些实施方案中，当分割工具识别涉及使用一个或多个外科手术工具对组织施加压缩力或张力的外科手术任务时，方法300可开始处理视频帧以提取视觉触觉信息。

接下来，方法300基于检测到的外科手术任务从所公开的视觉-触觉反馈系统的一组视觉-触觉模型中选择视觉-触觉模型（步骤306）。例如，如果检测到的外科手术任务是缝合操作，则方法300选择被构造成处理描绘用两个镊子工具在组织上系外科结的视频图像的视觉-触觉模型。如果检测到的外科手术任务是烧灼操作，则方法300选择被构造成处理描绘用一对抓持组织的镊子牵拉组织以准备烧灼的视频图像的视觉-触觉模型。另选地，如果检测到的外科手术任务是吻合操作，则方法300选择被构造成处理描绘由吻合器向下夹持组织以准备吻合的视频图像的视觉-触觉模型。

接下来，对于与检测到的外科手术任务相关联的捕获的视频图像或视频图像序列，方法300将选择的视觉-触觉模型应用于视频图像或视频图像序列，以将图像或视频图像序列分类成对应类型的外科手术工具-组织交互的一组预定强度水平中的一个（步骤308）。例如，如果检测到的外科手术任务是缝合操作并且对应的视觉-触觉模型包括三个预定张力水平：紧密、中等和松散，则在步骤308中由选择的视觉-触觉模型处理捕获的视频图像将生成输出作为这三个张力水平中的一个。在一些实施方案中，该组预定强度水平可包括表示组织在施加的力下的安全阈值的最大安全强度水平，以及高于最大安全强度水平的至少一个或多个强度水平。如上所述，来自选择的视觉-触觉模型的输出是“视觉触觉”信号，因为模型分析视频图像或视频图像序列并且输出视频图像或视频图像序列中描绘的工具-组织交互强度的预测。注意，使用所提出的视觉-触觉模型，工具-组织交互强度的预测成为自动过程，并且预测的准确性由选择的视觉-触觉模型的质量确定。

在提取视频图像或视频图像序列的强度水平信息之后，方法300接下来由选择的视觉-触觉模型将预测的强度水平转换成物理反馈信号（步骤310）。在一些实施方案中，步骤310可由图1B中的上述触觉反馈生成模块104执行。在其他实施方案中，选择的视觉-触觉模型的输出可被馈送到机器人外科手术系统的UID，该UID然后将预测的强度水平转换成物理反馈信号。最后，方法300经由机器人外科手术系统的UID将转换的物理反馈信号传送至执行外科手术任务的外科医生作为触觉提示（步骤312）。因此，外科医生可通过触觉提示直接“感觉”外科手术工具-组织交互的实时强度水平，而不必使用基于视频图像中看到的内容的视觉触觉。基于触觉提示，外科医生可快速调节外科手术工具上的力以在被操纵的组织上实现期望的强度水平。

在一些实施方案中，该组预定强度水平可包括表示组织在施加的力下的安全阈值的最大安全强度水平，以及高于最大安全强度水平的至少一个或多个强度水平。在这些实施方案中，如果步骤308处的预测强度水平是高于最大安全强度水平的强度水平，则方法300还可在步骤310处生成警告信号，诸如警报，该警告信号然后在步骤312处传送至外科医生。

如上所述，在步骤310处生成的物理反馈信号可采取执行外科手术任务的外科医生可快速理解的多种形式中的一种。例如，物理反馈信号可以是可显示在UID的监视器上以供外科医生查看的视觉信号，或可通过UID的扬声器播放以供外科医生听到的听觉反馈信号。如果听觉反馈信号用于表示预测的强度水平，则系统可使用音频声音的不同的音量或音高向外科医生表示不同的预测强度水平。

物理反馈信号也可以是机械反馈信号，诸如外科医生可直接感觉到的振动。如果使用机械振动，则机器人外科手术系统的UID可被配置为通过UID的一个或两个手持控制器将机械振动传输到外科医生的手或臂。在一些实施方案中，转换的机械振动可使用振动的振幅或频率表示预测的强度水平，其中较高振幅或较高频率指示较高强度水平，并且较低振幅或较低频率指示较低强度水平。另一种形式的机械反馈信号可由一系列分立脉冲构成，其中脉冲数可用于表示预测的强度水平。例如，当用于评估具有三个预定紧密度水平的外科结的紧密度时，单个脉冲可指示松散结，两个脉冲可指示中等紧密度结，并且三个脉冲可指示紧密结。

在方法300的上述步骤308中，在一些实施方案中，为了促进选择的视觉-触觉模型执行更可靠的图像分类，执行外科手术任务的外科医生可有意地暂停以在外科手术任务期间创建短延迟，即，通过将组织稳定地握持短时间段（例如，几秒）。例如，当外科医生决定已施加适当量的力到组织时，外科医生可采取暂停。在一些实施方案中，该短延迟可由选择的视觉-触觉模型识别，并且随后触发模型执行预期的图像分类。以这种方式，选择的视觉-触觉模型仅评估在该延迟期间捕获的视频帧的强度水平，并且在该延迟期间来自视觉-触觉模型的输出将保持不变。因此，在该延迟期间由外科医生接收到的触觉反馈信号也是恒定的，这允许外科医生有更多时间理解触觉提示，和更多时间基于触觉提示做出反应，例如，如果触觉提示指示强度水平太低或太高，则增大或减小施加的力；或者如果触觉提示指示强度水平恰好，则完成外科手术任务。

在一些机器人外科手术系统中，压力传感器可与某些外科手术工具诸如吻合器集成，以在这些外科手术工具被施加到组织时测量由它们施加的直接压力。因此，对于某些类型的外科手术工具-组织交互，这些传感器可向执行对应外科手术任务的外科医生提供一些触觉反馈。然而，对于涉及牵拉组织的一个或多个外科手术工具的许多类型的外科手术工具-组织交互，这些传感器数据不能单独使用或以有意义的方式组合以指示由一个或多个工具对组织施加的正确张力水平。这部分地归因于以下事实：压力传感器被设计成测量组织上的压缩力，而不是通过牵拉组织对组织施加的张力。当组织上的张力由两个或更多个工具同时在不同方向上牵拉组织而引起时，基于与两个或更多个工具集成的压力传感器的输出来确定组织上的总体张力水平变得更加困难。

相比之下，所公开的视觉-触觉反馈系统和技术能够预测对组织施加的张力水平，而不管与组织交互的外科手术工具数量。这是因为所公开的视觉-触觉反馈系统和技术基于分析外科手术工具-组织交互的总体视觉外观。使用机器学习技术，所公开的视觉-触觉反馈系统和技术通过识别外科手术工具-组织交互的视觉外观内的图案来预测组织上的正确张力水平，这与涉及的工具数量和施加的力（无论是压缩还是张力）的本质无关。因此，所公开的视觉-触觉反馈系统和技术为基于传感器的触觉反馈技术和常规的视觉触觉技术两者提供了高度灵活且显著更准确的替代方案。所公开的视觉-触觉反馈系统和技术在它们用于对高度复杂类型的外科手术工具-组织交互分类时可极其有效。

在一些实施方案中，给定类型的外科手术工具-组织交互的强度水平可通过组合来自所公开的视觉-触觉反馈技术的预测和来自集成在涉及交互的外科手术工具的末端处的压力传感器的测量结果来确定。在这些实施方案中，在视觉-触觉反馈技术不能检测到此类过大压力的情况下，传感器测量可用作防止过大压力的附加防护。例如，如果视觉-触觉模型的预测指示中等强度水平，但是压力传感器测量结果指示压力水平超过最大阈值，则仍可生成警告信号以警告外科医生检测到过大压力。还注意，当目标类型的外科手术工具-组织交互涉及用张力牵拉组织时，压力传感器测量结果也可用作防止由牵拉组织的一个或多个工具对组织施加的过大压力的防护。

在一些实施方案中，所公开的视觉-触觉反馈系统还被配置为当确定的强度水平低于最小强度阈值或高于最大强度阈值时发送物理反馈信号（例如，机械振动）。在一些实施方案中，仅当确定的强度水平已达到最大阈值时，发送反馈信号至外科医生。一旦接收到物理反馈信号（诸如振动），它就用作对外科医生的警告以停止对组织施加进一步的压力或张力。

注意，所公开的视觉-触觉反馈系统的应用不限于提供实时触觉反馈辅助。在一些实施方案中，所公开的视觉-触觉反馈系统可用在离线模式下以执行规程视频分析和生成用于技能评估的分数。更具体地，所公开的视觉-触觉反馈系统可用于处理包含描绘给定类型的外科手术工具-组织交互的图像帧的记录视频。例如，当正在执行烧灼操作时，视觉-触觉模型可用于确定由抓持器对组织施加的张力的量。同样，该模型可将描绘在烧灼期间在张力下的组织的图像分类成预定的张力水平中的一个。如果在烧灼开始时确定的张力水平过高或过低，则可将低技能分数分配给记录的烧灼操作。如果在烧灼开始时确定的张力水平是中间张力水平中的一个，则可将高技能分数分配给记录的烧灼操作。因此，所公开的视觉-触觉反馈系统可用于为在机器人外科手术平台上操作的外科医生提供实时反馈和规程后分析两者。

外科手术工具-组织交互的示例性类型

1.多个工具示例-缝合

在机器人辅助的缝合操作期间，用两个镊子系一系列外科结，每个镊子由外科医生的一只手在远程控制台上操作。一般地，理想的外科结应足够紧密以将两片组织牢固地保持在一起，但是同时不过度紧密以避免引起出血、在组织中留下压痕和/或其它并发症。更具体地，结的紧密度通过用两个镊子中的一个或两个牵拉结而增加。因为外科医生不能物理地感觉通过镊子施加在组织上的结的紧密度，所以外科医生一般在视频监视器上基于正在系的每个结的视觉外观确定结的紧密度。因此，从一名外科医生到另一名外科医生计量给定结的紧密度可有巨大的不一致性。注意，在缝合示例中，通常一个或两个外科手术工具用于在结上生成张力。

所公开的视觉-触觉反馈系统提供了基于标准化机器学习的技术，以将给定时间处的每个结自动分类成一组预定紧密度水平中的一个，并且随后基于结的模型分类生成物理反馈信号，然后将该物理反馈信号作为物理触觉反馈传送至执行外科手术任务的外科医生。图4示出了根据本文所述的一些实施方案的描绘正在系一系列外科结的缝合操作400的组合的摄影和示意图像。如图4所示，结402由两个外科镊子404和406（示出为叠加在摄影图像上的示意图）从结402（未示出）的两端牵拉以做成非常紧密的结402。注意，可清楚地观察到组织408在结402的压缩下的变形量，从而指示紧密结402。如上所述，训练的机器学习模型可用于基于外科结402的形状、或结402附近的组织408的形状、或两种形状的组合来推断/预测结402的紧密度水平。

2.单个工具示例-烧灼

在给定机器人外科手术规程期间的烧灼任务期间，外科医生用抓持器牢固地握持待烧灼的组织，使得组织在张力下。在烧灼的情况下，用一只手操作的抓持器用于提起松软的组织并且将组织置于张力下，以允许用另一只手控制的烧灼工具烧灼组织。施加的张力在组织上引起一定量的拉伸应力沿施加的张力的大致方向伸长组织。在烧灼任务中，有必要用抓持器以既不太紧也不太松的力牵拉组织。牵拉组织太紧可对组织或附接到组织的器官引起直接损坏和/或伤害，而牵拉组织太松不会对组织的区域产生足够的张力以供烧灼工具做出适当的切割。

图5示出了根据本文所述的一些实施方案的描绘在其中抓持器504正在牵拉待烧灼的组织502的机器人外科手术规程期间的烧灼准备500的摄影图像。如图5所示，组织502正被单个工具（即，抓持器504）朝左牵拉。注意，由抓持器504施加的张力引起的组织502的形状变化在图像中清晰可见。具体地，组织502的边缘506在抓持器504下方的部分几乎形成直线，从而指示高张力水平。然而，由抓持器504对组织502施加的精确量的张力对于在机器人外科手术规程期间执行的外科医生而言未知，因为外科医生不能物理地感觉通过抓持器对组织施加的张力。相反，外科医生通常基于组织在张力下的视觉外观（例如，组织502的边缘506的形状）确定对组织施加的张力。然而，从一个外科医生到另一个外科医生计量组织上的张力水平可有巨大的不一致性。注意，在烧灼示例中，通常仅一个外科手术工具用于对组织生成所需的张力。

如上所述，组织在张力下的形状指示抓持器牵拉组织有多紧或有多松，并且因此可用于训练视觉-触觉模型以将组织在张力下的图像自动分类成预定张力水平中的一个。所公开的视觉-触觉反馈系统提供了基于标准化机器学习的技术，以将构建的机器学习模型应用于描绘组织牵拉（诸如烧灼准备图像500）的视频图像，以将图像中描绘的组织牵拉自动分类成一组预定的紧密度/张力水平中的一个，并且随后基于组织牵拉的模型分类生成物理反馈信号，然后将该物理反馈信号作为物理触觉反馈传送至执行外科手术任务的外科医生。

3.单个工具示例-缝合

当吻合器用在机器人外科手术中以分离组织时，吻合器的两个钳口从组织的两侧保持组织。为了获得最佳吻合结果，钳口在它们之间向下夹持组织一定时间量，以挤出组织内的流体和空气，以便达到对吻合而言理想的一定厚度。如果吻合器在达到组织的理想厚度之前击发，则吻合器可最终打开或变形（例如，部分打开），从而导致差的吻合结果。然而，准确地确定何时击发吻合器可以是棘手的。将组织挤压至理想厚度所需的时间可大幅变化，因此一般不是可靠的指标。与吻合器集成的压力传感器可测量由钳口对组织施加的压力。然而，组织上的压力与组织厚度之间的相关性一般不够一致以用于确定何时达到期望的组织厚度。在该单个工具示例中，所公开的视觉-触觉反馈系统可用于确定何时达到期望的组织厚度和何时应击发吻合器。

为此，首先训练视觉-触觉模型以生成吻合器/组织分类器。为了训练模型，必须收集训练数据。在一些实施方案中，训练数据可通过分析包含预击发吻合器和组织的交互的图像而生成。图像可基于吻合器的钳口之间组织的厚度、或基于吻合器的形状、或上述的组合来注释。例如，吻合器的形状可包括两个钳口之间的角度。当首先对组织应用吻合器时，两个钳口之间的角度通常在最大水平。当组织被压缩时，钳口开始彼此闭合，并且钳口之间的角度减小。在某个点处，可达到最佳的钳口角度以用于击发。此外，当两个钳口压缩组织时，组织继续变形。因此，注释地面实况的图像可基于钳口的形状和被压缩的组织的形状两者。在一些实施方案中，可定义一组压缩强度水平，例如，轻、中和高水平，其中高压缩水平对应于理想的击发条件。注意，所公开的视觉-触觉反馈系统和技术可替换计时技术以确定适当的击发时间。可以理解，所公开的视觉-触觉反馈技术可在确定何时应击发方面显著更准确，因为其基于对组织厚度的直接观察，而时序是对组织厚度的间接指示。

注意，在吻合示例中，压力传感器数据可与视觉-触觉模型结合使用，以辅助确定最佳时序以用于击发吻合器。在一个实施方案中，视觉-触觉模型基于工具的配置确定是否已达到组织的正确厚度，即钳口是否适当闭合。然而，如果压力传感器测量结果指示还没有施加足够的压力到组织，则可不触发吻合器的击发。

图6概念性地示出可用来实现主题技术的一些实施方案的计算机系统。计算机系统600可为客户端、服务器、计算机、智能电话、PDA、膝上型电脑、或具有嵌入其中或连接到其上的一个或多个处理器的平板电脑、或任何其他类型的计算设备。此类计算机系统包括各种类型的计算机可读介质以及用于各种其他类型的计算机可读介质的接口。计算机系统600包括总线602、处理单元612、系统存储器604、只读存储器（ROM）610、永久存储设备608、输入设备接口614、输出设备接口606和网络接口616。在一些实施方案中，计算机系统600是机器人外科手术系统的一部分。

总线602共同表示可通信地连接计算机系统600的许多内部设备的所有系统、外围设备和芯片组总线。例如，总线602可通信地将处理单元612与ROM 610、系统存储器604和永久存储设备608连接。

处理单元612从这些各种存储器单元检索要执行的指令和要处理的数据，以便执行本专利公开中描述的各种方法，包括使用结合图1B和图2至图3所述的训练的视觉-触觉模型来构建新的视觉-触觉模型和向在机器人外科手术系统中操作的外科医生提供实时触觉反馈的上述方法。处理单元612可包括任何类型的处理器，包括但不限于微处理器、图形处理单元（GPU）、张量处理单元（TPU）、智能处理器单元（IPU）、数字信号处理器（DSP）、现场可编程门阵列（FPGA）和特定于应用的集成电路（ASIC）。处理单元612在不同的具体实施中可为单处理器或多核处理器。

ROM 610存储处理单元612和计算机系统的其他模块所需的静态数据和指令。另一方面，永久存储设备608为读写存储器设备。即使计算机系统600关闭，该设备也是存储指令和数据的非易失性存储器单元。本主题公开的一些具体实施使用海量存储设备（诸如磁盘或光盘及其对应的磁盘驱动器）作为永久性存储设备608。

其他具体实施使用可移除的存储设备（诸如软盘、闪存驱动器及其对应的磁盘驱动器）作为永久存储设备608。与永久存储设备608类似，系统存储器604为读写存储器设备。然而，与存储设备608不同，系统存储器604是易失性读写存储器，诸如随机存取存储器。系统存储器604存储处理器在运行时需要的一些指令和数据。在一些具体实施中，本专利公开中结合图1至5描述的各种方法，包括建立机器学习目标、分割和挖掘不同外科手术规程的外科手术视频、以及训练机器学习分类器以自动标注外科手术视频的方法，存储在系统存储器604、永久存储设备608和/或ROM 610中。通过这些各种存储器单元，处理单元612检索要执行的命令和要处理的数据以执行一些具体实施的方法。

总线602还连接到输入设备接口614和输出设备接口606。输入设备接口614使得用户能够向计算机系统传送信息并为其选择命令。用于输入设备接口614的输入设备包括例如字母数字键盘和指向设备（也称为“光标控制设备”）。输出设备接口606使得能够例如显示由计算机系统600生成的图像。用于输出设备接口606的输出设备包括例如打印机和显示设备，诸如阴极射线管（CRT）或液晶显示器（LCD）。一些具体实施包括的设备同时用作输入和输出设备，诸如触摸屏。

最后，如图6所示，总线602还通过网络接口616将计算机系统600连接到网络（未示出）。以这种方式，计算机可以是计算机网络（诸如局域网（“LAN”）、广域网（“WAN”）、内网或万网之网（诸如互联网）的一部分。计算机系统600的任何或所有部件可结合本主题公开一起使用。

结合本专利公开所公开的实施方案描述的各种示例性逻辑块、模块、电路和算法步骤可实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，上文已按照其功能总体上描述了各种示例性部件、区块、模块、电路和步骤。这种功能是实现为硬件还是软件取决于对总体系统施加的特定应用和设计限制。技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是这种实现决策不应解释为导致背离本公开的范围。

结合本文所公开的各方面描述的用于实现各种例示性逻辑、逻辑块、模块和电路的硬件可用被设计成执行本文所述功能的通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或其他可编程逻辑设备、分立门或晶体管逻辑、分立硬件部件或它们的任何组合来实现或执行。通用处理器可以是微处理器，但是在替代方案中，处理器可以是任何常规的处理器、控制器、微控制器或状态机。处理器还可实现为接收器设备的组合，例如，DSP和微处理器的组合、多个微处理器的组合、一个或多个微处理器与DSP核的结合、或任何其他此类配置。另选地，一些步骤或方法可由特定于给定功能的电路来执行。

在一个或多个示例性方面，功能可通过硬件、软件、固件或它们的任何组合实现。如果通过软件实现，则功能可存储为非暂态计算机可读存储介质或非暂态处理器可读存储介质上的一个或多个指令或代码。本文所公开的方法或算法的步骤可通过可驻留在非暂态计算机可读存储介质或处理器可读存储介质上的处理器可执行指令实现。非暂态计算机可读或处理器可读存储介质可为可由计算机或处理器访问的任何存储介质。举例但非限制，此类非暂态计算机可读介质或处理器可读存储介质可包括RAM、ROM、EEPROM、闪存存储器、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能够用于以指令或数据结构形式存储所需程序代码和可由计算机访问的任何其他介质。本文所用的磁盘和盘包括压缩盘（CD）、激光盘、光盘、数字通用光盘（DVD）、软盘和蓝光盘，其中“磁盘”通常通过磁性再现数据，而“盘”通过激光光学地再现数据。上述的组合也应包括在非暂态计算机可读介质和处理器可读介质的范围内。此外，方法或算法的操作可作为代码和/或指令中的一个或任意组合或一组驻留在非暂态处理器可读存储介质和/或计算机可读存储介质上，这些代码和/或指令可并入计算机程序产品中。

尽管本专利文档包含许多具体细节，但这些细节不应被理解为限制任何所公开的技术的范围或可能受权利要求保护的内容，而是作为可能特定于具体技术的具体实施方案的特征的描述。本专利文档中在单独实施方案的上下文中描述的某些特征也可在单个实施方案中组合实现。相反，在单个实施方案的上下文中描述的各种特征也可单独地或以任何合适的子组合在多个实施方案中实现。此外，虽然在上文可能将特征描述为以特定组合作用，甚至最初因此受权利要求书保护，来自受权利要求书保护组合的一个或多个特征可在一些情况下从组合中去除，并且受权利要求书保护的组合可针对子组合或子组合的变型。

类似地，尽管在附图中以特定顺序示出操作，但这不应理解为需要以所示特定顺序或按顺序执行此类操作，或者执行所有示出的操作，以实现期望的结果。此外，在本专利文档中描述的实施方案中的各种系统部件的分离不应理解为在所有实施方案中需要此类分离。

仅描述了少数具体实施和示例，并且可基于本专利文档中描述和例示的内容做出其他具体实施、增强和变型。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于机器人外科手术平台的基于机器学习的视觉-触觉反馈系统 [P] . 中国专利： CN113164208A . 2021-07-23
2. 用于机器人外科手术系统接口的触觉反馈控制装置 [P] . 中国专利： CN108135659B . 2021.09.10
3. Machine-learning-based visual-haptic feedback system for robotic surgical platforms [P] . US11058505B2 . 2021-07-13

机译：基于机器学习的机器人外科平台的视觉触觉反馈系统
4. MACHINE-LEARNING-BASED VISUAL-HAPTIC FEEDBACK SYSTEM FOR ROBOTIC SURGICAL PLATFORMS [P] . EP3849452A1 . 2021-07-21

机译：基于机器学习的机器人外科平台的视觉触觉反馈系统
5. MACHINE-LEARNING-BASED VISUAL-HAPTIC FEEDBACK SYSTEM FOR ROBOTIC SURGICAL PLATFORMS [P] . 美国专利： US2020078123A1 . 2020-03-12

机译：机器人手术平台的基于机器学习的视觉触觉反馈系统