首页> 中国专利> 基于AI检测或分类结果改变音频或视频压缩

基于AI检测或分类结果改变音频或视频压缩

页面导航

摘要
著录项
说明书
相似文献

摘要

本公开涉及基于AI检测或分类结果改变音频或视频压缩。在一个实施方案中，计算设备从一个或多个相机接收包括多个帧的视频流，其中该视频流以第一质量被接收。该计算设备使用机器学习模型来分析帧中的图像，其中该机器学习模型已被训练以检测图像中的一个或多个感兴趣对象。该计算设备识别包括视频流的连续帧的感兴趣序列，其中在该连续帧中的至少一个帧中检测到至少一个感兴趣对象。该计算设备生成包括该感兴趣序列的视频包。

著录项

公开/公告号CN112788347A

专利类型发明专利
公开/公告日2021-05-11

原文格式PDF
申请/专利权人希侬人工智能公司;
展开▼

申请/专利号CN202011183711.9
发明设计人 P·扎特卢卡尔;
展开▼

申请日2020-10-29
分类号H04N19/70(20140101);
代理机构11602 北京市汉坤律师事务所;
代理人魏小薇;吴丽丽
地址美国华盛顿州
入库时间 2023-06-19 10:55:46

说明书

技术领域

本公开整体涉及机器学习任务，并且更具体地涉及由机器学习任务执行的活动的指示。

背景技术

包括神经网络的机器学习技术可应用于计算机视觉、音频处理和其他领域中的问题。神经网络可用于执行诸如图像分类、对象检测、图像分割和语音识别等任务。神经网络已被训练成使用大型数据集对图像进行分类，该大型数据集包括例如具有地面实况标签的数百万个图像。可对从传感器诸如相机、麦克风等接收的输入执行机器学习技术。传感器可附接到用户的计算设备，诸如膝上型电脑或移动电话。例如，网络摄像头可以捕获用户的视频，并且麦克风可以捕获用户的语音。

发明内容

在特定实施方案中，包括相机的计算设备可用于网络环境中以监测场景。相机可用于捕获场景内的活动的细节。一般来讲，相机可用作安全措施，以在用户需要查看由相机捕获的录像素材的情况下提供材料。然而，该录像素材通常可能不是最佳质量。这可能是需要为一整天、一整周等时间采集的所有材料节省储存空间的结果。如今使用的相机可能能够产生高质量视频，但在许多情况下，出于存储目的的考虑，保持这种质量可能没有意义。其背后的原因在于可能没有足够的存储空间来每周7天地存储24小时视频的高质量视频。另外，多个相机可能正在贡献其各自的视频流，因此如果需要存储每个单独的视频流，则可能存在很大的存储空间需求。可能存在与很大存储空间需求相关联的高成本。为了克服该缺乏足够存储空间的问题并降低与视频流存储空间相关联的成本，通常可压缩整个视频流以将视频的大小减小到可存储在较长期存储装置中的大小。然而，分辨率的降低可能使查看视频流并确定来自视频流的重要细节更加困难。为了解决这一质量降低问题，同时仍然考虑存储容量限制，计算设备可以识别感兴趣序列，以便针对保真度很重要的重要场景保持视频质量。

在特定实施方案中，为了识别感兴趣序列，计算设备可使用机器学习模型来检测与视频流相关联的帧中的图像中的一个或多个感兴趣对象。在特定实施方案中，计算设备可以对视频流的图像帧内的各种检测到的对象进行分类。对象的分类可有助于识别感兴趣序列以及是否保留视频流的视频质量。在特定实施方案中，计算设备可基于分类改变音频或视频压缩。通过选择性地压缩视频流的部分，计算设备可在不显著增加视频流的存储成本的情况下保留感兴趣序列的视频质量。这可有助于通过提高感兴趣序列的视频质量来提高用户查看视频流的能力。

上文所公开的实施方案仅为示例，并且本公开的范围不限于这些实施方案。具体实施方案可包括上文所公开的实施方案的部件、元件、特征、功能、操作或步骤的全部、部分或不包括它们中的任一者。根据本发明的实施方案具体地公开于涉及方法、存储介质、系统和计算机程序产品的所附权利要求中，其中一个权利要求类别(例如，方法)中提及的任何特征也可在另一个权利要求类别(例如，系统)中提出。前面所附权利要求中的从属关系或引用关系仅出于形式原因而选择。然而，由有意引用任何先前权利要求(尤其是多个从属关系)而产生的任何主题也可被要求保护，使得权利要求及其特征的任何组合均被公开并且可被要求保护，而与所附权利要求中所选择的从属关系无关。可受权利要求书保护的主题不仅包括所附权利要求书中所述的特征的组合，而且还包括权利要求中特征的任何其他组合，其中权利要求书中提及的每个特征可与权利要求书中的任何其他特征或其他特征的组合相结合。此外，本文所述或所描绘的实施方案和特征中的任一者均可在单独的权利要求中被要求保护并且/或者与本文所述或所描绘的任何实施方案或特征或与所附权利要求书的任何特征以任何组合形式被要求保护。

附图说明

图1示出了与多个相机设备相关联的示例性网络环境。

图2示出了利用图像执行对象分类的示例性过程。

图3示出了从相机接收的示例性视频流。

图4示出了由计算设备基于AI检测和分类结果生成的示例性视频包。

图5示出了用于使用机器学习模型基于对感兴趣对象的识别来改变音频或视频压缩的示例性方法。

图6示出了与一个或多个机器学习系统相关联的示例性网络环境。

图7示出了示例性计算机系统。

具体实施方式

在特定实施方案中，包括相机的计算设备可用于网络环境中以监测场景。以示例而非限制的方式，可放置相机以监测银行的内部。可使用来捕获场景内的活动的细节。一般来讲，相机可用作安全措施，以在用户需要查看由相机捕获的录像素材的情况下提供材料。以示例而非限制的方式，在银行发生抢劫案的情况下，用户可能需要查看录像素材。然而，该录像素材通常可能不是最佳质量。这可能是需要为一整天采集的所有材料节省储存空间的结果。如今使用的相机可能能够产生高质量视频，但在许多情况下，出于存储目的的考虑，保持这种质量可能没有意义。其背后的原因在于可能没有足够的存储空间来每周7天地存储24小时视频的高质量视频。另外，多个相机可能正在贡献其各自的视频流，因此如果需要存储每个单独的视频流，则可能存在很大的存储空间需求。可能存在与很大存储空间需求相关联的高成本。为了克服该缺乏足够存储空间的问题并降低与视频流存储空间相关联的成本，通常可压缩整个视频流以将视频的大小减小到可存储在较长期存储装置中的大小。以示例而非限制的方式，如果以1080p分辨率录制视频，则可将视频流分辨率降低到240p以便能够存储更长长度的视频流。然而，分辨率的降低可能使查看视频流并确定来自视频流的重要细节更加困难。为了解决这个问题，计算设备可以识别感兴趣序列，以便针对保真度很重要的重要帧序列保持视频质量。以示例而非限制的方式，感兴趣序列可以是相机观察到入侵者闯入用户家中的情况。保留该帧序列的高视频质量可有助于将来识别嫌疑犯。

在特定实施方案中，为了识别感兴趣序列，计算设备可使用机器学习模型来检测与视频流相关联的帧中的图像中的一个或多个感兴趣对象。以示例而非限制的方式，感兴趣对象可能是在视频流的图像帧中识别的武器。在特定实施方案中，计算设备可以对视频流的图像帧内的各种检测到的对象进行分类。对象的分类可有助于识别感兴趣序列以及是否保留视频流的视频质量。以示例而非限制的方式，在图像帧内对被分类为武器的对象的识别可能是感兴趣序列的初始帧。在特定实施方案中，计算设备可基于分类改变音频或视频压缩。以示例而非限制的方式，如果计算设备检测到被分类为杂项的对象，则计算设备可将具有该对象的视频流的帧压缩到降低的分辨率，但优于未检测到对象的帧。而具有被分类为武器的检测到的对象的帧可能不改变分辨率。在特定实施方案中，感兴趣序列的帧可使用无损算法来压缩，而视频流的其他帧可使用产生更紧凑数据的有损算法来压缩。通过选择性地压缩视频流的部分，计算设备可在不显著增加视频流的存储成本的情况下保留感兴趣序列的视频质量。这可有助于通过提高感兴趣序列的视频质量来提高用户查看视频流的能力。

图1示出了与一个或多个相机系统相关联的示例性网络环境100。在特定实施方案中，网络环境100可包括通过链路150由网络110彼此连接的多个计算设备130和第三方系统170。尽管示出了三个计算设备130，但在网络环境100内可存在任何数量的计算设备130。在特定实施方案中，计算设备130可包括机器学习模型132，该机器学习模型可被训练以检测由相机134 捕获的图像内的感兴趣对象。在特定实施方案中，计算设备130可体现为任何合适的计算设备，诸如膝上型计算机、蜂窝电话、智能电话、平板电脑、相机设备或摄像机设备。在特定实施方案中，计算设备130可以是专门用于记录视频流的设备，该视频流可以是包含图像的多个帧。

在特定实施方案中，可通过分析多个图像来训练机器学习模型132以识别感兴趣对象。在特定实施方案中，可以任何合适的方式训练机器学习模型 132。在特定实施方案中，可利用来自其他机器学习模型132的任何训练数据更新机器学习模型132。在特定实施方案中，默认情况下，计算设备130 可被设置为将从相机134接收的视频流压缩到较低质量。该默认设置可有助于确保视频流的存储量不超过存储容量。在特定实施方案中，具有相机134 的每个计算设备130可具有其自身的相机视野，该相机视野可以是场景的视野。计算设备130的相机视野可重叠、分开或它们的任何组合。在特定实施方案中，计算设备130可从其相应的相机134接收包括多个帧的视频流。最初可以相机134所能达到的最高分辨率来接收视频流。在特定实施方案中，计算设备130可降低视频流的分辨率并压缩要存储的视频流。在特定实施方案中，计算设备130最初可通过使用机器学习模型132来分析视频流的图像。计算设备130可使用机器学习模型132来检测所接收视频流的图像中的感兴趣对象。一旦未检测到感兴趣对象，计算设备130就可将视频流压缩到降低的分辨率。在特定实施方案中，计算设备130可生成包括压缩视频流的视频包。计算设备130可生成包括任何尺寸或长度的压缩视频流的视频包以用于存储目的。

在特定实施方案中，第三方系统170可以是服务器，其中视频流从计算设备130上载以被存储以供在将来时间访问。在特定实施方案中，如果达到存储容量，则存储装置可擦除早先的视频流。在特定实施方案中，第三方系统170可对未压缩视频流进行优先级排序并初始地删除压缩视频流。在特定实施方案中，第三方系统170可确定压缩视频流是否与超过阈值时间段的时间段相关联。以示例而非限制的方式，第三方系统170可能想要保留和存储小于一周时间的视频流(压缩的和未压缩的)。然而，如果所存储的视频流早于一周，则第三方系统170可删除所存储的较早的视频流，并且如果达到存储容量，则首先优先删除压缩的视频流。

在特定实施方案中，可使用网络环境100来监测场景。以示例而非限制的方式，可设置计算设备130来监测银行的内部。在特定实施方案中，如果一个计算设备130检测到感兴趣对象，则网络环境100的其他计算设备130 可被触发以针对其相应视频流保持该视频流的质量(例如，分辨率)，尽管没有检测到感兴趣对象。通过触发周围计算设备130以保持其视频流的质量，如果感兴趣对象从一个相机视野转换到另一个相机视野，则可相对于感兴趣对象保持质量。在特定实施方案中，计算设备130的数量可能影响从相机134 接收的视频流的压缩。以示例而非限制的方式，为了节省存储容量，如果在一个计算设备130的一个相机视野中检测到感兴趣对象，则其他计算设备 130可略微降低分辨率(但不降低到检测不到感兴趣对象的默认设置)，而不是以最高分辨率接收视频流。在特定实施方案中，计算设备130可在相机视野内跟踪感兴趣对象，并且在计算设备130确定感兴趣对象将进入另一相机视野时触发其他计算设备130停止压缩其相应的视频流。以示例而非限制的方式，如果一个计算设备130确定感兴趣对象正在接近其他计算设备130 的相机视野，则周围计算设备130可以最高分辨率记录并存储或上载视频流。以另一示例而非限制的方式，如果计算设备130按顺序编号，则当前检测到感兴趣对象的计算设备130可通知接下来的计算设备130以最高分辨率存储或上载其相应的视频流。在特定实施方案中，在尚未在对应于视频流的任何图像内检测到感兴趣对象之后，计算设备130可在阈值时间段内继续存储或上载未压缩视频流(例如，最高分辨率的视频流)。

在特定实施方案中，当计算设备130在视频流的帧中的图像内检测到感兴趣对象时，计算设备130可识别感兴趣序列。在其中检测到感兴趣对象的初始帧可以是感兴趣序列的第一帧。在特定实施方案中，感兴趣序列可以是视频流的多个连续帧，这些帧中的至少一帧中包含感兴趣对象。在特定实施方案中，当计算设备130准备存储视频流或上载视频流时，计算设备130可将视频流的帧存储在缓冲器中。在特定实施方案中，开始在缓冲器中存储帧可响应于在视频流的图像中检测到感兴趣对象。结束在缓冲器中存储帧可响应于确定在视频流的帧中的最小数量的图像中未检测到感兴趣对象。以示例而非限制的方式，计算设备130可开始将帧存储在与感兴趣序列对应的缓冲器中，并且在感兴趣序列之后在最小数量的图像(例如，100帧)不具有感兴趣对象时结束帧的存储。在特定实施方案中，感兴趣序列的最后一帧可对应于包括具有感兴趣对象的图像的最后一帧。在特定实施方案中，感兴趣序列可包括帧中的若干不具有感兴趣对象的图像。以示例而非限制的方式，如果感兴趣对象移入和移出计算设备130的相机视野，则计算设备130可持续地将帧添加到感兴趣序列。在特定实施方案中，计算设备130可生成包括感兴趣序列的视频包。在特定实施方案中，计算设备130可响应于结束在缓冲器中存储帧而生成视频包。在特定实施方案中，当缓冲器已降至低于可用容量的最小阈值时，计算设备130可生成视频包。在特定实施方案中，计算设备130可响应于确定在感兴趣序列之后的帧中的最小数量的图像中尚未检测到感兴趣对象，将视频包传输和/或存储至第三方系统170或另一计算设备 130。以示例而非限制的方式，计算设备130可确定已存在其中尚未检测到感兴趣对象的200个帧，并且生成包括感兴趣序列的视频包并将其传输至第三方系统170。在特定实施方案中，计算设备130可在缓冲器中存储视频流的达预先确定帧数(例如，5000帧)的帧。如果在阈值数量的帧(例如，2000帧)中未检测到感兴趣对象，则计算设备130可压缩缓冲器中的帧。在特定实施方案中，如果计算设备130在缓冲器中存在不具有感兴趣对象的帧的情况下识别出感兴趣序列，则计算设备可将那些帧添加到感兴趣序列。这在用户想要查看在感兴趣序列发生之前的视频流的情况下可能是有益的。在特定实施方案中，计算设备130可确定在感兴趣序列之前或之后接收的连续视频帧序列的图像中没有检测到感兴趣对象。计算设备130可压缩连续视频帧序列，这可降低图像的分辨率。计算设备可生成包括所压缩的序列的单独视频包。在特定实施方案中，计算设备130可将该单独视频包与生成的任何其它视频包相组合以供传输或存储。在特定实施方案中，计算设备130可在任何视频包被生成时对其进行传输或存储。

本公开设想了任何合适的网络110。以示例而非限制的方式，网络110 的一个或多个部分可包括自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网的一部分、公共交换电话网(PSTN)的一部分、蜂窝电话网络或这些中的两者或更多者的组合。网络110可包括一个或多个网络110。

链路150可将计算设备130和第三方系统170连接到通信网络110或彼此连接。本公开设想任何合适的链路150。在特定实施方案中，一个或多个链路150包括一个或多个有线(例如数字用户线路(DSL)或电缆数据服务接口规范(DOCSIS))、无线(例如Wi-Fi或全球微波接入互操作(WiMAX)) 或光学(例如同步光网络(SONET)或同步数字体系(SDH))链路。在特定实施方案中，一个或多个链路750各自包括自组织网络、内联网、外联网、 VPN、LAN、WLAN、WAN、WWAN、MAN、互联网的一部分、PSTN的一部分、基于蜂窝技术的网络、基于卫星通信技术的网络、其他链路150，或者两个或更多个此类链路150的组合。在整个网络环境100中，链路150 不一定是相同的。在一个或多个方面，一个或多个第一链路150可以与一个或多个第二链路150不同。

图2示出了利用图像执行对象分类的示例性过程200。在特定实施方案中，计算设备130可从相机134接收图像202。在特定实施方案中，图像202 可包括多个不同对象204a-204c。在特定实施方案中，计算设备130可使用机器学习模型132对检测到的对象204进行分类并且从检测到的对象204中识别一个或多个感兴趣对象。以示例而非限制的方式，计算设备130可从图像202中识别停止标志204c。在特定实施方案中，计算设备130可使用分类表206对图像202中的每个所识别的对象204进行分类并将它们放置在类别208中。在特定实施方案中，机器学习模型132可具有一组预先确定的类别以用于对图像中的任何所识别的对象进行分类。在特定实施方案中，当识别尚未被分类的新对象时，机器学习模型132可以根据需要添加类别。在特定实施方案中，计算设备130可将检测到的对象分类为多个类别中的一个类别。以示例而非限制的方式，计算设备130可将感兴趣对象204b识别为杂项对象。在特定实施方案中，计算设备130可将检测到的感兴趣对象分类为多个类别中的一个类别。计算设备130可基于检测到特定类别的感兴趣对象来识别感兴趣序列。

在特定实施方案中，可训练机器学习模型132以了解计算设备130所处的环境。以示例而非限制的方式，计算设备130可位于枪械商店中。考虑到在计算设备130的相机视野中的位置和对象(例如，枪械)，将检测到的对象识别为武器可能是很常见的。因此，可以训练机器学习模型132以不将枪械标记为感兴趣对象。在特定实施方案中，机器学习模型132可使用计算设备130的上下文以便正确地识别感兴趣对象。在特定实施方案中，上下文可包括计算设备130的相机视野中通常具有哪些对象。在特定实施方案中，计算设备可基于一个或多个检测到的感兴趣对象的类别来修改视频包的分辨率。以示例而非限制的方式，检测到的武器类别的感兴趣对象可导致计算设备130生成可能的最高分辨率的视频包。以示例而非限制的方式，检测到的杂项类别的感兴趣对象可导致计算设备130生成分辨率略微降低的视频包。

在特定实施方案中，机器学习模型132可以针对不同的环境使用多个不同的库。以示例而非限制的方式，如果计算设备130位于餐厅中，则机器学习模型132可使用餐厅库来识别将在餐厅布景内被检测的常见对象。以示例而非限制的方式，牛排刀将是餐厅布景内的常见对象，因此如果牛排刀出现在视频流的图像中，则可能不被识别为感兴趣对象。在特定实施方案中，机器学习模型132可确定是否需要针对给定位置更新特定库。在特定实施方案中，机器学习模型132可在特定环境内添加或移除将被识别为感兴趣对象的对象。以示例而非限制的方式，如果计算设备130常常检测到被检测为感兴趣对象的杂项项目，则机器学习模型132可将其移除。例如，冰球最初可能在餐厅布景中被检测为感兴趣对象，但如果它频繁出现，则可将其移除，因为餐厅具有使用冰球的桌面冰球游戏。

图3示出了从相机接收的示例性视频流300。在特定实施方案中，视频流300可以包括包含图像的多个帧302。帧302内的每个图像可包括多个对象304、306、308。在特定实施方案中，计算设备130可使用机器学习模型 132来检测帧302的图像内的对象。根据检测到的对象，计算设备130可将图像中的每个检测到的对象分类为多个类别中的一个或多个类别。在特定实施方案中，计算设备130可使用机器学习模型132来分析图像，以基于这些类别和计算设备130的上下文从所检测到的对象中识别一个或多个感兴趣对象。在特定实施方案中，计算设备130可基于对象308的类别和计算设备130 的上下文将对象308识别为兴趣对象。以示例而非限制的方式，计算设备130 可以将对象308识别为在街道布景中不常见的贴纸，因此可将该贴纸标记为感兴趣对象。在特定实施方案中，在用检测到的对象308执行动作之前，该对象308最初可能未被识别为感兴趣对象。以示例而非限制的方式，沿街道行走的学生可能背有贴满贴纸的背包，并且这可能是常规事件。然而，当贴纸以特定方式如以破坏标志304外观的方式使用时，机器学习模型132可识别该动作何时被执行并且检测感兴趣对象。以另一示例而非限制的方式，在办公室布景中，文件可能是常见的检测对象，因此当人们携带文件夹或文件箱走过计算设备130的相机视野时，机器学习模型132可以确定文件不是感兴趣对象。然而，如果某人走过相机视野，绊倒并将文件散落在地板上，则机器学习模型132可将文件识别为感兴趣对象。以另一示例而非限制的方式，如果在枪械商店中检测到武器，则该武器可以不被检测为感兴趣对象，但如果一个挥舞武器的人进入视野中，则机器学习模型132可由于正用该武器执行的动作而检测到感兴趣对象。

图4示出了由计算设备130基于AI检测和分类结果生成的示例性视频包400。在特定实施方案中，计算设备130可基于对图像302中的感兴趣对象的检测来识别感兴趣序列。计算设备130可将对象308识别为感兴趣对象，并且将图像55识别为感兴趣序列404的初始帧404a。在特定实施方案中，计算设备130可生成包括帧402和感兴趣序列404的视频包400。在特定实施方案中，计算设备130可使感兴趣序列处于与捕获进来的图像相同的分辨率。计算设备130可压缩其中未检测到感兴趣对象的帧402的图像以降低分辨率。因此，计算设备130可减小帧402的图像的存储大小。以示例而非限制的方式，由于计算设备130将对象308检测为感兴趣对象，因此可对不具有对象308的其他图像进行压缩。如图所示，计算设备130可压缩图像1到图像30，因为对象308不在这些图像内。计算设备130可生成包括帧402 和感兴趣序列404的视频包400。在特定实施方案中，感兴趣序列404可包括首先检测到感兴趣对象的初始帧404a和最后检测到感兴趣对象的结束帧 404c。在这种情况下，如果图像在预定量的帧内未改变，则计算设备130可识别结束帧404c。以示例而非限制的方式，由于对象308是损坏标志304 外观的贴纸，除非在后续图像中识别到另一个检测到的对象，否则将不发生任何变化，因此计算设备可以在经过图像中无变化的阈值数量的帧之后结束感兴趣序列404。在特定实施方案中，计算设备130可以分析视频流300的图像以确定是否存在阈值变化量。以示例而非限制的方式，如果叶子落入图像的视野中，则其可能不是显著变化。然而，如果某人再次进入图像的视野中，则计算设备130可识别另一个感兴趣序列。在特定实施方案中，计算设备130可通过确定与先前图像相比多少像素已改变来识别阈值变化。如果阈值数量的像素从一个图像到下一图像发生变化，则计算设备130可识别另一个感兴趣序列。

在特定实施方案中，如果计算设备130针对任何给定数量的帧确定图像未改变，则计算设备130可识别表示所压缩的序列的该所压缩的序列的一帧，并且用该一帧替换该所压缩的序列。另外，由于计算设备130可以用一帧替换所压缩的序列，因此计算设备130可恢复该一帧的分辨率，使得图像处于最高分辨率。在特定实施方案中，计算设备130可使用缓冲器来周期性地识别从视频流接收的图像中的任何变化。以示例而非限制的方式，如果计算设备130的相机视野指向单个门，则所识别的感兴趣序列可能是门何时打开和关闭或者是否存在任何东西(例如，打开门的人)进入相机视野。因此，如果没有发生变化，则计算设备130可以连续使用表示视频流的相同图像。如果感兴趣序列已被识别，则计算设备300可使用缓冲器回溯地将尚未被压缩的先前帧添加到感兴趣序列。以示例而非限制的方式，如果某人正走到商店的收银机，则计算设备130可确定这是常规事件并且不被识别为感兴趣序列。然而，如果在稍后的时间点，此人掏出武器，则计算设备130可识别感兴趣序列并且回溯地添加缓冲器中的将与首次识别出所接收的视频流的图像内的人对应的帧。

在特定实施方案中，计算设备130可在从相机134接收感兴趣序列404 时连续地将其上载或存储。即，计算设备130可生成待上载或存储的一个帧视频包。在特定实施方案中，计算设备130可确定包括在待上载或存储的视频包中的任何数量的帧。

图5示出了用于使用机器学习模型基于对感兴趣对象的识别来改变音频或视频压缩的示例性方法。该方法可开始于步骤510，其中计算设备可从一个或多个相机接收包括多个帧的视频流。在特定实施方案中，可以第一质量接收视频流。该第一质量可处于相机所能达到的最高分辨率。在步骤520 处，计算设备可使用机器学习模型分析帧中的图像。在特定实施方案中，可训练机器学习模型以检测图像中的一个或多个感兴趣对象。在步骤530处，计算设备可识别包括视频流的第一多个连续帧的感兴趣序列。在特定实施方案中，可在连续帧中的至少一个帧中检测到至少一个感兴趣对象。在步骤540 处，计算设备可生成包括感兴趣序列的视频包。在适当的情况下，特定实施方案可重复图5的方法的一个或多个步骤。虽然本公开将图5的方法的特定步骤描述并示出为以特定顺序发生，但本公开设想图5的方法的任何合适的步骤以任何合适的顺序发生。此外，尽管本公开描述并示出了用于使用机器学习模型基于对感兴趣对象的识别来改变音频或视频压缩的包括图5的方法的特定步骤的示例性方法，但本公开设想了用于使用机器学习模型基于对感兴趣对象的识别来改变音频或视频压缩的包括任何合适步骤的任何合适的方法，在适当的情况下，这些步骤可包括图5的方法的所有步骤、一部分步骤或不包括图5的方法的步骤。此外，虽然本公开描述并示出了执行图5的方法的特定步骤的特定部件、设备或系统，但本公开设想了执行图5的方法的任何合适步骤的任何合适部件、设备或系统的任何合适的组合。

图6示出了与一个或多个机器学习系统相关联的示例性网络环境600。网络环境600包括用户601、通过网络610彼此连接的客户端系统630、客户端托管的机器学习系统640、服务器托管的机器学习系统660和第三方系统670。尽管图6示出了用户601、客户端系统630、机器学习系统660、第三方系统670和网络610的特定布置，但本公开设想了用户601、客户端系统630、机器学习系统640、660、第三方系统670和网络610的任何合适的布置。以示例而非限制的方式，客户端系统630、服务器托管的机器学习系统660和第三方系统670中的两者或更多者可以绕过网络610直接彼此连接。又如，客户端系统630、机器学习系统660和第三方系统670中的两者或更多者可以整体地或部分地在物理上或逻辑上彼此协同定位。客户端托管的机器学习系统640可以位于客户端系统630上。此外，尽管图6示出了特定数量的用户601、客户端系统630、机器学习系统640、660、第三方系统670 和网络610，但本公开设想了任何适当数量的用户601、客户端系统630、机器学习系统640、660、第三方系统670和网络610。以示例而非限制的方式，网络环境600可包括多个用户601、客户端系统630、机器学习系统640、660、第三方系统670和网络610。

在特定实施方案中，用户601可以是个体(人类用户)诸如应用程序/ 软件开发者、实体(例如，企业、商业或第三方应用程序)或与机器学习系统640、660中的一者或多者进行交互或者与其进行通信或通过其进行通信的群组(例如，个人或实体的群组)。在特定实施方案中，客户端托管的机器学习系统640可以是推断引擎以及一个或多个机器学习模型。在特定实施方案中，服务器托管的机器学习系统660可以是用于使用推断引擎104以及一个或多个机器学习模型106执行任务的网络可寻址计算系统。服务器托管的机器学习系统660可以由网络环境600的其他部件直接访问或经由网络 610访问。第三方系统670可以由网络环境600的其他部件直接访问或经由网络610访问。在特定实施方案中，一个或多个用户601可以使用一个或多个客户端系统630访问客户端托管的机器学习系统640、服务器托管的机器学习系统660或第三方系统670，向其发送数据，并且从其接收数据。客户端系统630可直接地、经由网络610或经由第三方系统访问服务器托管的机器学习系统660或第三方系统670。以示例而非限制的方式，客户端系统630 可经由服务器托管的机器学习系统660访问第三方系统670。客户端系统630 可以是任何适当的计算设备，诸如例如个人计算机、膝上型计算机、蜂窝电话、智能电话、平板电脑或增强现实/虚拟现实设备。

本公开设想了任何合适的网络610。以示例而非限制的方式，网络610 的一个或多个部分可包括自组织网络、内联网、外联网、虚拟专用网络 (VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网的一部分、公共交换电话网(PSTN)的一部分、蜂窝电话网络或这些中的两者或更多者的组合。网络610可包括一个或多个网络610。

链路650可将客户端系统630、服务器托管的机器学习系统660和第三方系统670连接到通信网络610或彼此连接。本公开设想任何合适的链路 650。在特定实施方案中，一个或多个链路650包括一个或多个有线(例如数字用户线路(DSL)或电缆数据服务接口规范(DOCSIS))、无线(例如Wi-Fi或全球微波接入互操作(WiMAX))或光学(例如同步光网络(SONET)或同步数字体系(SDH))链路。在特定实施方案中，一个或多个链路650各自包括自组织网络、内联网、外联网、VPN、LAN、WLAN、 WAN、WWAN、MAN、互联网的一部分、PSTN的一部分、基于蜂窝技术的网络、基于卫星通信技术的网络、其他链路650，或者两个或更多个此类链路650的组合。在整个网络环境600中，链路650不一定是相同的。在一个或多个方面，一个或多个第一链路650可以与一个或多个第二链路650不同。

图7示出了示例性计算机系统700。在特定实施方案中，一个或多个计算机系统700执行本文所述或所示的一种或多种方法的一个或多个步骤。在特定实施方案中，一个或多个计算机系统700提供本文所述或所示的功能。在特定实施方案中，在一个或多个计算机系统700上运行的软件执行本文所述或所示的一种或多种方法的一个或多个步骤或提供本文所述或所示的功能。特定实施方案包括一个或多个计算机系统700的一个或多个部分。在本文中，在适当的情况下，提及计算机系统可包括计算设备，反之亦然。此外，在适当的情况下，提及计算机系统可包括一个或多个计算机系统。

本公开设想了任何合适数量的计算机系统700。本公开设想了采用任何合适物理形式的计算机系统700。以示例而非限制的方式，计算机系统700 可以是嵌入式计算机系统、片上系统(SOC)、单板计算机系统(SBC)(例如，模块上计算机(COM)或模块上系统(SOM))、台式计算机系统、膝上型计算机或笔记本计算机系统、交互式自助服务机、大型机、计算机系统网、移动电话、个人数字助理(PDA)、服务器、平板电脑系统、增强现实/虚拟现实设备，或这些中两者或更多者的组合。在适当的情况下，计算机系统700可包括一个或多个计算机系统700；可为统一的或分布式的；可跨越多个位置；可跨越多个机器；可跨越多个数据中心；或位于云端中，该云端可包括一个或多个网络中的一个或多个云组件。在适当的情况下，一个或多个计算机系统700可在没有实质性的空间或时间限制的情况下执行本文所述或所示的一种或多种方法的一个或多个步骤。以示例而非限制的方式，一个或多个计算机系统700可实时地或以批处理模式执行本文所述或所示的一种或多种方法的一个或多个步骤。在适当的情况下，一个或多个计算机系统 700可在不同时间或在不同位置执行本文所述或所示的一种或多种方法的一个或多个步骤。

在特定实施方案中，计算机系统700可包括处理器702、存储器704、存储装置706、输入/输出(I/O)接口708、通信接口710和/或总线712。尽管本公开描述并示出了以特定布置方式具有特定数量的特定部件的特定计算机系统，但本公开还设想以任何适当布置方式具有任何适当数量的任何适当部件的任何适当计算机系统。

在特定实施方案中，处理器702包括用于执行指令(诸如编写计算机程序的指令)的硬件。以示例而非限制的方式，为了执行指令，处理器702可从内部寄存器、内部高速缓存器、存储器704或存储装置706检索(或获取) 指令；解码并执行它们；然后将一个或多个结果写入内部寄存器、内部高速缓存器、存储器704或存储装置706。在特定实施方案中，处理器702可包括用于数据、指令或地址的一个或多个内部高速缓存器。在适当的情况下，本公开设想了包括任何适当数量的任何适当内部高速缓存器的处理器702。以示例而非限制的方式，处理器702可包括一个或多个指令高速缓存器、一个或多个数据高速缓存器，以及一个或多个转换后备缓冲器(TLB)。指令高速缓存器中的指令可为存储器704或存储装置706中的指令的副本，并且指令高速缓存器可加速处理器702对那些指令的检索。数据高速缓存器中的数据可为存储器704或存储装置706中的数据的副本，用以在处理器702处执行的指令在其上操作；在处理器702处执行的先前指令的结果，用以在处理器702处执行的后续指令访问或用以写入存储器704或存储装置706；或其他适当数据。数据高速缓存器可加速处理器702的读或写操作。TLB可加速处理器702的虚拟地址转换。在特定实施方案中，处理器702可包括用于数据、指令或地址的一个或多个内部寄存器。在适当的情况下，本公开设想了包括任何适当数量的任何适当内部寄存器的处理器702。在适当的情况下，处理器702可包括一个或多个算术逻辑单元(ALU)；可为多核处理器；或可包括一个或多个处理器702。尽管本公开描述并示出了特定处理器，但本公开还设想了任何适当的处理器。

在特定实施方案中，存储器704包括主存储器，该主存储器用于存储供处理器702执行的指令或供处理器702操作的数据。以示例而非限制的方式，计算机系统700可将指令从存储装置706或另一来源(例如，另一计算机系统700)加载至存储器704。然后处理器702可将指令从存储器704加载到内部寄存器或内部高速缓存器。为了执行指令，处理器702可从内部寄存器或内部高速缓存器中检索指令并对其解码。在执行指令期间或之后，处理器702 可将一个或多个结果(其可为中间结果或最终结果)写入内部寄存器或内部高速缓存器。然后处理器702可将这些结果中的一者或多者写入存储器704。在特定实施方案中，处理器702仅执行一个或多个内部寄存器或内部高速缓存器中或存储器704中(而不是存储装置706或其他位置)的指令，并且仅对一个或多个内部寄存器或内部高速缓存器中或存储器704中(而不是存储装置706或其他位置)的数据进行操作。一个或多个存储器总线(其可各自包括地址总线和数据总线)可将处理器702耦合至存储器704。总线712可包括一个或多个存储器总线，如下所述。在特定实施方案中，一个或多个存储器管理单元(MMU)位于处理器702和存储器704之间并且便于访问处理器702所请求的存储器704。在特定实施方案中，存储器704包括随机存取存储器 (RAM)。该RAM可为易失性存储器，并且在适当的情况下，该RAM可为动态RAM(DRAM)或静态RAM(SRAM)。此外，在适当的情况下，该RAM 可为单端口或多端口RAM。本公开设想任何合适的RAM。在适当的情况下，存储器704可包括一个或多个存储器704。尽管本公开描述并示出了特定存储器，但本公开还设想了任何适当的存储器。

在特定实施方案中，存储装置706包括用于数据或指令的海量存储装置。以示例而非限制的方式，存储装置706可包括硬盘驱动器(HDD)、软盘驱动器、闪存存储器、光盘、磁光盘、磁带、通用串行总线(USB)驱动器，或这些中的两者或更多者的组合。在适当的情况下，存储装置706可包括可移除的或不可移除的(或固定的)介质。在适当的情况下，存储装置706可在计算机系统700的内部或外部。在特定实施方案中，存储装置706为非易失性固态存储器。在特定实施方案中，存储装置706包括只读存储器(ROM)。在适当的情况下，该ROM可为掩模编程ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)、闪存存储器，或这些中的两者或更多者的组合。本公开设想了采用任何合适物理形式的海量存储装置706。在适当的情况下，存储装置706可包括促成处理器702和存储装置706之间的通信的一个或多个存储控制单元。在适当的情况下，存储装置706可包括一个或多个存储装置706。尽管本公开描述并示出了特定存储装置，但本公开还设想了任何适当的存储装置。

在特定实施方案中，I/O接口708包括硬件、软件或两者，从而提供用于计算机系统700与一个或多个I/O设备之间的通信的一个或多个接口。在适当的情况下，计算机系统700可包括这些I/O设备中的一者或多者。这些 I/O设备中的一者或多者可允许个人与计算机系统700之间的通信。以举例而非限制的方式，I/O设备可包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静态相机、触笔、平板电脑、触摸屏、轨迹球、摄像机、另一适当I/O设备或这些中的两者或更多者的组合。I/O设备可包括一个或多个传感器。本公开设想任何合适的I/O设备以及用于它们的任何合适的I/O接口708。在适当的情况下，I/O接口708可包括使处理器702能够驱动这些I/O设备中的一者或多者的一个或多个设备或软件驱动程序。在适当的情况下，I/O接口708可包括一个或多个I/O接口708。尽管本公开描述并示出了特定I/O接口，但本公开还设想了任何合适的I/O接口。

在特定实施方案中，通信接口710包括提供用于在计算机系统700与一个或多个其他计算机系统700或一个或多个网络之间进行通信(例如，基于分组的通信)的一个或多个接口的硬件、软件或两者。以举例而非限制的方式，通信接口710可包括用于与以太网或其他基于有线的网络进行通信的网络接口控制器(NIC)或网络适配器，或用于与无线网络诸如WI-FI网络进行通信的无线NIC(WNIC)或无线适配器。本公开设想了任何合适的网络以及用于其的任何合适的通信接口710。以举例而非限制的方式，计算机系统700 可与自组织网络、个人局域网(PAN)、局域网(LAN)、广域网(WAN)、城域网络(MAN)、互联网的一个或多个部分，或这些中的两者或更多者的组合进行通信。这些网络中的一者或多者的一个或多个部分可为有线的或无线的。例如，计算机系统700可与无线PAN(WPAN)(例如，BLUETOOTHWPAN)、 WI-FI网络、WI-MAX网络、蜂窝电话网络(例如，全球移动通信系统(GSM) 网络)、其他合适的无线网络或这些中的两者或更多者的组合进行通信。在适当的情况下，计算机系统700可包括用于这些网络中的任一网络的任何合适的通信接口710。在适当的情况下，通信接口710可包括一个或多个通信接口710。尽管本公开描述并示出了特定通信接口，但本公开还设想了任何合适的通信接口。

在特定实施方案中，总线712包括将计算机系统700的部件彼此耦接的硬件、软件或两者。以举例而非限制的方式，总线712可包括加速图形端口 (AGP)或其他图形总线、增强型工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连件、工业标准架构(ISA)总线、无限带宽互连件、少针脚型接口(LPC)总线、存储器总线、微通道架构(MCA)总线、外围部件互连(PCI)总线、PCI-Express(PCIe)总线、串行高级技术附件(SATA)总线、视频电子标准协会局域(VLB)总线、其他适当总线，或这些中的两者或更多者的组合。在适当的情况下，总线712可包括一个或多个总线712。尽管本公开描述并示出了特定总线，但本公开还设想了任何合适的总线或互连件。

在本文中，在适当的情况下，计算机可读非暂态存储介质可包括一个或多个基于半导体或其他集成电路(IC)(例如，现场可编程门阵列(FPGA)或专用 IC(ASIC))、硬盘驱动器(HDD)、混合硬盘驱动器(HHD)、光盘、光盘驱动器 (ODD)、磁光盘、磁光驱动器、软式磁盘片、软盘驱动器(FDD)、磁带、固态驱动器(SSD)、RAM驱动器、安全数字卡或驱动器、任何其他适当计算机可读非暂态存储介质，或这些中的两者或更多者的任何适当组合。在适当的情况下，计算机可读非暂态存储介质可为易失性的、非易失性的，或易失性的和非易失性的组合。

在本文中，除非另外明确指明或通过上下文另外指明，否则“或”是包含性的而非排他性的。因此，在本文中，除非另外明确指明或通过上下文另外指明，“A或B”是指“A、B或二者”。此外，除非另外明确指明或通过上下文另外指明，“和”既是共同的也是分别的。因此，在本文中，除非另外明确指明或通过上下文另外指明，“A和B”是指“以共同或分别形式的A和B”。

本公开的范围涵盖本领域的普通技术人员将理解的本文所述或所示的示例性实施方案的所有变化、替换、变型、更改和修改。本公开的范围不限于本文所述或所示的示例性实施方案。此外，尽管本公开描述并示出本文的相应实施方案包括特定部件、元件、特征、功能、操作或步骤，但这些实施方案中的任一者可包括本领域的普通技术人员将理解的本文任何位置所述或所示的任何部件、元件、特征、功能、操作或步骤的任何组合或排列。此外，在所附权利要求书中提及装置或系统或装置或系统的部件被适配为、被布置成、能够、被配置为、被允许、可操作为或能够操作为执行特定功能涵盖：该装置、系统、部件，无论其本身或该特定功能是否被激活、打开或解锁，只要该装置、系统或部件是被这样适配、布置、赋予能力、配置、授予能力、操作、或运作即可。另外，尽管本公开描述或示出了提供特定优点的特定实施方案，但具体实施方案可提供这些优点中的一部分或全部或不提供这些优点。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于AI检测或分类结果改变音频或视频压缩 [P] . 中国专利： CN112788347A . 2021-05-11
2. 检测音频视频观看中的噪声或对象打断并基于此改变呈现 [P] . 中国专利： CN105049932A . 2015-11-11
3. Varying Audio Visual Compression based on AI Detection or Classification Results [P] . US2021136320A1 . 2021-05-06

机译：基于AI检测或分类结果改变音频视觉压缩
4. Distributed Edge Clusters with AI Framework Support for Intelligent Weather Data Processing Based on Remote Sensing and Weather Change Detection Method Using the Same [P] . KR20210070152A . 2021-06-14

机译：具有AI框架支持的分布式边缘集群对基于遥感和天气改变检测方法的基于遥感和天气改变检测方法的智能天气数据处理
5. AI-based Automatic Judgment Unit for Quality Classification of Semifinished Component Carriers of a Panel Based on Automatic Optical Inspection [P] . US2021158499A1 . 2021-05-27

机译：基于AI的自动判断单元，用于基于自动光学检测的面板半成型分量载体的质量分类