首页> 中国专利> 对一组图像生成文本色彩的方法和装置

对一组图像生成文本色彩的方法和装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

将一组图像自动地分组在一起并且选择叠加在该组图像上的文本色彩以便呈现在媒体设备上的方法(1300)和装置(100)。系统标识将要被分组在一起的一组图像，并且标识图像的分组中的最突出的色彩，在预先确定的多个色彩中找到对该色彩的最接近匹配，然后使用最接近匹配色彩对叠加在图像的分组上的文本进行着色。

著录项

公开/公告号CN105874780A

专利类型发明专利
公开/公告日2016-08-17

原文格式PDF
申请/专利权人汤姆逊许可公司;
展开▼

申请/专利号CN201480058814.9
发明设计人 N.沃斯;
展开▼

申请日2014-08-28
分类号H04N5/278(20060101);H04N21/278(20110101);H04N21/431(20110101);H04N21/4725(20110101);H04N21/475(20110101);H04N21/4788(20110101);H04N21/482(20110101);H04N21/488(20110101);H04N21/81(20110101);H04N21/858(20110101);G11B27/031(20060101);
代理机构11105 北京市柳沈律师事务所;
代理人吕晓章
地址法国伊西莱穆利诺
入库时间 2023-06-19 00:17:55

法律信息

法律状态公告日

法律状态信息

法律状态
2019-06-21

专利权的转移 IPC(主分类):H04N5/278 登记生效日:20190604 变更前: 变更后: 申请日:20140828

专利申请权、专利权的转移
2019-04-09

授权

授权
2016-11-02

实质审查的生效 IPC(主分类):H04N5/278 申请日:20140828

实质审查的生效
2016-08-17

公开

公开

说明书

相关申请的交叉引用

本申请要求享有于2013年9月16日提交的第61/878245号美国临时申请以及于2014年5月27日提交的第62/003281号美国临时申请的优先权。

背景技术

便携式电子设备正在变得更加普遍。这些设备(诸如移动电话、音乐播放器、相机、平板等)往往包含设备的组合，使得携带多个对象变得多余。例如，当前触摸屏移动电话(诸如Apple iPhone或Samsung Galaxy安卓手机)包含视频和静物相机、全球定位导航系统、因特网浏览器、文本和电话、视频和音乐播放器、等等。这些设备往往可以在诸如WiFi、有线和蜂窝(诸如3G)等多个网络上启用以传输和接收数据。

便携式电子产品中的辅助功能的质量一直在不断地提高。例如，早期的“照相手机”由低分辨率传感器构成，其具有固定焦距透镜而没有闪光灯。如今，许多移动电话包括全高清视频能力、编辑和过滤工具以及高清显示器。通过这些提高的能力，许多用户使用这些设备作为他们的主要摄影设备。因此，对更高的性能和专业级嵌入的摄影工具存在需求。另外，用户希望以更多的方式而不仅仅是通过打印的照片与他人共享他们的内容，并且希望容易地做到这一点。用户可以将内容上传到诸如YouTube这样的视频存储站点或社交媒体站点。然而，用户可能希望在共享之前编辑这些照片并且可以在移动设备上理想地完成该编辑。用户可能希望编辑视频的长度、改变色彩过滤器、亮度或其他视频效果。这些功能在移动设备上通常是不可用的，因此，用户必须首先将内容下载到计算机以进行编辑。因为这往往超出用户的技术水平或者需要太多的时间和精力才能实现，所以用户往往被劝阻去共享视频内容。这些共享方法可以包括电子邮件、文本或者诸如Facebook、twitter、YouTube这样的社交媒体网站。

为了缓和在设备上通过有限的用户输入来编辑视频和图像的情况下存在的一些问题，可以使一些任务由设备自动执行。这些任务可以根据用户的偏好、过去的用户动作来自动执行或者通过应用来自动执行。当用户希望在图像、图像的分组或视频上叠加字幕时出现问题。没有一种色彩适合于所有图像、图像的分组和视频。当在图像上叠加标题或文本时，它们通常具有默认色彩或者用户选择的色彩。默认色彩可能并不合意。用户选择的色彩可能不是最合意的，并且对于用户来说，在每个图像上设置色彩将花费时间。当存在多组图像时，对于每组图像，可能期望具有不同色彩的文本或字幕。在视频中，色彩改变，因此用户将必须在单个视频中多次改变字幕色彩，以确保字幕在整个视频的自始至终都是看得见的。实际上，大多数系统使用默认色彩文本设置，其往往无法与图像本身分辨开。期望具有在不用大量用户交互的情况下应用叠加在图像、图像的分组或视频上的字幕的方法。

发明内容

本发明内容用于以简化的形式介绍下面在详细描述中进一步描述的所挑选出的概念。发明内容不旨在识别所要求保护的主题的关键特征或本质特征，其也不旨在被用于限制所要求保护的主题的范围。

一种自动地将一组图像分组在一起并且选择在一组图像上叠加的文本色彩以便呈现在媒体设备上的方法和装置。该系统标识将要被分组在一起的一组图像，并且标识图像的分组中的最突出色彩，在预先确定的多个色彩中找到对该色彩的最接近匹配，然后使用最接近匹配色彩对叠加在图像的分组上的文本进行着色。

附图说明

本公开的这些以及其他方面、特征和优点将根据下面的结合附图阅读的优选实施例的详细描述来描述或变得明显。

在附图中(其中，相同的标号表示在视图各处的类似的元件)：

图1示出移动电子设备的示例性实施例的框图；

图2示出根据本公开的具有活动显示(active display)的示例性移动设备显示；

图3示出根据本公开的用于图像稳定化和重新取景(reframing)的示例性处理；

图4示出根据本公开的具有捕获初始化的示例性移动设备显示；

图5示出根据本公开的用于启动图像和视频捕获的示例性处理；

图6示出根据本公开的一方面的自动视频分割的示例性实施例；

图7示出根据本公开的分割视频的方法；

图8示出根据本公开的一个方面的透写台(light box)应用。

图9示出可以在透写台应用内执行的各种示例性操作。

图10示出根据本公开的一个方面的示例性字幕色彩生成应用。

图11示出根据本公开的示例性方面的色彩选择图表。

图12示出根据本公开的一个方面的示例性的图像分组。

图13示出根据本公开的一个方面对图像的分组生成文本色彩的示例性处理。

具体实施方式

在本文中陈述的示例例示本公开的优选实施例，并且这样的示例不应当被解释为以任何方式限制本公开的范围。

参考图1，示出移动电子设备的示例性实施例的框图。虽然所示的移动电子设备是移动电话100，但是本公开同样可以在任意数量的设备(诸如音乐播放器、相机、平板、全球定位导航系统、电视、计算机系统、机顶盒、游戏控制台等)上实现。移动电话典型地包括发送和接收电话呼叫和文本消息、通过蜂窝网络或本地无线网络与因特网对接、照相和拍摄视频、回放音频和视频内容以及运行诸如文字处理、程序或视频游戏等应用的能力。许多移动电话包括GPS，并且还包括触摸屏面板作为用户接口的部分。

移动电话包括主处理器150，其耦合到其他主要组件的每个。如由本领域中技术人员已知的，主处理器150可以是单个处理器或者可以是多于一个的通信耦合的处理器。主处理器150或者多个处理器在诸如网络接口110和120、相机140、触摸屏170和其他输入/输出I/O接口180这样的各种组件之间传递(route)信息。主处理器150还处理音频和视频内容，以便直接在设备上或者通过音频/视频接口在外部设备上回放。主处理器150操作以控制诸如相机140、触摸屏170和USB接口130这样的各种子设备。主处理器150还操作以执行移动电话中的用于操纵数据的子例程，类似于计算机。例如，主处理器可以用于在已经通过相机功能140拍摄照片之后处理图像文件。这些处理可以包括裁剪、压缩、色彩和亮度调节、文本插入、文本着色等。

蜂窝网络接口110由主处理器150控制并且用于经由蜂窝无线网络接收和传输信息。该信息可以以各种格式进行编码，诸如时分多址(TDMA)、码分多址(CDMA)或者正交频分多路复用(OFDM)。通过蜂窝网络接口110从设备传输和接收信息。接口可以包含用于将信息编码和解码成适当的格式以便传输的多个天线编码器、解调器等。可以使用蜂窝网络接口110，以便于语音或文本传输或者从因特网传输和接收信息。信息可以包括视频、音频和/或图像。

无线网络接口120或wifi网络接口用于通过wifi网络传输和接收信息。该信息可以根据诸如802.11g、802.11b、802.11ac等不同的wifi标准以各种格式编码。接口可以包含用于将信息编码和解码成适当的格式以便传输以及对信息进行解码以便解调制的多个天线编码器、解调器等。可以使用wifi网络接口120，以便于语音或文本传输或者从因特网传输和接收信息。信息可以包括视频、音频和/或图像。

通用串行总线(USB)接口130用于通过有线链路(典型地，到计算机或其他启用USB的设备)传输和接收信息。USB接口120可以用于传输和接收信息、连接到因特网、传输和接收语音和文本呼叫等。另外，有线链路可以用于使用移动设备蜂窝网络接口110或wifi网络接口120，将启用USB的设备连接到另外的网络。主处理器150可以使用USB接口130以向计算机发送和接收配置信息。

存储器160或存储设备可以耦合到主处理器150。存储器160可以用于存储与移动设备的操作相关的以及主处理器150所需的特定信息。存储器160可以用于存储音频、视频、照片或由用户存储和检索的其他数据。

输入输出(I/O)接口180包括与电话呼叫、音频记录和回放或语音激活控制一起使用的按钮、扬声器/麦克风。移动设备可以包括通过触摸屏控制器耦合到主处理器150的触摸屏170。触摸屏170可以是使用电容式和电阻式触摸传感器中的一个或多个的单点触摸屏或多点触摸屏。智能电话也可以包括另外的用户控制，诸如但不局限于接通/断开按钮、激活按钮、音量控制、振铃器控制以及多按钮小键盘或键盘。

现在转到图2，示出根据本公开的具有活动显示的示例性移动设备显示200。示例性移动设备应用操作用于：允许用户在拍摄的同时在任何取景(framing)中记录并且自由地旋转他们的设备；在拍摄期间以设备的取景器上的叠加将最终的输出可视化；以及最后校正它们在最终的输出中的取向。

根据示例性实施例，当用户开始拍摄时，考虑用户的当前取向，并且使用基于设备的传感器的重力矢量来登记水平线。针对每个可能的取向，诸如设备的屏幕和相关的光学传感器比宽高的纵向210或者设备的屏幕和相关的光学传感器比高宽的横向250，选取最佳的目标纵横比。在整个传感器内内切(inscribe)插入矩形(inset rectangle)225，对给定的(当前的)取向给出所期望的最佳纵横比，该插入矩形225最佳地适合于传感器的最大边界。稍微地填补传感器的边界，以便提供用于校正的“活动空间”。通过与从设备的集成陀螺仪采样的设备自身的旋转基本上相反地旋转，来变换该插入矩形225，以补偿旋转220、230、240。在整个传感器减去填补的最大可用边界内最佳地内切经变换的内部矩形225。根据设备当前的最大取向，调节经变换的内部矩形225的尺寸，以相对于旋转量在两个最佳的纵横比之间内插。

例如，如果针对纵向取向所选择的最佳纵横比是正方形(1:1)，并且针对横向取向所选择的最佳纵横比是宽的(16:9)，则内切的矩形在它从一个取向旋转到另一个取向时将在1:1和16:9之间最佳地内插。对内切的矩形进行采样，然后变换以适合最佳的输出尺寸。例如，如果最佳的输出尺寸是4:3并且采样的矩形是1:1，则采样的矩形将是充满样貌(aspect filled)(光学地完全填充1:1区域，根据需要裁剪数据)或者适合样貌(aspect fit)(光学地完全适合在1:1区域内部，使用“信箱式处理(letter boxing)”或“邮筒式处理(pillar boxing)”遮住任何未使用的区域)。最后，结果是固定的样貌资产(aspect asset)，其中内容取景基于在校正期间动态提供的纵横比来调节。因此，例如，由1:1至16:9的内容构成的16:9视频将在被光学填充260(16:9部分期间)与使用邮筒式处理适合250(1:1部分期间)之间游移。

另外的精化(由此，在最佳的输出纵横比的选择中考虑和权衡所有移动的总的聚合)是适当的。例如，如果用户记录“主要是横向”并具有少数纵向内容的视频时，则输出格式将是横向纵横比(对于纵向片段进行邮筒式处理)。如果用户记录主要是纵向的视频，则应用相反的处理(视频将是纵向并且光学地填充输出，裁剪落在输出矩形的边界之外的任何横向内容)。

现在参考图3，示出根据本公开的用于图像稳定化和重新取景的示例性处理300。系统响应于启动相机的捕获模式而被初始化。该初始化可以根据硬件或软件按钮或者响应于作为对用户动作的响应而生成的另外的控制信号来启动。当设备的捕获模式被启动时，响应于用户选择来选取移动设备传感器320。用户选择可以通过触摸屏设备上的设置、通过菜单系统或者响应于按钮被激励的方式来做出。例如，被按压一次的按钮可以选择照片传感器，被持续保持压下的按钮可以指示视频传感器。另外，保持按钮达预先确定的时间(诸如3秒)可以指示视频已经被选择，并且在移动设备上的视频记录将继续，直至按钮被第二次激励为止。

一旦选择了适当的捕获传感器，系统就请求来自旋转传感器的测量320。旋转传感器可以是陀螺仪、加速计、轴取向传感器、光传感器等，其被用于确定移动设备的位置的水平和/或垂直指示。测量传感器可以将周期性的测量发送给控制处理器，由此持续地指示移动设备的垂直和/或水平取向。从而，当设备旋转时，控制处理器可以持续地更新显示，并且以具有持续一致的水平线的方式保存视频或图像。

在旋转传感器已经返回移动设备的垂直和/或水平取向的指示之后，移动设备在显示器上图示指示视频或图像的所捕获的取向的插入矩形340。当移动设备被旋转时，系统处理器持续地将插入矩形与从旋转传感器接收的旋转测量同步350。可选地，用户可以指示优选的最终视频或图像定量，诸如1:1、9:16、16:9或者由用户选择的任何比例。系统也可以根据移动设备的取向来存储针对不同比例的用户选择。例如，对于以垂直取向记录的视频，用户可以指示1:1比例，而对于以水平取向记录的视频，可以指示16:9比例。在该实例中，当移动设备被旋转时，系统可以持续地或者递增地重新调节视频360。因此，视频可以以1:1取向开始，但是可以响应于用户在取景的同时从垂直取向旋转到水平取向，而逐渐地重新调节为以16:9取向结束。可选地，用户可以指示开始或结束取向确定视频的最终比例。

现在转到图4，示出根据本公开具有捕获初始化的示例性移动设备显示400。示出示例性移动设备，其图示用于捕获图像或视频的触摸音(touch tone)显示。根据本公开的一方面，该示例性设备的捕获模式可以响应于很多动作来启动。可以压下该移动设备的任何硬件按钮410来启动捕获序列。替代地，可以通过触摸屏来激活软件按钮420以启动捕获序列。软件按钮420可以叠加于显示在触摸屏上的图像430上。图像430充当指示当前图像正在由图像传感器捕获的取景器。如前面描述的内切矩形440也可以叠加在图像上，以指示所捕获的图像或视频的纵横比。

现在参考图5，示出根据本公开的用于启动图像或视频捕获的示例性处理500。一旦启动了成像软件，系统就等待启动图像捕获的指示。当主处理器接收到图像捕获指示510时，设备开始保存从图像传感器发送的数据520。另外，系统启动定时器。然后，系统继续捕获来自图像传感器的数据作为视频数据。响应于来自捕获指示的指示捕获已经终止530的第二指示，系统停止保存来自图像传感器的数据并且停止定时器。

然后，系统比较定时器值与预先确定的时间阈值540。预先确定的时间阈值可以是由软件供应商确定的默认值(例如，诸如1秒)，或者它可以是由用户确定的可配置的设置。如果定时器值小于预先确定的阈值540，则系统确定所期望的是静止图像，并且以诸如jpeg等静止图像格式将视频捕获的第一帧保存560为静止图像。可选地，系统可以选择另外的帧作为静止图像。如果定时器值大于预先确定的阈值540，则系统确定所期望的是视频捕获。然后，系统以诸如mpeg等视频文件格式将捕获数据保存550为视频文件。然后，系统可以返回到初始化模式，等待捕获模式被再次启动。如果移动设备配备不同的传感器用于静止图像捕获和视频捕获，则可选地，系统可以保存来自静止图像传感器的静止图像，并且开始保存来自视频图像传感器的捕获数据。在比较定时器值与预先确定的时间阈值时，保存所期望的数据，同时不保存不想要的数据。例如，如果定时器值超过阈值时间值，则保存视频数据，并且丢弃图像数据。

现在转到图6，示出自动视频分割的示例性实施例600。系统针对自动视频分割，其目的在于计算并输出被切割成尽可能地接近于以秒为单位的预先确定的时间间隔的片段的视频。另外，响应于正在被分割的视频的属性，相应地，片段可以更长或更短。例如，不期望以笨拙的方式(诸如在口语单词的中间)将内容一分为二。示出时间轴610，其图示被分割成九个片段(1-9)的视频。每个片段近似为8秒长。原始视频具有至少1分零4秒的长度。

在该示例性实施例中，针对每个视频片段所选取的时间间隔是8秒。该初始时间间隔可以更长或更短，或者可选地，可以是用户可配置的。选取8秒的基础定时间隔，因为它目前表示具有用于通过各种网络类型的下载的合理数据传输大小的可管理的数据片段。近似8秒的剪辑将具有合理的平均持续时间，以期待终端用户在移动平台上以试探性方式来细察所递送的视频内容的单个剪辑。近似8秒的剪辑可以是在感知上可记忆的持续时间，其中，理论上，终端用户可以保留对它显示的较多量的内容的更好的视觉记忆。另外，8秒是以作为现代西方音乐的最常见的节奏的每分钟120拍的8拍的均匀乐句长度。这近似是作为最常见的乐句长度的4小节(16拍)的短乐句的持续时间(封装整个音乐主旋律或章节的时间的持续时间)。该节奏在感知上与平均活动心率相联系，提示动作和活动并且加强警觉性。而且，基于如下假设，具有小的大小已知的剪辑便于更容易的带宽计算：视频压缩率和带宽通常以8进制数为基础来计算，诸如每秒钟兆比特，其中8兆比特＝1兆字节，因此在以每秒1兆比特编码时，视频的每个片段将以1兆字节为基础。

现在转到图7，示出根据本公开的分割视频的方法700。为了程序性地将视频内容分成在感知上良好的编辑边界上的8秒的理想片段，可以在系统内应用许多方法来分析视频内容。首先，可以针对视频内容的性质，关于它是来源于另外的应用还是使用当前的移动设备记录的，做出最初的确定720。如果内容来源于另外的源或应用，则首先针对明显的编辑边界，使用场景中断(scene break)检测来分析视频内容725。可以标记任何在统计上显著的边界，其中强调所期望的8秒间隔上的或者最接近所期望的8秒间隔的边界730。如果视频内容是使用当前的移动设备记录的，则可以在记录的同时登录(log)传感器数据735。这可以包括来自设备的加速计的设备在所有轴上的运动的增量(delta)和/或基于设备的陀螺仪的设备在所有轴上的旋转。可以分析该登录数据以找到运动开始、针对任何给定矢量随着时间相对于平均量级在统计上显著的增量。登录这些增量，其中强调最接近于所期望的8秒间隔的边界740。

针对可以告知编辑选择的另外的线索，可以进一步在感知上分析视频内容。如果设备硬件、固件或OS提供任何集成的感兴趣区域(ROI)检测(包括脸部ROI选择)，则它可以被用于标记场景中的任何ROI 745。可以登录这些ROI的开始的出现或消失(亦即，最接近于它们在帧中出现以及从帧中消失时的时刻)，其中强调最接近于所期望的8秒间隔的边界。

在总体幅度上的基于音频的开始检测将寻找相对于零交叉、噪底或运行平均功率水平在幅度方面在统计上显著的改变(增加或减少)750。将登录在统计上显著的改变，其中强调最接近于所期望的8秒间隔的那些。在频谱带范围内的幅度上的基于音频的开始检测将依赖于使用FFT算法将音频信号转换成许多重叠的FFT面元(bin)。一旦被转换，就可以针对相对于其自身的运行平均的在幅度方面的在统计上显著的改变，来谨慎地分析每个面元。所有面元又被一起平均，并且将跨越所有带在统计上最显著的结果登录为开始，其中强调最接近于所期望的8秒间隔的那些。在该方法内，可以用梳状滤波器对音频进行预先处理，以选择性地强调/削弱(deemphasize)带，例如，在正常人类语言范围内的带可以强调，而与噪声同义的高频带可以削弱。

可以针对视频内容来确定内容内的平均运动的视觉分析，以帮助建立适当的分割点755。以实时性能特性所需的有限的帧分辨率和采样率，帧内平均运动的量级可以被确定并且用于寻找随着时间的在统计上显著的改变，登录结果，其中强调最接近于所期望的8秒间隔的那些。另外，内容的平均色彩和照度可以使用所记录数据的简单的、低分辨率分析来确定，登录在统计上显著的改变，其中强调最接近于所期望的8秒间隔的那些。

当完成上面分析中的任何一个或全部时，可以分析最终所登录的输出，将每个结果加权到总体平均中760。分析数据的该后处理经过(post-processing pass)基于所有个体分析处理的加权并平均的结果，找到在时间方面最可行的点。计算在所期望的8秒间隔上的或者最接近于所期望的8秒间隔的最终的、最强平均点，作为形成用于分割编辑决定的模型的输出。

后处理步骤760可以将视频上的先前提及的标记点中的任何一个或全部考虑为优选分割点的指示器。可以对不同的确定因素进行加权。而且，可以对变化得离诸如8秒这样的优选的片段长度太远的确定点，比最接近于优选的片段长度的那些更低地加权。

现在转到图8，示出根据本公开的一个方面的透写台应用800。透写台应用针对使用列表驱动的选择处理来提高基于视频和媒体时间的编辑的方法和系统。透写台应用以垂直取向810和水平取向820两者示出。透写台应用可以在已经保存了所分割的视频之后启动。替代地，透写台应用可以响应用户命令来启动。每个片段最初以按年代顺序列出，对每个生成预览。预览可以是从视频片段取得的单个图像或者视频片段的一部分。另外的媒体内容或数据可以添加到透写台应用。例如，从其他来源接收的照片或视频可以包括在透写台列表中，以允许用户共享或编辑所接收的内容或者将这些所接收的内容与新生成的内容组合。因此，该应用允许基于视频和媒体时间的编辑变成简单的列表驱动的选择处理。

透写台应用可以被用作共享编辑决定的中心点。透写台允许用户快速并容易地观看内容并且决定保留什么、丢弃什么以及如何和何时与他人共享。透写台功能可以与相机、与频道浏览一起工作，或者作为从其他位置导入媒体的点。透写台视图可以包含新近的媒体的列表或者媒体的分组集合。每个项目、图像或视频被显示为缩略图，具有字幕、持续时间以及可能的组计数。字幕可以自动地或者由用户生成。持续时间可以简化，以便将媒体内容的加权和步调呈现给用户。透写台标题条可以包括透写台集合的分类和它的项目计数以及用于返回、导入项目或打开菜单的导航。

透写台横向视图820提供不同的布局，其中，媒体项目列在一侧，并且可选地，以某种直接可评价的形式的共享的方法列在另一侧。这可以包括facebook、twitter或其他社交媒体应用的链接或预览。

现在转到图9，示出可以在透写台应用内执行的各种示例性操作900。由例如集成的相机功能捕获的、从设备的现有媒体库导入的、可能使用其他应用记录的或由其他应用创建的或从基于网络的来源下载的、或者根据直接在相关的应用内发布的内容策划(curated)的媒体以预览模式全部被收集到透写台中905。透写台以简单的垂直列表来呈现媒体，基于事件被分类成组，诸如收集媒体的时间的分组。每个项目由包括给定段的媒体的缩略图或简化的持续时间的列表行来表示。通过在任何项目上轻敲，媒体可以在与该项目直接相关地显示的扩展面板中预览。

透写台应用可选地可以具有预览项目的扩展项目视图910。扩展项目视图910显露用于处理媒体项目、添加字幕和共享它的选项。轻敲关闭按钮来关闭项目，或者轻敲它下面的另外的项目来关闭该项目并打开另外的项目。

在透写台应用内向上或向下滚动允许用户导航媒体项目915。标头(header)可以保留在列表的顶部，或者它可以漂浮在内容的顶上。滚动到列表的末端可以允许对其他、更老的列表的导航920。更老的列表的标题可以在拖动的同时在张力下显露。拖动过去的张力过渡到更老的列表。在项目上的保持并拖动允许用户记录项目或者通过将一个拖动到另一个上来组合项目925。向左挥扫项目将项目从透写台中移除930。移除项目可以从设备中移除，或者可以不从设备中移除它们，而不仅仅是透写台应用。拖动并且放开项目到另一个项目上可以用于将项目组合到分组中935，或者将所拖动的项目组合到分组中。将项目捏缩在一起将捏缩范围内的所有项目组合成分组940。在预览组合的项目时，它们顺序地播放，并且示出可以轻敲以在预览窗口下面扩展组合项目的项目计数945。然后，可以向下推动常规的透写台项目，以允许扩展的项目被显示为行。

项目可以通过从透写台应用内拖动它们来操纵。项目可以通过在任何项目上例如向左拖动来从透写台应用移除930。通过在任何项目上向右拖动，项目可以被提升以立即发布950，其过渡到允许用户在一个或许多共享位置上共享给定项目的媒体的屏幕955。在预览时轻敲共享按钮也可以允许项目的共享。通过在任何项目上按压保持，它变得可拖动，此时项目可以被上下拖动以重新组织它在总体列表中的位置。列表中的时间从上到下垂直地表示。例如，最顶部的项目在媒体将被顺序地执行的时间上为第一。任何整组的项目(保持在单个事件标题下面)可以被集体地预览(按照时间顺序作为包含所有项目的单个预览来顺序地播放)，可以使用相同的控制手势和手段作为单个列表项目来集体地删除或发布。在预览包含视频或基于时间的媒体的任何项目时，可以通过在相关列表项目行上从左到右地拖动来控制回放。在用户回放期间，当前的时间位置由可以被拖动到偏移时间的小线来标记。在预览包含视频或基于时间的媒体的任何项目时，通过在相关的列表项目行上水平地使用2个手指捏缩，可以定义选择范围，其可以被捏缩和拖动以便将原始媒体修剪为最终的回放输出。在预览包含图像或静止媒体的任何项目时，通过在相关的列表项目行上从左到右或从右到左地拖动，可以选择性地“擦掉”所捕获的任何另外的相邻帧。例如，如果在单个照片捕获期间相机记录若干帧的输出，则该手势可以允许用户从头到尾地循环并选择最佳的帧作为最终的静止帧。

新近发布(上传到一个或多个发布目的地)的项目自动从透写台列表中清除。超时的或者在透写台中存在超过延长的不活动期(诸如几天)的项目自动从透写台列表中清除。透写台媒体建立在设备上的中心的、无处不在的存储位置上，使得合并相同的透写台视图的其他应用都从相同的当前媒体池共享。这使得对多媒体资产编辑的多个应用合作简单且同步。

现在转到图10，示出根据本公开的一个方面的示例性字幕色彩生成应用1000。一个视图示出用户希望叠加字幕的原始图像1010。字幕可以通过用户输入生成或者由应用自动生成。应用可以识别图像的内容，可以针对类似图像来搜索因特网或数据库，并且检查与该类似图像相关联的元数据或字幕以生成字幕的文本。第二视图示出在图像上叠加字幕1030的更改的图像1020。以使眼睛舒适但仍然使字幕对观看者清晰可辨的这样的方式来选取字幕的色彩以与图像形成反差。

示例性字幕色彩生成应用1000使用确定在图像中最突出的色彩的算法。主要色彩是在图像中最频繁使用的色彩。优势色彩是在图像中具有更多影响并且因此在观看者看来是图像的定义色彩的色彩。例如，如果图像主要为黑色，但是显示有大的红色形状，则观看者可能将图像定义为主要是红色，此时实际上主要色彩为黑色。因此，优势色彩和主要色彩可能不相同。在该示例性实施例中，红色是图像中的主要色彩。系统可以用许多不同的方法来确定该色彩突出。系统可以取得图像中的色彩的平均值，并且响应该平均值来选择字幕色彩并且将其选择为主要色彩。图像可以寻找最常使用的色彩并且将其选择为主要色彩。应用然后可以使用主要色彩作为字幕色彩或者选择离散的许多预先确定的色彩中的一个。

现在转到图11，示出根据本公开的示例性方面的色彩选择图表。系统用于匹配主要色彩1110与离散的许多预先确定的色彩1120。系统设计者可能由于存储器问题、审美等而希望使用某些色彩。例如，系统可能不想要使用黑色或白色或者任何轻淡色彩。替代地，系统可以用于匹配主要色彩与隐性色彩。与优势色彩不同，隐性色彩渐渐融入于背景中。诸如淡紫色、粉色或灰色这些隐性色彩具有周围色彩的性质。相比于优势色彩，可能更期望与隐性色彩形成反差，因为它们允许字幕被阅读，但不会使人从它们叠加在上面的图像或视频分心。当匹配成功时，以匹配色彩来叠加字幕或文本。

系统然后可以选择显示字幕的位置。字幕可以显示在默认位置处，诸如左下处，或者可以在分析图像的色彩位置之后放置字幕。在默认位置的情况下，系统可以确定图像或视频内与默认位置临近的主要色彩。因此，在图像与字幕文本之间，字幕仍将具有所期望级别的反差。应当理解，显示图像和字幕可以意味着在显示屏幕上显示或者生成适合于耦合到显示设备的信号。

替代地，系统可以希望对图像的系列或分组或者对视频使用相同的字幕色彩。在该情况下，系统可以分析每个图像的主要色彩，然后取得最常见的主要色彩并使用该最常见的主要色彩作为叠加在所有图像上的字幕的文本色彩。系统可以确定在图像系列内在所有帧或许多帧上具有最小色彩变化的位置。可以将该位置选择为放置字幕的位置。然后，可以根据先前描述的方法来分析所有图像系列内的该位置的主要色彩以选择文本色彩。文本色彩将被用于在所有图像或视频帧上的该位置处显示字幕。

现在参考图12，示出图像的集合1200。使用电话100的相机功能140来捕获图像1200。用户可能希望创建例如要与朋友和家人共享的图像的分组。图像的分组可以由用户选择，或者可以由处理器150利用存储在存储器160中的信息和/或由接口110、120、130、GPS功能、时钟功能等提供的信息自动地创建。用于对图像进行自动分组的一些示例性方法可以包括：由处理器150基于与所捕获的图像1200一起存储在存储器160中的时间戳或日期对图像进行分组；由处理器150基于由GPS功能提供并且与所捕获的图像1200一起存储在存储器160中的位置信息对图像进行分组；根据由对图像1200执行图像处理技术的处理器所识别出的存储在存储器160中的图像的视觉属性(例如，色彩、对象、亮度等)对图像进行分组；在处理器150比较图像的集合1200中的每个图像与经由接口110、120、130而访问的图像的数据库之后对图像进行分组。在图12中示出的示例中，将图像的集合1200分割或分组(由用户或者由自动处理)成三组图像1205、1210、1215。图像的这些分组1205、1210、1215可以代表在一段时间内用户参加的许多活动(例如，用户在一天、一周、一个月、一个季度、一生等参加的活动)。例如，第一组图像1205可以是在游乐园或多个游乐园捕获的图像。第二组图像1210可以是在海滩或多个海滩捕获的图像。第三组图像1215可以是在棒球比赛或多个棒球比赛捕获的图像。如上面讨论的，应当意识到，图像的这些分组1205、1210、1215可以是由用户例如通过用户经由触摸屏170向处理器150提供指令而创建的，或者由处理器150基于例如时间、日期、位置、视觉属性数据或者图像比较数据中的至少一个而自动创建的。同样应当意识到，每组图像也可以是视频或者视频的分组。

当用户将图像的集合1200提供(例如显示器、电子邮件、社交网络上的张贴等)给例如朋友和家人以便进行观看时，如果除了图像自身的内容之外，还以某种方式使每组图像1205、1210、1215发生联系，则可能是有用的。这将有助于统一给观看者的每组图像1205、1210、1215，但是仍然在更大的图像集合1200中区分每组图像1205、1210、1215。换言之，这将有助于帮助观看者在该用户在每组图像1205、1210、1215之间转换她或她的观看时理解到，该观看者正在从图片的一个集合移动到图片的另一个集合。本公开针对通过对每组图像提供不同色彩的文本来提供这样的图像分组的统一。

现在参考图13，示出对图像的分组生成文本色彩的示例性处理1300。最初，在步骤1305，处理器150将第一组图像分组(例如，图像的分组1205)在一起。如上面讨论的，如由本领域技术人员已知的那样，该分组或分割可以由用户经由触摸屏170向处理器150提供指令来手动地完成，或者由处理器150使用时间、日期、位置、视觉属性数据、图像比较数据等自动地完成。接下来，在步骤1310，处理器150分析第一组图像，以确定第一组图像中的主要色彩。该分析类似于先前在图10中描述和示出的主要色彩分析。然后，在步骤1315，处理器150比较第一组图像的主要色彩与多个色彩，以确定第一组图像的匹配色彩。匹配色彩的该确定类似于先前在图11中描述和示出的色彩匹配处理。当确定出匹配色彩时，在步骤1320，生成以匹配色彩的第一文本(例如，标题、名称、位置等)，并且在步骤1325，与第一组图像一起提供用于显示。如由本领域那些技术人员已知的那样，提供用于显示包括但不局限于：显示在触摸屏170上，存储在存储器160中，或者经由接口110、120、130或经由I/O 180传输(例如，电子邮件、张贴等)。然后，在步骤1330，处理器150将第二组图像(例如，图像的分组1210)分组在一起。如上面讨论的，如由本领域技术人员已知的那样，该分组或分割可以由用户经由触摸屏170向处理器150提供指令来手动地完成，或者由处理器150使用时间、日期、位置、视觉属性数据、图像比较数据等自动地完成。接下来，在步骤1335，处理器150分析第二组图像，以确定第二组图像中的主要色彩。该分析类似于先前在图10中描述和示出的主要色彩分析。然后，在步骤1340，处理器150比较第二组图像的主要色彩与多个色彩，以确定第二组图像的匹配色彩。匹配色彩的该确定类似于先前在图11中描述和示出的色彩匹配处理。接下来，在步骤1345，处理器150确定第二组图像的匹配色彩是否与第一组图像的匹配色彩相同。如果第二组图像的匹配色彩与第一组图像的匹配色彩不相同，则在步骤1350，处理器150生成以匹配色彩的第二文本(例如，标题、名称、位置等)，并且在步骤1355，提供以匹配色彩的第二文本以及第二组图像用于显示。如由本领域那些技术人员已知的那样，提供用于显示包括但不局限于：显示在触摸屏170上，存储在存储器160中，或者经由接口110、120、130或经由I/O 180传输(例如，电子邮件、张贴等)。如果第二组图像的匹配色彩与第一组图像的匹配色彩相同，则在步骤1360，处理器150确定第二组图像的替代色彩。确定替代色彩可以包括例如选择第二组图像中的下一个最接近的主要色彩、选择可用的离散数量的预先确定的色彩之中的第二最接近的匹配、或者两个选择处理的某种组合。当确定出替代色彩时，在步骤1365，处理器150生成以替代色彩的第二文本(例如，标题、名称、位置等)，并且在步骤1370，提供以替代色彩的第二文本以及第二组图像用于显示。如由本领域那些技术人员已知的那样，提供用于显示包括但不局限于：显示在触摸屏170上，存储在存储器160中，或者经由接口110、120、130或经由I/O 180传输(例如，电子邮件、张贴等)。应当意识到，如果对于图像的另外的集合(例如，图像的分组1215)需要色彩文本，则处理器1300可以继续。

应当理解，上面示出和讨论的元件可以以各种形式的硬件、软件或其组合来实现。优选地，这些元件实现为一个或多个经适当编程的通用设备上的硬件和软件的组合，该通用设备可以包括处理器、存储器和输入/输出接口。本描述例示本公开的原理。因此，应当意识到，本领域那些技术人员将能够设计虽然没有在本文中显式地描述或示出但是仍实施本公开的原理并且包括在其范围内的各种布置。在本文中陈述的所有示例和条件语言用于告知目的，以帮助读者理解本公开的原理以及由发明者贡献以推动技术的构思，并且应当被解释为不限于这些具体陈述的示例和条件。而且，在本文中陈述本公开的原理、方面和实施例以及其具体示例的所有陈述意图包括其结构和功能上的等同物。另外，这样的等同物意图包括当前已知的等同物以及在将来开发的等同物，亦即，被开发以执行相同功能的任何元件，而不管结构如何。因此，例如，本领域中那些技术人员将意识到，与本文一起呈现的框图表示实施本公开的原理的例示性电路系统的概念视图。类似地，应当意识到，任何流程表、流程图表、状态转换图、伪代码等表示可以实质地表示在计算机可读介质中并且因此而被计算机或处理器执行的各种处理，而不管这种计算机或处理器是否被显式地示出。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 对一组图像生成文本色彩的方法和装置 [P] . 中国专利： CN105874780B . 2019.04.09
2. 一种训练文本图像生成模型、文本图像生成的方法和装置 [P] . 中国专利： CN112669215A . 2021-04-16
3. METHOD AND APPARATUS FOR GENERATING A TEXT COLOR FOR A GROUP OF IMAGES [P] . 欧洲知识产权局专利： EP3047644B1 . 2018-08-08

机译：用于为一组图像生成文本颜色的方法和装置
4. METHOD AND APPARATUS FOR GENERATING A TEXT COLOR FOR A GROUP OF IMAGES [P] . 世界知识产权组织专利： WO2015038351A8 . 2016-07-21

机译：用于为一组图像生成文本颜色的方法和装置
5. METHOD AND APPARATUS FOR GENERATING A TEXT COLOR FOR A GROUP OF IMAGES [P] . 韩国专利： KR20160058103A . 2016-05-24

机译：用于为一组图像生成文本颜色的方法和装置