公开/公告号CN116484047A
专利类型发明专利
公开/公告日2023-07-25
原文格式PDF
申请/专利权人 北京兰姆达科技有限公司;
申请/专利号CN202310513308.5
申请日2023-05-09
分类号G06F16/68(2019.01);G06F16/65(2019.01);G06F16/64(2019.01);G06F16/632(2019.01);H04N21/439(2011.01);H04N21/81(2011.01);
代理机构北京一诺通成知识产权代理事务所(普通合伙) 16145;
代理人孔巍
地址 100102 北京市朝阳区利泽中园106号楼1层A133
入库时间 2024-01-17 01:17:49
法律状态公告日
法律状态信息
法律状态
2023-08-11
实质审查的生效 IPC(主分类):G06F16/68 专利申请号:2023105133085 申请日:20230509
实质审查的生效
2023-07-25
公开
发明专利申请公布
技术领域
本发明属于音频媒体技术领域,具体是指一种基于AIGC的音频媒体系统。
背景技术
随着AI技术的算力、预训练大模型和多模态技术的不断发展,在自然语言和音视频领域涌现出大量人工智能生产内容AIGC作品,在音频内容、聊天机器人、AI虚拟主持人和新闻写作等应用场景中出现很多产品,技术成熟度具备相当水平。AIGC已经成为了UGC、PGC之后最重要的新型内容生产方式,AI合成主播的形象也在各个行业有了一定的探索和使用。
当前音频商业化广告模式主要以启播、中插和页面等形式为主,基于媒资内容的流量来增加广告的曝光和广告互动。在用户收听媒资内容时,由于当前的音频商业化广告的音色音质和情感较为突兀,影响用户收听体验和情感体验,从而也对音频广告的传播和广告价值产生了不利影响。当前,广告收听体验较好的形式为预植入式内容广告,但其前期制作成本高,后期替换修改成本高,从而使得此类广告形式的商业化效率较低。
发明内容
为了解决上述难题,本发明提供了一种借助音频AIGC技术进行商业化内容生产,通过对媒体内容和商业化内容的解构和重组,形成基本的媒资对象存储以及相关信息索引,并进一步生成有商业价值的音频元数据管理系统,提供内容和商业化的二次加工,大大提升商业化效率的基于AIGC的音频媒体系统。
为了实现上述功能,本发明采取的技术方案如下:一种基于AIGC的音频媒体系统,包括音频内容管理平台和TTS系统/AIGC工具,所述音频内容管理平台集成了有声内容音频文件,通过对所述音频内容管理平台的音频内容的ASR处理生成内容标签元数据,通过对所述音频内容管理平台的音频内容中相同主播的媒体内容进行声音特征分析,利用现有成熟的AI算法工具提取媒体内容的音色、语速、方言、情感等信息数据标签,形成声音数字画像,所述声音数字画像和内容标签元数据信息结合生成dummy虚拟声音数字主播,所述dummy虚拟声音数字主播通过TTS系统/AIGC工具生成音频元数据管理系统。
优选地,所述内容标签元数据包括音转文之后的商业化内容的分类标签、时间标签、商业化特性标签等信息;以媒体内容的分类标签和时间标签等相关信息输入,结合商业化素材内容,并辅助以AI算法形成用户收听体验好,商业化效率高的广告展示方案。
优选地,所述虚拟声音数字主播具有音频内容属性和主播声音特点。
优选地,所述TTS系统/AIGC工具有多个相对成熟的服务平台包括阿里、腾讯、IBM、讯飞等服务平台,都可以实现此阶段部分需求。
优选地,所述dummy虚拟声音数字主播进行内容无缝对接融合,并实现可剥离可定制,媒体内容和广告内容基于音频内容管理平台,在特定的播放渠道和特定的广告主需求情况下,灵活形成内容广告,并借助内容渠道和生态合作形成最大化商业价值实现。
本发明采取上述结构取得有益效果如下:本发明提供的一种基于AIGC的音频媒体系统,结构简单,机构紧凑,通过以相似音色音质和情感的dummy声音数字虚拟主播生成的商业化内容,动态植入用户收听的音频中,降低用户收听打扰,提高用户收听体验;dummy声音数字虚拟主播大大提升了内容生产效率;基于音频媒资内容和商业化内容标签的算法,提升音频媒资内容商业化效率;利用AI算法和用户画像,形成千人千面的商业化内容输出。
附图说明
图1为本发明一种基于AIGC的音频媒体系统的结构框架示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。以下结合附图,对本发明做进一步详细说明。
如图1所示,本发明一种基于AIGC的音频媒体系统,包括音频内容管理平台和TTS系统/AIGC工具,所述音频内容管理平台集成了有声内容音频文件,通过对所述音频内容管理平台的音频内容的ASR处理生成内容标签元数据,通过对所述音频内容管理平台的音频内容中相同主播的媒体内容进行声音特征分析,利用现有成熟的AI算法工具提取媒体内容的音色、语速、方言、情感等信息数据标签,形成声音数字画像,所述声音数字画像和内容标签元数据信息结合生成dummy虚拟声音数字主播,所述dummy虚拟声音数字主播通过TTS系统/AIGC工具生成音频元数据管理系统。
所述内容标签元数据包括音转文之后的商业化内容的分类标签、时间标签、商业化特性标签等信息。
所述虚拟声音数字主播具有音频内容属性和主播声音特点。
所述TTS系统/AIGC工具有多个相对成熟的服务平台包括阿里、腾讯、IBM、讯飞等服务平台。
所述dummy虚拟声音数字主播进行内容无缝对接融合,并实现可剥离可定制。
实施例1
首先,通过媒体内容的ASR处理,生成内容标签元数据,包括音转文之后的商业化内容的分类标签、时间标签、商业化特性标签等信息。同时,通过对相同主播的媒体内容进行声音特征分析,利用现有成熟的AI算法工具提取媒体内容的音色、语速、方言、情感等信息数据标签,形成声音数字画像。
其次,基于媒体内容的AI处理结果,结合声音数字画像和内容标签信息,生成dummy虚拟声音数字主播。该虚拟声音数字主播具有音频内容属性和主播声音特点。
再次,以媒体内容的分类标签和时间标签等相关信息输入,结合商业化素材内容,并辅助以AI算法形成用户收听体验好,商业化效率高的广告展示方案。
最后,基于商业化需求,驱动dummy虚拟声音数字主播,使用包括TTS系统/AIGC工具,大规模批量生产出音色音质和情感体验较好的媒体内容,譬如启播、中插广告,以及情景动态植入广告等,提高用户收听体验。商业化TTS系统/AIGC工具有多个相对成熟的服务平台包括阿里、腾讯、IBM、讯飞等服务平台都可以实现此阶段部分需求。
同时,基于广告算法灵活替换和变更商业化内容展现,在音频媒体内容中进行动态植入,提升商业化效率。
最后,借助AIGC技术,聚焦垂直音频内容和音频用户习惯,并根据dummy声音数字主播,快速规模化生产具备个性化音频广告内容,并在广告系统平台的能力之上,进一步增强互动广告、植入广告,品牌广告等广告内容,使得音频广告内容更加生动和丰富。
另外,AIGC音频dummy主播结合传统广告管理系统,以渠道竞价或者固定中插广告形式,生产合成内容广告的最终内容-广告形态。dummy虚拟主播广告进行内容无缝对接融合,并实现可剥离可定制,媒体内容和广告内容基于音频内容管理平台,在特定的播放渠道和特定的广告主需求情况下,灵活形成内容广告,并借助内容渠道和生态合作形成最大化商业价值实现。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
机译: 增强智能,偶发,双工通信的音频听众和具有嵌入式矩阵代码的多媒体内容的系统,该矩阵代码由具有本地无线电频率通信器的多媒体记录器捕获,并且已正确地将集中的音频输入到集成的集中式音频中-具有SMART引擎的媒体内容,可以同时接收和分析来自基于多种听觉和人工智能的随机响应的输入..............相关的利益相关者。
机译: 多媒体序列音频-视频序列,一种用于多媒体服务器的错误隐藏方法,涉及基于创建的视频流的加权平均值来创建视频流,其中逐渐减小另一视频流的影响
机译: 数字媒体内容提取系统,课程生成和演示,数字媒体内容提取和课程生成系统,视频传输及相关的音频或文本通道分析系统以及基于从通道中提取的数据的自动运动生成学习以及用于视频流分析和分析的系统根据从视频流中提取的数据自动生成课程