首页> 中国专利> 一种数智董秘生成方法及装置

一种数智董秘生成方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请公开了一种数智董秘生成方法及装置，涉及人工智能技术领域，通过获取董秘文本数据样本和音频数据样本；将文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音；获取董秘形象视频样本；将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中，得到数智董秘形象；通过人脸数据增强技术增强数智董秘的脸部细节；通过背景去除算法将数智董秘切换至虚拟场景。本申请提供的方法可以生成数智董秘，使得智能董秘以更高的媒介传播形态及时回复投资者对于上市公司的信息披露工作，大大降低了董秘的工作量，同时能够提升董秘与投资者之间的互动效果。

著录项

公开/公告号CN116645048A

专利类型发明专利
公开/公告日2023-08-25

原文格式PDF
申请/专利权人北京远见未来信息科技有限公司;赵佳怡;
展开▼

申请/专利号CN202310558600.9
发明设计人赵鑫;邵学军;赵佳怡;
展开▼

申请日2023-05-17
分类号G06Q10/10(2023.01);G10L13/027(2013.01);G10L13/10(2013.01);G10L25/18(2013.01);G10L19/16(2013.01);G06T13/00(2011.01);G06F18/25(2023.01);G06N5/00(2023.01);G06F18/214(2023.01);
代理机构北京华清迪源知识产权代理有限公司 11577;
代理人丁彦峰
地址 100041 北京市石景山区实兴大街30号院3号楼2层A-1215房间
入库时间 2024-01-17 01:24:51

法律信息

法律状态公告日

法律状态信息

法律状态
2023-09-12

实质审查的生效 IPC(主分类):G06Q10/10 专利申请号:2023105586009 申请日:20230517

实质审查的生效

说明书

技术领域

本申请涉及人工智能技术领域，具体涉及一种数智董秘生成方法及装置。

背景技术

随着科技的不断进步，中国证券监督管理委员会也明确指出强化投资者关系管理，是提高上市公司质量的重要举措，也是投资者保护的重要内容。提出了进一步增加和丰富投资者关系管理的内容及方式，同时对近年来实践中的良好做法予以固化，使其适应互联网、新媒体等新时代发展形势，在电话、传真等投资者关系管理传统沟通渠道基础上，新增网站、新媒体平台、投资者教育基地等新兴渠道。

董秘作为上市公司的高级管理人员，其对外主要负责公司信息披露、投资者关系管理等。目前，董秘投资者关系管理主要依托交易所互动平台、财经媒体、公司网站等自媒体对上市公司公告、财报进行公开信息发布，与投资者的沟通方式目前只是电话、邮件、互动平台的问答等方式，多为图文的文本传输方式。对于投资者来说，互动非常效果差，不利于上市公司信息披露及投资者关系工作，同时也增加董秘的工作量。

发明内容

为此，本申请提供一种数智董秘生成方法及装置，以解决现有技术存在的董秘与投资者的互动效果差且工作量大的问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，一种数智董秘生成方法，包括：

获取董秘文本数据样本和音频数据样本；

将所述文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音；

获取董秘形象视频样本；

将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中，得到数智董秘形象；

通过人脸数据增强技术增强数智董秘的脸部细节；

通过背景去除算法将数智董秘切换至虚拟场景。

作为优选，所述将所述文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音，具体包括：

提取所述音频数据样本的音色向量；

用所述文本数据样本结合所述音色向量，产生将所述音频数据样本中说话人特征融入到所述文本数据样本对应的语音频谱；

根据所述语音频谱生成数智董秘的声音。

作为优选，所述用所述文本数据样本结合所述音色向量，产生将所述音频数据样本中说话人特征融入到所述文本数据样本对应的语音频谱时采用FastPitch作为主干网络。

作为优选，所述根据所述语音频谱生成数智董秘的声音时采用声码器HiFiGAN。

作为优选，所述数字人生成模型为Wav2lip模型。

作为优选，所述人脸数据增强技术为基于GFP-GAN的人脸数据增强技术。

作为优选，所述背景去除算法采用U2Net。

第二方面，一种数智董秘生成装置，包括：

第一数据获取模块，用于获取董秘文本数据样本和音频数据样本；

数智董秘声音生成模块，用于将所述文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音；

第二数据获取模块，用于获取董秘形象视频样本；

数智董秘形象生成模块，用于将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中，得到数智董秘形象；

数智董秘脸部增强模块，用于通过人脸数据增强技术增强数智董秘的脸部细节；

虚拟场景切换模块，用于通过背景去除算法将数智董秘切换至虚拟场景。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种数智董秘生成方法的步骤。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种数智董秘生成方法的步骤。

相比现有技术，本申请至少具有以下有益效果：

本申请提供了一种数智董秘生成方法及装置，通过获取董秘文本数据样本和音频数据样本；将文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音；获取董秘形象视频样本；将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中，得到数智董秘形象；通过人脸数据增强技术增强数智董秘的脸部细节；通过背景去除算法将数智董秘切换至虚拟场景。本申请提供的方法可以生成数智董秘的短视频或者在线直播等形态，以更高的媒介传播形态及时回复投资者对于上市公司的信息披露工作，大大降低了董秘的工作量，同时能够进一步增强投资者对上市公司公开信息的了解，提升了董秘与投资者之间的互动效果。

附图说明

为了更直观地说明现有技术以及本申请，下面给出几个示例性的附图。应当理解，附图中所示的具体形状、构造，通常不应视为实现本申请时的限定条件；例如，本领域技术人员基于本申请揭示的技术构思和示例性的附图，有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。

图1为本申请实施例一提供的一种数智董秘生成方法流程图；

图2为本申请实施例一提供的一种数智董秘生成方法结构示意图；

图3为本申请实施例一提供的数智董秘声音合成方法结构示意图；

图4为本申请实施例一提供的FastPitch网络结构示意图；

图5为本申请实施例一提供的语谱图结构示意图；

图6为本申请实施例一提供的HiFiGAN生成器结构示意图；

图7为本申请实施例一提供的MPD和MSD的结构示意图；

图8为本申请实施例一提供的Wav2lip唇形转换效果示意图；

图9为本申请实施例一提供的Wav2lip训练结构示意图；

图10为本申请实施例一提供的Wav2Lip生成唇形同步视频方法结构示意图；

图11为本申请实施例一提供的人脸数据增强技术增强效果示意图；

图12为本申请实施例一提供的GFP-GAN网络结构示意图；

图13为本申请实施例一提供的虚拟场景切换示意图；

图14为本申请实施例一提供的U2Net网络结构示意图；

图15为本申请实施例一提供的数智董秘多轮对话逻辑管理结构示意图；

图16为本申请实施例一提供的GPT-2网络结构示意图。

具体实施方式

以下结合附图，通过具体实施例对本申请作进一步详述。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义(例如，不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”(某些单元、部件、材料、步骤等)。

本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，通常是为了便于对照附图直观理解，而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下，这些相对位置关系的改变，当亦视为本申请表述的范畴。

实施例一

请参阅图1和图2，本实施例提供了一种数智董秘生成方法，包括：

S1：获取董秘文本数据样本和音频数据样本；

S2：将文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音；

具体的，请参阅图3，数智董秘的声音生成主要依托于语音合成技术(TTS)和语音克隆技术，主要包括Speaker Encoder、Synthesizer和Vocoder三个部分；即先提取音频数据样本的音色向量(即Speaker Encoder部分)，然后用文本数据结合音色向量，产生将音频数据样本中说话人特征融入文本数据样本对应的语音频谱(即Synthesizer部分)，最后用语音频谱生成数智董秘的声音(即Vocoder部分)。

本实施例中，Synthesizer使用FastPitch作为主干网络，FastPitch为带音高预测的并行TTS，其网络结构如图4所示。FastPitch中主要涉及Feed-Forward、Transformer两个模块，Feed-Forward模块主要负责对输入文本的Token进行编码然后预测音高和时长；Transformer主要负责输出一帧一帧的语谱图，最终基于数智董秘输入的文本数据将迭代输出该文本数据的语谱图，如图5所示。

有了生成的语谱图后，通过声码器可以生成最终的数智董秘的声音；本实施例中声码器采用HiFiGAN，其生成器结构如图6所示。

由图6最左边的子图可知，HiFiGAN的生成器由|k

HiFiGAN的判别器：语音中的判别器和CV或者NLP中的判别器最大的不同在于数据的长度，语音的长度通常是上万的，因此如何判别这么长的数据是真是假就成了一个问题。现有技术中虽然通过增加discriminator的receptive field的方法在一定程度上解决了这个问题，但是信号中不同周期的正弦信号也需要进行识别。因此，本实施例使用了两个判别器，一个是multi-period discriminator(MPD)，用来识别语音中不同周期的信号，另一个是MelGAN中的multi-scale discriminator，用来应对超长数据。MPD和MSD的架构如图7所示。

S3：获取董秘形象视频样本；

具体的，董秘形象视频样本的时长可以为30s-1min。

S4：将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中，得到数智董秘形象；

请参阅图8，本步骤中，数字人生成模型选用Wav2lip模型，Wav2lip是一个基于GAN的唇形动作迁移算法，其能够实现生成的视频人物与输入语音的同步。Wav2lip不仅可以基于静态图像来输出与目标语音匹配的唇形同步视频，还可以直接将动态的视频进行唇形转换，输出与输入语音匹配的视频。

请参阅图9，在训练阶段，数字人生成模型的输入包括视频帧序列和音频两部分，分别通过Face encoder和Audio encoder得到特征信息，并进行融合；再通过Face decoder获得唇形和音频同步的图像帧，把原始视频帧和生成图像帧输入到视觉质量判别器中，二分类的结果表示是真实的图像、还是生成的图片，进而提高图像质量。把生成图像帧和音频输入到预先训练好的唇形同步判别器中，判断唇形是否生成的精准，在训练过程中，唇形同步判别器参数会一直被冻结，不参与训练和更新。

在推理阶段，提供一段音频和视频(或图像、动画)即可合成唇形同步视频。

请参阅图10，Wav2Lip生成唇形同步视频时主要包括以下步骤：

步骤一：数据处理：根据网络接收的数据格式，完成相应的预处理操作，从而保证模型能够正常读取；

步骤二：模型构建：设计Wav2Lip网络结构；

步骤三：模型配置：实例化模型，指定学习率和优化器；

步骤四：模型训练：执行多轮训练不断调整参数，以达到较好的效果；

步骤五：模型保存：将模型参数保存到指定位置，便于后续推理使用；

步骤六：模型推理及可视化：使用训练好的模型将视频人物的唇形和输入语音同步，并可视化推理结果。

S5：通过人脸数据增强技术增强数智董秘的脸部细节；

通过人脸数据增强技术能够使得数字人人脸部增强，生成的数字人更加逼真，其增强效果如图11所示。

通过图11可得，基于GFP-GAN的人脸数据增强技术，可以细化人的眼部和嘴部细节从而达到图像的高清晰化，并不丢失脸部整体特征。其实现的网络细节如图12所示。

步骤一：退化去除；基于Unet网络，用于提取清晰潜在特征F_latent和不同分辨率空间特征F_spatial；

步骤二：生成式人脸先验和潜在特征匹配；将潜在特征F_latent匹配到中间潜在编码W，该编码W用于从可学习的人脸GAN分布中检索最相近的人脸特征F_GAN；然后，能够用GAN特征获得生成式人脸先验F_prior；

步骤三：通道分割的空间特征转换；利用步骤二的先验特征F_prior和步骤一的不同分辨率空间特征F_spatial生成高清图像；

α，β＝Conv(F

但是这种方法难以在真实性和保真度之间达到好的平衡，因此本实施例将先验特征分解为身份特征部分(用于保留)以及变换特征部分(用于特征调制)，采用以下的形式进行求解：

S6：通过背景去除算法将数智董秘切换至虚拟场景。

请参阅图13，数智董秘的样本是视频不需要再绿幕背景下录制，通过背景去除算法可以随意切换数字人的虚拟背景使数智董秘置身指定虚拟场景之下.

本实施例采用U2Net实现人像抠图达到背景切换的目的，其核心的网络结构如图14所示。

U2Net整体是一个编码-解码(Encoder-Decoder)结构的U-Net，其中，每个stage由新提出的RSU模块(residual U-block)组成，即一个两层嵌套的U结构网络。其优势在于：

1.RSU模块，融合了不同尺度感受野的特征，能够捕获更多不同尺度的上下文信息(contextual information)；

2.RSU模块的池化(pooling)操作，可以在不显著增加计算成本的情况下，加深网络结构的深度。

通过本实施例提供的方法生成的智能董秘可以实现人物的多轮对话，本实施例提供的智能董秘多轮对话逻辑管理结构如图15所示。

首先基于现实人物的语音作为输入，通过自动语音识别(ASR)模型将现实人物的语音转化为文本，该文本经过自然语言理解(NLU)模块实现意图识别和实体识别两大任务，通过对话逻辑管理模块(DM)实现多伦对话管理，基于对话管理生成最终的反馈(自然语言生成(NLG)),最后将NLG生成的文本经过数智董秘生成过程实现数智董秘的问答场景。

该过程中语音识别(ASR)时本实施例使用了WeNet中的U2++实现，当然也可以选择比如基于CTC、基于RNN-Transducer(RNN-T)、基于Transformer-Tranducer(CTC)或者基于Conformer的声学模型，同时本实施例为了ASR的准确性还加入了基于Transformer-XL的语言模型。对话逻辑管理时本实施例基于Rasa实现，本实施例可以方面容易的替换为其他对话逻辑管理方式，比如ConvLab,botpress,DeepPavlov，Microsoft Bot Framework等框架实现。

基于上述技术方案可以实现实时交互式的数智董秘。

通过本实施例提供的方法生成的智能董秘还可以实现财经文本的生成和播报，其可以根据提供的财经类关键词实现自动财经文本的生成和播报，过程中本实施例训练了GPT-2作为文本生成模型植入数智董秘大脑，可实现基于财经关键词的财经文本生成，其基本的网络结构如图16所示。

首先关键词经过embedding和位置编码组合为input，该input经过N个类似于Transformer Decoder模块的结构(图16中红色结构)，最终在特定任务模块生成预测文本。通过tech forcing训练该模型，从而达到财经文本生成的目的，在模型推断阶段，input为财经关键词或短语或短句，output为生成的财经文本，生成过程中遇到(结束符)结束生成，生成过程采用beam search实现。当然本实施例不限于使用GPT-2进行文本生成，可以使用类似于：T5、BART、MASS等模型，也可以采用类似于自编码方式的大模型实现比如：Bert、DeBerta、AlBert和RoBerta等。

通过本实施例提供的方法生成的数智董秘是基于元宇宙的数字人技术，通过录制数段董秘视频，结合人工智能学习、数字分身技术和声音复刻技术，复制出董秘的形象与声音，后台通过文本输入，就可以生成数智董秘的短视频或者在线直播等形态，使其以更高的媒介传播形态及时回复投资者对于上市公司的信息披露工作。再通过生成式AI对上市公司的结构化数据、历史资料、财报、影音视频等学习，以达到对投资者想了解的上市公司信息进行及时回复，大大降低了董秘的工作量，同时能够进一步增强投资者对上市公司公开信息的了解，提升了董秘与投资者的互动效果。

实施例二

本实施例提供了一种数智董秘生成装置，包括：

第一数据获取模块，用于获取董秘文本数据样本和音频数据样本；

数智董秘声音生成模块，用于将所述文本数据样本和音频数据样本通过语音合成技术和语音克隆技术生成数智董秘的声音；

第二数据获取模块，用于获取董秘形象视频样本；

数智董秘形象生成模块，用于将数智董秘的声音和董秘形象视频样本输入到预先训练好的数字人生成模型中，得到数智董秘形象；

数智董秘脸部增强模块，用于通过人脸数据增强技术增强数智董秘的脸部细节；

虚拟场景切换模块，用于通过背景去除算法将数智董秘切换至虚拟场景。

关于一种数智董秘生成装置的具体限定可以参见上文中对于一种数智董秘生成方法的限定，在此不再赘述。

实施例三

本实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种数智董秘生成方法的步骤。

实施例四

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种数智董秘生成方法的步骤。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾)，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述；这些未明确写出的实施例，也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解，基于本申请的技术构思，还可以对这些具体实施例作出若干常规的调整或进一步的创新；但只要未脱离本申请的技术构思，这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种数据生成云备份的方法和装置 [P] . 中国专利：
2. 二维码的生成方法、识别方法、生成装置及识别装置 [P] . 中国专利：
3. 一种数据处理方法、装置和用于数据处理的装置 [P] . 中国专利：
4. 一种数据处理方法、装置和用于数据处理的装置 [P] . 中国专利：
5. 一种数据提取方法、秘钥生成方法、解锁方法及装置 [P] . 中国专利： CN111177699B . 2022-07-08
6. 一种数据提取方法、秘钥生成方法、解锁方法及装置 [P] . 中国专利： CN111177699A . 2020-05-19
7. Printing setting apparatus, computer readable recording medium, and image forming system for generating printing setting information described in one data format included in plural types of data formats and submitting a printing job to an image forming apparatus capable of executing a printing job based on printing setting information described in the plural types of data formats [P] . 美国专利： US9025172B2 . 2015-05-05

机译：打印设置装置，计算机可读记录介质和图像形成系统，用于生成以包括在多种数据格式中的一种数据格式描述的打印设置信息，并将打印作业提交至能够基于打印设置执行打印作业的图像形成装置以多种数据格式描述的信息
8. Scenario generation method in which various data are associated with each other, scenario execution method in which various data are associated with each other, scenario generation device, and scenario execution device [P] . 美国专利： US10222949B2 . 2019-03-05

机译：其中各种数据彼此关联的方案生成方法，其中各种数据彼此关联的方案执行方法，方案生成设备和方案执行设备
9. DEVICE AND METHOD FOR PROCESSING INFORMATION SIGNAL, IMAGE SIGNAL PROCESSOR, IMAGE DISPLAY DEVICE USING THE SAME, DEVICE AND METHOD FOR GENERATING COEFFICIENT SPECIES DATA USED BY THE SAME, DEVICE AND METHOD FOR GENERATING COEFFICIENT DATA AND INFORMATION PROVIDING MEDIUM [P] . 日本专利： JP2002218413A . 2002-08-02

机译：用于使用该相同信息处理信息信号，图像信号处理器，图像显示设备的装置和方法，用于生成该同一信息所使用的正确物种数据的装置和方法，用于生成该有效数据和信息提供介质的装置和方法