首页> 中国专利> 一种听障老人辅助交流方法及装置

一种听障老人辅助交流方法及装置

摘要

本发明公开了一种听障老人辅助交流方法及装置,涉及互联网技术领域,包括以下步骤:S1、采集多维媒体信息及预处理;S2、多维媒体信息融合建模;S3、文本转化;S4、增强现实呈现;S5、交流反馈与更新;S6、数据存储和分析。该听障老人辅助交流方法及装置,将采集到的多维媒体信息进行预处理操作,在处理后将多维媒体信息融合建模,从而实现对多模态特征进行提取、融合、联合建模,在完成模型评估后进行文本转化,通过增强现实呈现的方式进行应用程序设计,通过文字提示、手语播报、定制语音等方式提高用户的交互体验和辅助效果,在对交流反馈与更新后进行性能提升,最后通过多维数据的及时优化,进而辅助提高听障老人的交流效率。

著录项

  • 公开/公告号CN116487019A

    专利类型发明专利

  • 公开/公告日2023-07-25

    原文格式PDF

  • 申请/专利权人 嵩山实验室;

    申请/专利号CN202310458101.2

  • 申请日2023-04-25

  • 分类号G16H40/67(2018.01);G16H80/00(2018.01);G06N3/0442(2023.01);G06N3/0464(2023.01);G06N3/08(2023.01);

  • 代理机构深圳市成为知识产权代理事务所(普通合伙) 44704;

  • 代理人李罡

  • 地址 450000 河南省郑州市郑东新区龙子湖自然资源大厦C栋

  • 入库时间 2024-01-17 01:17:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-11

    实质审查的生效 IPC(主分类):G16H40/67 专利申请号:2023104581012 申请日:20230425

    实质审查的生效

  • 2023-07-25

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及互联网技术领域,具体为一种听障老人辅助交流方法及装置。

背景技术

听障老人在进行听力补偿时,一般采用助听器和人工耳蜗进行辅助交流,从而保证听障老人在日常生活中可以进行正常交流。在对听力辅助设备进行调节时,一般需要对老人进行听力测试,测试后采用配套的软件进行听力调整。

根据专利202111085866.3听觉辅助方法、装置、设备及计算机可读存储介质,用户终端响应于针对听觉辅助客户端的触发操作,呈现听觉辅助界面,该听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口,当用户想要进行近程辅听时,可以针对第一功能入口触发点击或触控操作,响应于该点击或触控操作,呈现医生信息展示界面,通过该医生信息展示界面可以选择目标医生信息以及第一预约时间,在接收到预约操作指令后,通过服务器向医生客户端发送远程问诊请求,该远程问诊请求包括第一预约时间和进行实时音视频通话的入口链接,使得医生客户端和用户的听觉辅助客户端在达到第一预约时间时通过入口链接进行实时的音视频通话,从而实现远程问诊,不仅能够减少用户进行问诊时的时间成本和交通成本,还能够提高问诊效率;

该技术方案在具体实施方式中提到了,医生终端在获取到对用户终端的远程控制权限后,会呈现助听设备的设置界面,医生通过该设置界面,对该助听设备的参数进行调整,从而将需要调整的参数调整至目标值;同时,通过用户终端自身的语音输出装置输出目标语言数据,也可以是将目标语言数据发送至与用户终端建立有通信连接的助听设备上,该助听设备可以穿戴于用户的耳部;

上述操作通过调整助听设备的参数,并且通过穿戴的助听设备可以为听障用户进行听觉辅助,但是辅助的方式只停留在听力能力的补偿上,这样的听觉辅助无法进行多维度补偿,使得常规的听力辅助无法高效的提高听障老人的交流效率,因此我们提出了一种听障老人辅助交流方法及装置。

发明内容

本发明的目的在于提供一种听障老人辅助交流方法及装置,以解决上述背景技术提出的问题。

为实现上述目的,本发明提供如下技术方案:一种听障老人辅助交流方法,包括以下步骤:

S1、采集多维媒体信息及预处理;

S2、多维媒体信息融合建模;

S3、文本转化;

S4、增强现实呈现;

S5、交流反馈与更新;

S6、数据存储和分析。

优选的,所述步骤S1还包括有如下操作步骤:

S11、采集对话人的语音、面部图像和视频等多维媒体信息,以及相关的环境噪声数据;

S12、信息预处理。

优选的,所述信息预处理还包括有如下操作步骤:

S1201、声音信息预处理,将采集到的声音数据进行降噪、语音分段、声音增强等处理;

S1202、图像信息预处理,对采集到的图像数据进行人脸检测、面部定位、图像增强等处理;

S1203、视频信息预处理,对采集到的视频数据进行视频稳定、人脸跟踪、动作识别等处理;

S1204、数据对齐和同步,针对声音和视频数据的采样率不同,需要通过插值或降采样等方法进行时间对齐。

优选的,所述步骤S2的具体操作步骤如下:

S21、多模态特征提取,提取过程涵盖声音特征提取、视觉特征提取以及自适应特征提取组成;

S22、多模态特征融合,将从不同模态中提取出的特征融合在一起,形成一个多模态特征向量,融合过程包括如下步骤:

S2201、特征归一化,从不同模态中提取的特征具有不同的数值范围和分布,需要将它们归一化为统一的数值范围;

S2202、特征选择,从多个模态中提取的特征可能存在冗余和噪声,需要进行特征选择以减少特征的维度;

S2203、特征融合,在特征选择之后,将选取的特征进行融合;

S2204、特征降维,经过特征选择和融合之后,可能会得到很高维度的特征向量,需要进行特征降维;

S23、多模态特征联合建模,将多个模态的特征进行联合建模,以获得更加准确和鲁棒的结果;

S24、模型评估和优化。

优选的,所述联合建模的步骤如下:

S2301、多模态特征联合建模,将不同模态的特征进行联合建模,可以使用深度神经网络等机器学习方法进行建模;

S2302、模型训练与优化,在联合建模之后,需要对联合模型进行训练和优化。

优选的,所述文本转化由如下操作步骤组成:

S31、语音识别结果的纠错与断句,将语音识别的结果文本序列作为输入,通过预训练的语言模型,将每一个词语编码成一个向量表示,然后将这些向量输入到CRF或LSTM模型中进行纠错和断句任务;

S32、主题提取,语音识别结果可能包含大量的信息,对其进行主题提取,提取出文本中最重要的内容,为后续多种呈现方式提供素材。

优选的,所述步骤S4具体操作步骤如下:

S41、设计增强现实应用程序,根据用户的需要,设计增强现实应用程序,包括界面设计、功能设计等;

S42、文本提示的增强现实呈现,在增强现实应用程序中,根据语音识别的文本信息,将文字提示以增强现实的方式呈现在用户视野范围内;

S43、手语播报的增强现实呈现,为了帮助听力障碍者更好地理解对话内容,增强现实应用程序可以提供手语播报功能;

S44、定制语音的增强现实呈现,在一些特殊场景下,用户可能需要定制自己的语音,如个性化的语音合成或者家人的语音录音等;

S45、用户交互和反馈。

优选的,所述步骤S5包括如下操作步骤:

S51、收集用户反馈,通过用户使用交流辅助系统时的行为和反馈,包括系统的使用频率、使用时间、使用场景、使用体验、问题和建议等,收集用户的反馈信息;

S52、分析用户反馈,对收集到的用户反馈信息进行分析和统计,分析用户使用交流辅助系统时的痛点和难点,了解用户的需求和期望,发现系统存在的问题和不足;

S53、更新系统功能,根据用户反馈和分析结果,对交流辅助系统进行功能更新和优化,包括改进语音识别算法、增加新的交互方式、优化用户界面等,不断提高系统的性能和用户体验;

S54、测试系统性能,对更新后的交流辅助系统进行测试和评估,包括测试语音识别准确率、测试交互效率和用户满意度等,评估系统性能和改进效果;

S55、发布更新版本,根据测试结果,发布更新后的交流辅助系统版本,让用户可以及时更新并使用新的功能和优化,不断提升系统的性能和用户体验。

优选的,所述数据存储和分析由如下步骤组成:

S61、数据存储;

S62、数据分析,可以通过分析存储的数据来改进系统性能;

S63、数据更新,通过分析用户需求和系统性能,可以及时更新系统以满足用户的需求。

一种听障老人辅助交流装置,包括设备主体、显示面板、摄像头、麦克风、播报喇叭、处理器、云端服务器、手势播放栏和字幕提示栏,

所述设备主体的表面设置有用于辅助交流的显示面板,所述设备主体靠近显示面板的上侧中部嵌入安装有摄像头,所述设备主体的下侧边缘分别设置有麦克风和播报喇叭,所述设备主体的内部安装有处理器,所述设备主体与云端服务器通过无线网络连接,所述显示面板的表面分别设置有手势播放栏和字幕提示栏。

与现有技术相比,本发明的有益效果是:该听障老人辅助交流方法及装置,将采集到的多维媒体信息进行预处理操作,在处理后将多维媒体信息融合建模,从而实现对多模态特征进行提取、融合、联合建模,在完成模型评估后进行文本转化,通过增强现实呈现的方式进行应用程序设计,通过文字提示、手语播报、定制语音等方式提高用户的交互体验和辅助效果,在对交流反馈与更新后进行性能提升,最后通过多维数据的及时优化,进而辅助提高听障老人的交流效率。

附图说明

图1为本发明方法流程示意图;

图2为本发明采集多维媒体信息及预处理示意图;

图3为本发明多维媒体信息融合建模示意图;

图4为本发明文本转化示意图;

图5为本发明增强现实呈现示意图;

图6为本发明交流反馈与更新示意图;

图7为本发明数据存储和分析示意图;

图8为本发明装置整体结构示意图。

图中:1、设备主体;2、显示面板;3、摄像头;4、麦克风;5、播报喇叭;6、处理器;7、云端服务器;8、手势播放栏;9、字幕提示栏。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-图7,本发明提供一种技术方案:一种听障老人辅助交流方法,包括以下步骤:

S1、采集多维媒体信息及预处理,请参阅图2,其具体流程为:

步骤S11、采集对话人的语音、面部图像和视频等多维媒体信息,以及相关的环境噪声数据;

步骤S12、信息预处理,在预处理过程中包括声音信息预处理、图像信息预处理、视频信息预处理以及数据对齐和同步;

具体流程操作为:

步骤S1201、声音信息预处理,将采集到的声音数据进行降噪、语音分段、声音增强等处理;处理后的声音数据,信噪比(SNR,信号功率与噪声功率之比)不小于15dB。语音信号会被分成若干个长度为20~30毫秒的语音段,并且每个语音段之间有一定的重叠部分,以充分利用语音信号的时间连续性。声音增强程度适中,语音信号清晰可辨,同时不影响语音识别的准确率。

步骤S1202、图像信息预处理,对采集到的图像数据进行人脸检测、面部定位、图像增强等处理;采用现有的人脸检测算法(如HaarCascade、YOLO等)对图像数据进行人脸检测,定位出图像中的人脸区域;采用面部定位算法(如关键点检测、特征点匹配等)将人脸图像分割出关键部位,如眼睛、嘴巴等;采用图像增强技术对图像数据进行增强,提高图像质量,如对比度增强、锐化等。经预处理后的图像数据为:

1.多幅人脸子图像,这些子图像中的人脸部分通常会被裁剪并调整为固定大小和方向。

2.人脸子图像中关键部位(如眼睛、嘴巴等)的标记点数据。

3.图像增强处理,提高图像对比度,并适度锐化。

步骤S1203、视频信息预处理,对采集到的视频数据进行视频稳定、人脸跟踪、动作识别等处理;采用视频稳定技术对视频数据进行稳定处理,消除视频抖动的影响;采用人脸跟踪技术对视频中的人脸进行跟踪,以保证人脸在视频中的连续性;采用动作识别技术对视频中的人体动作进行识别,以提取出有用的特征信息。通过视频预处理,是为了提高视频质量,最终进行视频图像截取,并对图像进行处理和特征提取,处理后的视频信息不用存储。

步骤S1204、数据对齐和同步,针对声音和视频数据的采样率不同,需要通过插值或降采样等方法进行时间对齐,由于时间对齐采用现有技术,插值方法是将原始采样数据点之间的值计算出来,并在这些点之间生成新的数据点,这种方法可以增加采样率,从而使数据具有更高的时间分辨率。常用的插值方法包括线性插值、立方插值和样条插值等。

降采样方法是将原始数据的采样率降低到一个更低的水平,以减少数据量并使其与另一个信号的采样率相匹配。常用的降采样方法包括平均池化、最大池化和子采样等。

时间对齐后的数据具有相同的时间分辨率,对于音频、视频数据,通常需要将它们与图像进行时间对齐,以确保它们在时间轴上处于相同的位置,这样做可以更容易地将不同的数据源组合在一起,并获得更准确的结果。

根据上述时间对齐技术,延迟校正的目的也是进行时间对齐。由于不同传感器的时间延迟可能存在误差,需要进行时间延迟校正。以面部和唇部特征识别为例,通过比对视频中面部和唇部信息和声音数据中的声音特征点的时间,计算时间延迟值,并进行校正。

S2、多维媒体信息融合建模,请参阅图3,具体流程操作为:

步骤S21、多模态特征提取,提取过程涵盖声音特征提取、视觉特征提取以及自适应特征提取组成;声音特征提取是使用声学特征提取算法,如Mel频率倒谱系数(MFCC)等,将声音信号转化为特征向量;

视觉特征提取是使用计算机视觉算法提取面部定位特征和唇部视觉特征。面部定位可以使用人脸检测算法,如HaarCascades和MTCNN等。唇部视觉特征可以使用唇读技术,提取唇部形态信息,视觉特征提取采用现有技术,其数据来源为预处理后的视频和图像数据;

自适应特征提取是根据特定任务需求,选择合适的特征提取方法,并进行适当调整和优化,以获得更好的效果。比如,针对复杂噪声环境下的语音识别任务,可以使用对抗性训练技术,让模型对噪声环境具有一定的鲁棒性。

步骤S22、多模态特征融合,将从不同模态中提取出的特征融合在一起,形成一个多模态特征向量,融合过程包括如下步骤:

步骤S2201、特征归一化,从不同模态中提取的特征具有不同的数值范围和分布,需要将它们归一化为统一的数值范围;一般可以使用z-score归一化或min-max归一化等方法。

步骤S2202、特征选择,从多个模态中提取的特征可能存在冗余和噪声,需要进行特征选择以减少特征的维度;一般可以使用相关系数分析、方差分析等方法进行特征选择。

步骤S2203、特征融合,在特征选择之后,将选取的特征进行融合;特征融合可以使用多种融合方法,如:

拼接融合:将来自不同模态的特征按照一定的顺序拼接成一个更长的特征向量;

叠加融合:将来自不同模态的特征逐层叠加在一起,形成一个更深的特征表示;

加权求和融合:将来自不同模态的特征按照一定的权重进行加权求和,得到一个加权平均后的特征向量。

步骤S2204、特征降维,经过特征选择和融合之后,可能会得到很高维度的特征向量,需要进行特征降维;常用的降维方法有主成分分析、线性判别分析等。

步骤S23、多模态特征联合建模,将多个模态的特征进行联合建模,以获得更加准确和鲁棒的结果,多模态特征联合建模的操作步骤如下:

步骤S2301、多模态特征联合建模,将不同模态的特征进行联合建模,可以使用深度神经网络等机器学习方法进行建模,其中,可以采用端到端的深度学习算法,通过反向传播算法学习网络参数,以最小化预测结果与真实结果之间的差距;

可以采用基于循环神经网络(RecurrentNeuralNetwork,RNN)的语音识别模型,将不同模态提取的特征输入到RNN中进行联合建模。

步骤S2302、模型训练与优化,在联合建模之后,需要对联合模型进行训练和优化;

可以采用常用的反向传播算法,使用交叉熵损失函数等方法进行训练和优化。

步骤S24、模型评估和优化,在具体实施时,模型评估和优化是保证模型性能的重要步骤,其具体操作如下:

第一步:数据集划分,将已标注的数据集划分为训练集、验证集和测试集。训练集用于模型的训练,验证集用于模型的调参和选择最佳模型,测试集用于模型的最终评估;

第二步:指标选择,根据任务的特点,选择合适的评估指标。例如,对于语音识别任务,常用的指标包括词错误率(WER)、字符错误率(CER)等;对于人脸识别任务,常用的指标包括准确率、召回率、F1值等;

第三步:模型训练,根据数据集划分和选择的评估指标,训练模型并记录训练过程中的损失和指标。在训练过程中,可以采用一些技巧来优化模型性能,例如学习率调度、正则化等;

第四步:模型调参,在验证集上调整模型的超参数,包括学习率、正则化系数、网络层数、卷积核大小等。可以使用网格搜索、随机搜索等方法来搜索最佳超参数;

第五步:模型评估,使用测试集对最终模型进行评估,计算选择的评估指标并记录实验结果;

第六步:模型优化,根据模型评估结果,优化模型性能。可以采用一些优化策略,例如集成学习、数据增强等来提高模型的泛化能力和性能;

S3、文本转化,文本转化在具体操作时,请参阅图4,其操作流程为:

步骤S31、语音识别结果的纠错与断句,将语音识别的结果文本序列作为输入,通过预训练的语言模型,将每一个词语编码成一个向量表示,然后将这些向量输入到CRF或LSTM模型中进行纠错和断句任务预训练的语言模型由BERT、GPT、ERNIE等;在进行纠错任务时,模型对每个词语的向量进行处理,从而识别出其中的错误词语,并将其替换为正确的词语;在进行断句任务时,模型对每个词语的向量进行处理,识别出句子分隔符,并将文本序列分割为多个句子。

步骤S32、主题提取,语音识别结果可能包含大量的信息,对其进行主题提取,提取出文本中最重要的内容,为后续多种呈现方式提供素材。这个过程可采用基于文本聚类或者主题模型的方法,通过分析文本中的词汇、词频、共现关系等信息来提取主题。

S4、增强现实呈现,请参阅图5,其操作流程为:

步骤S41、设计增强现实应用程序,根据用户的需要,设计增强现实应用程序,包括界面设计、功能设计等;应用程序可以基于现有的增强现实平台,如ARKit、ARCore等,也可以自行开发。

步骤S42、文本提示的增强现实呈现,在增强现实应用程序中,根据语音识别的文本信息,将文字提示以增强现实的方式呈现在用户视野范围内;可以使用ARKit、ARCore等增强现实平台提供的文本显示功能,或自行设计文本显示算法。

步骤S43、手语播报的增强现实呈现,为了帮助听力障碍者更好地理解对话内容,增强现实应用程序可以提供手语播报功能;通过深度学习等技术,识别对话内容并将其转化为手语动作序列,在增强现实环境中将手语动作呈现给用户。可以使用ARKit、ARCore等增强现实平台提供的手语播报功能,或自行设计手语动作识别和呈现算法。

步骤S44、定制语音的增强现实呈现,在一些特殊场景下,用户可能需要定制自己的语音,如个性化的语音合成或者家人的语音录音等,增强现实应用程序可以将这些定制的语音以增强现实的方式呈现给用户。

例如,将语音波形或者语音频谱以图像的形式显示在用户视野范围内;可以使用ARKit、ARCore等增强现实平台提供的图像显示功能,或自行设计语音信号处理和图像呈现算法。

步骤S45、用户交互和反馈,增强现实应用程序可以提供交互和反馈功能;例如用户可以通过手势、语音指令等方式与增强现实应用程序进行交互,控制文字提示、手语播报、定制语音等呈现方式。

同时,增强现实应用程序还可以提供反馈功能;例如根据用户的交从互行为,调整文字提示、手语播报、定制语音等呈现方式,以提高用户的交互体验和辅助效果。

S5、交流反馈与更新,请参阅图6,其操作流程为:

步骤S51、收集用户反馈,通过用户使用交流辅助系统时的行为和反馈,包括系统的使用频率、使用时间、使用场景、使用体验、问题和建议等,收集用户的反馈信息;

步骤S52、分析用户反馈,对收集到的用户反馈信息进行分析和统计,分析用户使用交流辅助系统时的痛点和难点,了解用户的需求和期望,发现系统存在的问题和不足;

步骤S53、更新系统功能,根据用户反馈和分析结果,对交流辅助系统进行功能更新和优化,包括改进语音识别算法、增加新的交互方式、优化用户界面等,不断提高系统的性能和用户体验;

步骤S54、测试系统性能,对更新后的交流辅助系统进行测试和评估,包括测试语音识别准确率、测试交互效率和用户满意度等,评估系统性能和改进效果;

步骤S55、发布更新版本,根据测试结果,发布更新后的交流辅助系统版本,让用户可以及时更新并使用新的功能和优化,不断提升系统的性能和用户体验;

通过以上实施方式,可以不断收集用户反馈、优化系统功能,提高交流辅助系统的性能和用户体验。

S6、数据存储和分析,在数据存储和分析时,通过如下操作步骤进行实施,请参阅图7:

步骤S61、数据存储;需要存储的数据包括语音信号、图像、视频、文本和其他相关信息,可以将这些数据存储在云端服务器或本地存储设备中,以便后续的分析和处理。

步骤S62、数据分析,可以通过分析存储的数据来改进系统性能;

以下是一些可能的分析方法:

第一种、用户行为分析,通过分析用户在系统中的行为,可以了解用户的需求和偏好。

例如,可以分析用户使用的功能、访问的页面和点击的按钮等信息,以了解用户的兴趣和使用习惯。

第二种、系统性能分析,通过分析系统运行时的数据,可以评估系统性能并发现潜在的问题。

例如,可以分析语音识别准确率、多模态特征提取的效果和增强现实呈现的质量等信息,以评估系统的整体性能。

第三种、用户反馈分析,用户的反馈对于改进系统至关重要。

例如,可以分析用户反馈的内容和情感,以了解用户的满意度和需求,从而及时进行改进和优化。

步骤S63、数据更新,通过分析用户需求和系统性能,可以及时更新系统以满足用户的需求。

例如,可以通过增加新的功能、改进算法和优化界面等方式来改进系统;同时,也需要对数据进行更新,以保证系统的准确性和可靠性。

一种听障老人辅助交流装置,包括设备主体1、显示面板2、摄像头3、麦克风4、播报喇叭5、处理器6、云端服务器7、手势播放栏8和字幕提示栏9,所述设备主体1的表面设置有用于辅助交流的显示面板2,所述设备主体1靠近显示面板2的上侧中部嵌入安装有摄像头3,所述设备主体1的下侧边缘分别设置有麦克风4和播报喇叭5,所述设备主体1的内部安装有处理器6,所述设备主体1与云端服务器7通过无线网络连接,所述显示面板2的表面分别设置有手势播放栏8和字幕提示栏9。

具体实施时,请参阅图8,在设备主体1进行手持使用时,将融合辨识与呈现组件融入到设备主体1内,其具体操作为:

首先,在设备主体1的内部还设置多维媒体信息获取模块,且多维媒体信息获取模块分别与摄像头3、麦克风4连接,使得听障老人辅助交流装置通过多维媒体信息获取模块可以用于获取声音、图像和视频等多维媒体信息;

然后,在设备主体1的内部还设置声源定位和分离模块,使得声源定位和分离模块用于对声音信息进行声源定位和声源分离,从而保证听障老人辅助交流装置可以提取说话人的声音信息;

其次,在设备主体1的内部还设置面部定位和唇部跟踪模块,使得对图像和视频信息进行面部定位和唇部跟踪,从而保证该听障老人辅助交流装置可以提取面部和唇部的视觉特征;

随后,在设备主体1的内部还设置联合建模和语音识别模块,使联合建模和语音识别模块与处理器6连接,从而使处理器6对声音信息和视觉特征进行联合建模,并利用深度学习算法进行语音识别,进而保证该装置可以得到识别结果;

之后,在设备主体1的内部还设置自然语言处理和文本转换模块,用于利用自然语言处理技术,在处理时,通过处理器6的配合可以完成高效的运算处理,从而将该听障老人辅助交流装置的识别结果转换为更加简明易懂的文本或手语信息,通过显示面板2上的手势播放栏8进行通过手语播报配合语音的指令方式来增强交互效果,并且在显示面板2上设置的字幕提示栏9可以将语音转化为文字提示,从而用于提高用户的交互体验和辅助效果;

同时,在设备主体1的内部还设置音视频融合和增强现实呈现模块,用于将转换后的文本或手语信息与原始的视频信息进行融合,生成音视频增强现实呈现方式,同时提供定制语音播报等方式,为听障老人提供多种沟通选择,通过设备主体1的播报喇叭5可以将音视频进行播报;

最后,在设备主体1的内部还设置反馈和更新模块,用于根据用户的反馈和环境的变化,对模型和算法进行动态更新和优化,以提高交流效果和用户体验,通过将设备主体1与云端服务器7完成无线网络连接,从而可以将更新数据以及语音信号、图像、视频、文本和其他相关信息进行存储。

本说明中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号