首页> 中国专利> 一种主播话术语音识别统计方法、装置、设备和存储介质

一种主播话术语音识别统计方法、装置、设备和存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种主播话术语音识别统计方法、装置、设备和存储介质，主播话术语音识别统计方法包括：采集主播的语音信息、互动信息和交易信息；对所述进行语音识别处理，将所述语音信息转化为文字文本；将所述文字文本中的文字与预设字符进行匹配；统计文字文本中预设字符出现的次数；将文字文本中预设字符与互动信息进行关联，获取各预设字符出现时的互动信息、交易信息，并根据各预设字符关联互动信息、交易信息的数量，计算文字文本中的各预设字符的有效分值；将文字文本中预设字符出现的次数及有效分值进行实时展示。有助于主播从而调整自己的直播节奏、技巧，以实现更好的达到供应商要求。

著录项

公开/公告号CN112634906A

专利类型发明专利
公开/公告日2021-04-09

原文格式PDF
申请/专利权人上海明略人工智能(集团)有限公司;
展开▼

申请/专利号CN202110014640.8
发明设计人栗鑫;梁志婷;徐世超;
展开▼

申请日2021-01-06
分类号G10L15/26(20060101);G10L15/08(20060101);H04N21/2187(20110101);H04N21/233(20110101);H04N21/478(20110101);
代理机构37276 济南知来知识产权代理事务所(普通合伙);
代理人崔静
地址 200232 上海市徐汇区龙腾大道2879号3楼3939室
入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明涉及主播话术语音识别统计，具体为一种主播话术语音识别统计方法、装置、设备和存储介质。

背景技术

当前市面上的直播平台中有许多供应商会找目前人气比较高的主播打广告，要求主播推销自己的产品，一般需要在直播中需要要提及不少于多少次商品名称，指定的话术要说多少次，但是供应商人为进行统计无法保证其准确性而且有些主播会在供应商观看时推销商品，供应商离开直播间后便不再推销，安排专门工作人员进行统计则需要支出额外费用，随着语音识别技术的发展，另外，主播在推广时，通常情况下也很难对指定话术出现的次数进行精准统计，经常出现偏差，因此，需要研发一款设备使主播和供应商都知道推销话术提及量是否达到要求。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种主播话术语音识别统计方法、装置、设备和存储介质，解决目前存在的问题。

为达到上述目的，本发明提供的技术方案如下：

根据本发明的一个方面，提供一种主播话术语音识别统计方法，，包括：

采集主播的语音信息、互动信息和交易信息；

对所述进行语音识别处理，将所述语音信息转化为文字文本；

将所述文字文本中的文字与预设字符进行匹配；

统计文字文本中预设字符出现的次数；

将文字文本中预设字符与互动信息进行关联，获取各预设字符出现时的互动信息、交易信息，并根据各预设字符关联互动信息、交易信息的数量，计算文字文本中的各预设字符的有效分值；

将文字文本中预设字符出现的次数及有效分值进行实时展示。

进一步的，所述互动信息包括点赞、留言、关注、送礼物中的一种或几种。

进一步的，将文字文本中预设字符出现的次数及有效分值进行实时展示，包括：

将文字文本中预设字符出现的次数及有效分值进行可视化展示，并将文字文本中预设字符出现的次数及有效分值发送至供应商服务器，以供供应商服务器实时获取主播的语音信息中预设字符出现的次数及有效分值。

进一步的，将文字文本中预设字符与互动信息进行关联，包括：

确定文字文本中出现的预设字符，查找预设字符在语音信息中对应的音频发生时间段;

设定反应间隔时间值，确定关联时间段，以预设字符的音频发生时间段的起始点延迟反应间隔时间值后为关联时间段的起始点，以预设字符的音频发生时间段的结束点延迟反应间隔时间值后为计算时间段的结束点，得出关联时间段，将预设字符与出现在关联时间段内的互动信息和交易信息进行关联。

进一步的，所述延迟反应间隔时间段为0.4-5s。

根据本发明的一个方面，提供一种主播话术语音识别统计系统，包括

采集模块，配置用于采集主播的语音信息、互动信息和交易信息；

文本转化模块，配置用于对所述进行语音识别处理，将所述语音信息转化为文字文本；

匹配模块，配置用于将所述文字文本中的文字与预设字符进行匹配；

统计模块，配置用于统计文字文本中预设字符出现的次数；

关联模块，配置用于将文字文本中预设字符与互动信息进行关联，获取各预设字符出现时的互动信息、交易信息，

计算模块，配置用于根据各预设字符关联互动信息、交易信息的数量，计算文字文本中的各预设字符的有效分值；

展示模块，配置用于将文字文本中预设字符出现的次数及有效分值进行实时展示。

进一步的，关联模块包括：

识别单元，配置用于确定文字文本中出现的预设字符，查找预设字符在语音信息中对应的音频发生时间段;

关联时间段确定单元，配置用于设定反应间隔时间值，确定关联时间段，以预设字符的音频发生时间段的起始点延迟反应间隔时间值后为关联时间段的起始点，以预设字符的音频发生时间段的结束点延迟反应间隔时间值后为关联时间段的结束点，得出关联时间段，

关联单元，配置用于将预设字符与出现在关联时间段内的互动信息和交易信息进行关联。

进一步的，还包括通信模块和存储模块；

所述通信模块，配置用于将信息在采集模块、存储模块、匹配模块、统计模块、关联模块、计算模块、展示模块之间转移；

所述存储模块配置用于存储信息。

进一步的，还包括供应商服务器，所述供应商服务器配置用于与通信模块进行信息交互。

根据本发明的另一个方面，提供了一种设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上任一项所述的方法。

根据本发明的另一个方面，提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明示例的主播话术语音识别统计方法，能够解决市面上现有直播平台统计主播广告话术语句数量，避免统计数量会与主播提及量发生偏差，以及有时只看数量无法反映直播效果，导致主播与供应商双方想法不一致发生争议，不仅可以实时知道自己说的话术是否有效，供应商可以明确得知主播话术提及量及话术效果，有助于主播从而调整自己的直播节奏、技巧，以实现更好的达到供应商要求。

2、本发明示例的主播话术语音识别统计系统，通过采集模块在主播进行直播时对其话术进行采集，并且将采集话术与预设推销话术进行匹配，计算，使主播和供应商都知道推销话术提及量是否达到要求，不仅可以实时知道自己说的话术是否有效，供应商可以明确得知主播话术提及量及话术效果，有助于主播从而调整自己的直播节奏、技巧，以实现更好的达到供应商要求。

3、本发明设备执行如上任一项所述的方法实现对主播话术语音识别统计分析，主播进行直播时对其话术进行采集，并且将采集话术与预设推销话术进行匹配，计算，使主播和供应商都知道推销话术提及量是否达到要求，不仅可以实时知道自己说的话术是否有效，供应商可以明确得知主播话术提及量及话术效果。

4、本发明设备计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法，实现对主播话术语音识别统计分析，主播进行直播时对其话术进行采集，并且将采集话术与预设推销话术进行匹配，计算，使主播和供应商都知道推销话术提及量是否达到要求，不仅可以实时知道自己说的话术是否有效，供应商可以明确得知主播话术提及量及话术效果。

附图说明

图1 为本发明主播话术语音识别统计方法的流程图；

图2为语音信息转化后的语音信号波形图；

图3为语音信号波形图中延迟反应间隔时间段示意图；

图4为本发明的设备的结构框图。

具体实施方式

为了更好的了解本发明的技术方案，下面结合说明书附图和具体实施例对本发明作进一步说明。

实施例1

一种主播话术语音识别统计系统，包括：

采集模块，配置用于采集主播的语音信息、互动信息和交易信息，采集模块包括采集语音信息的录音单元及抓取互动信息和交易信息的爬虫识别单元，录音单眼可以采用录音器。

文本转化模块，配置用于对所述进行语音识别处理，将所述语音信息转化为文字文本，本实施例可以是ASR识别文本；

匹配模块，配置用于将所述文字文本中的文字与预设字符进行匹配，预设字符举例：“**牌沐浴露”、“买2瓶立减50”、“第一瓶49”、“第二瓶不要钱”等。

统计模块，配置用于统计文字文本中预设字符出现的次数，预设字符每出现一次，则统计一次出现次数。

关联模块，配置用于将文字文本中预设字符与互动信息进行关联，获取各预设字符出现时的互动信息、交易信息，具体的，关联模块包括：

识别单元，配置用于确定文字文本中出现的预设字符，查找预设字符在语音信息中对应的音频发生时间段;

关联时间段确定单元，配置用于设定反应间隔时间值，确定关联时间段，以预设字符的音频发生时间段的起始点延迟反应间隔时间值后为关联时间段的起始点，以预设字符的音频发生时间段的结束点延迟反应间隔时间值后为关联时间段的结束点，得出关联时间段；

关联单元，配置用于将预设字符与出现在关联时间段内的互动信息和交易信息进行关联，获取各预设字符出现时的互动信息、交易信息。

计算模块，配置用于根据各预设字符关联互动信息、交易信息的数量，计算文字文本中的各预设字符的有效分值；计算方式分值与其关联的互动信息、交易信息成正比，可以设置数量区间段，不同的数量区间段给予不同分值，也可以将单个互动信息、交易信息分别设置分值为a、b，并为互动信息、交易信息分别设置一定的权重想、y，则该预设字符的分值为xa+yb。

展示模块，配置用于将文字文本中预设字符出现的次数及有效分值进行实时展示。

具体在本实施例中，各模块或单元并不一定全部集中于同一物理设备，如采集模块、展示模块可以内置于直播APP中，其余各模块则配置于其他物理设备中，如服务器、电脑、手机、平板等设备，可以集成至一个单独的APP中。

本实施例提供一种基于上述主播话术语音识别统计系统的统计方法，包括：

步骤1：采集主播的语音信息、互动信息和交易信息，比如，在主播直播时，在直播设备上设置录音器对主播进行实时录音；直播一启动，录音器即开始工作进行录音同时爬虫识别单元也开始抓取互动、交易信息，所述互动信息包括点赞、留言、关注、送礼物中的一种或几种，并且后台服务器也同步开始实时进行语音识别处理。

步骤2：对所述进行语音识别处理，将所述语音信息转化为文字文本：

步骤3：将所述文字文本中的文字与预设字符进行匹配，预设字符举例：“**牌沐浴露”、“买2瓶立减50”、“第一瓶49”、“第二瓶不要钱”等。

步骤4：统计文字文本中预设字符出现的次数，例如，当主播与语音中出现“这款**牌沐浴露，今天晚上买2瓶立减50，相当于第一瓶49，第二瓶不要钱”，其中有出现指定话术“**牌沐浴露”、“买2瓶立减50”、“第一瓶49”、“第二瓶不要钱”，当这些指定话术每出现一次，则统计一次出现次数；并查询直播间中出现指定话术时段内的互动情况和下单情况进行有效分值计算；其中，互动情况包括观众的点赞、留言、关注、送礼物等。

步骤5：将文字文本中预设字符与互动信息进行关联，获取各预设字符出现时的互动信息、交易信息；

将文字文本中预设字符与互动信息进行关联，包括：

步骤5-1：确定文字文本中出现的预设字符，查找预设字符在语音信息中对应的音频发生时间段，根据可选方案，可以根据语音信息的波形图进行识别查找，进行语音识别处理所得到的ASR识别文本与音频是一一对应的关系，得到ASR识别文本后，可以对预设字符段文本反推查找出对应的音频出现在哪个时间段，即可以知道对应的录音发生时间，具体的，如图2所示，如查找到主播文字文本中出现的预设字符 “这款**牌沐浴露，今天晚上买2瓶立减50，相当于第一瓶49，第二瓶不要钱”，则可反推查找出对应的音频出现在A区域、B区域或C区域。

步骤5-2：设定反应间隔时间值，以预设字符的音频发生时间段的起始点延迟反应间隔时间值后为关联时间段的起始点，以预设字符的音频发生时间段的结束点延迟反应间隔时间值后为关联时间段的结束点，得出关联时间段；

步骤5-3：将预设字符与出现在关联时间段内的互动信息和交易信息进行关联，所述延迟反应间隔时间段为0.4-5s，（基于一般正常人的反应时间为0.15-0.25S，加上网络迟延时间，所以预设的延迟反应间隔时间段优选为0.5S左右），举例说明，根据获取的语音信息波形图，若指定话术（即预设字符） “买2瓶立减50”对应波形为图2中的A区域，预设字符“第一瓶49” 对应波形为图2中的B区域、预设字符 “第二瓶不要钱” 对应波形为图2中的C区域；预设反应间隔时间段为0.5S，要确定指定话术“买2瓶立减50”的效率得分，则查询A区域时间段延迟反应间隔时间段（0.5S）后，所对应时间段内的互动情况和下单情况，即图3中的A’区域所对应的时间段。

步骤6：根据各预设字符关联互动信息、交易信息的数量，计算文字文本中的各预设字符的有效分值；计算方式分值与其关联的互动信息、交易信息成正比，可以设置数量区间段，不同的数量区间段给予不同分值，也可以将单个互动信息、交易信息分别设置分值为a、b，并为互动信息、交易信息分别设置一定的权重想、y，则该预设字符的分值为xa+yb。

步骤7：将文字文本中预设字符出现的次数及有效分值进行实时展示，作为一种可选方案，将预设字符出现的次数和有效分值实时展示给主播和供应商服务器处。具体可以是在直播APP内嵌本方案所述功能，则在主播的直播过程中，可以直接实时显示在直播APP界面上；而供应商也有对应的APP，可以实时查看指定话术的次数和对应的有效分值。

能够解决市面上现有直播平台统计主播广告话术语句数量，避免统计数量会与主播提及量发生偏差，以及有时只看数量无法反映直播效果，导致主播与供应商双方想法不一致发生争议，不仅可以实时知道自己说的话术是否有效，供应商可以明确得知主播话术提及量及话术效果，有助于主播从而调整自己的直播节奏、技巧，以实现更好的达到供应商要求。

本实施例的一种设备，所述设备包括：一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行上述任一项所述的方法，主播进行直播时对其话术进行采集，并且将采集话术与预设推销话术进行匹配，计算，使主播和供应商都知道推销话术提及量是否达到要求，不仅可以实时知道自己说的话术是否有效，供应商可以明确得知主播话术提及量及话术效果。

本实施例的一种存储有计算机程序的计算机可读存储介质，其特征是，该程序被处理器执行时实现上述任一项所述的方法，储存有被处理器执行时实现主播话术语音识别统计方法，主播进行直播时对其话术进行采集，并且将采集话术与预设推销话术进行匹配，计算，使主播和供应商都知道推销话术提及量是否达到要求，不仅可以实时知道自己说的话术是否有效，供应商可以明确得知主播话术提及量及话术效果。进一步介绍如下：

计算机系统包括中央处理单元(CPU)101，其可以根据存储在只读存储器(ROM)102中的程序或者从存储部分加载到随机访问存储器(RAM)103中的程序而执行各种适当的动作和处理。在RAM103 中，还存储有系统操作所需的各种程序和数据。CPU 101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

以下部件连接至I/O接口105：包括键盘、鼠标等的输入部分106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分109。通信部分109经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口105。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分108。

特别地，根据本发明的实施例，上文参考流程图1描述的过程可以被实现为计算机软件程序。例如，本发明的实施例1包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)101执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的框图4，图示了按照本发明各种实施例1的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种主播话术语音识别统计系统，包括：采集模块、文本转化模块、匹配模块、统计模块、关联模块、计算模块、展示模块，其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，采集模块还可以被描述为“用于采集主播的语音信息、互动信息和交易信息的采集模块”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的主播话术语音识别统计方法。

例如，所述电子设备可以实现如图1中所示的：步骤S1：采集主播的语音信息、互动信息和交易信息；步骤S2：对所述进行语音识别处理，将所述语音信息转化为文字文本；步骤S3：将所述文字文本中的文字与预设字符进行匹配；步骤4：统计文字文本中预设字符出现的次数；步骤5：将文字文本中预设字符与互动信息进行关联，获取各预设字符出现时的互动信息、交易信息，并根据各预设字符关联互动信息、交易信息的数量，计算文字文本中的各预设字符的有效分值；步骤6：将文字文本中预设字符出现的次数及有效分值进行实时展示。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种主播话术语音识别统计方法、装置、设备和存储介质 [P] . 中国专利： CN112634906A . 2021-04-09
2. 一种话术泛化方法、话术识别方法、装置及电子设备 [P] . 中国专利： CN111062200A . 2020-04-24
3. Speaker feature extraction apparatus and the speaker feature extraction method, speech recognition device, as well as, program recording medium [P] . 日本专利： JP3919475B2 . 2007-05-23

机译：说话者特征提取设备和说话者特征提取方法，语音识别装置以及程序记录介质
4. A device for speaker-independent speech recognition, based on a client - server - system [P] . 德国专利： DE60201939T2 . 2005-03-31

机译：一种基于客户端-服务器-系统的独立于说话者的语音识别设备
5. Speaker-independent model generation apparatus and speech recognition apparatus each equipped with means for splitting state having maximum increase in likelihood [P] . 美国专利： US5839105A . 1998-11-17

机译：独立于说话者的模型生成设备和语音识别设备，每个设备都具有用于分裂状态的装置，该装置具有最大的可能性增加