首页> 中国专利> 一种基于AI的呼叫中心语言处理方法及系统

一种基于AI的呼叫中心语言处理方法及系统

摘要

本发明公开了一种基于AI的呼叫中心语言处理方法及系统,方法包括以下步骤:获取用户语句,转换为初始文本;将初始文本转换为初始语音;通过AI识别初始文本以及初始语音的含义并得出回复文本;将回复文本转换为回复语音后输出,等待下一次用户语句的获取;如回复语音输出后,新的用户语句触发预警条件,则根据预案处理。本发明利用AI技术对初始文本以及初始语音进行处理,相比固定语句的传统问答方式,灵活性更高,可以适应不同的场景。另外将初始文本转换为初始语音可以扩充数据,两者相互验证,提高识别的准确度,防止明显的转换错误。

著录项

  • 公开/公告号CN112667798A

    专利类型发明专利

  • 公开/公告日2021-04-16

    原文格式PDF

  • 申请/专利权人 杭州云嘉云计算有限公司;

    申请/专利号CN202110035894.8

  • 发明设计人 朱宇;

    申请日2021-01-12

  • 分类号G06F16/332(20190101);G06F16/33(20190101);G06F40/216(20200101);G06F40/30(20200101);

  • 代理机构33109 杭州杭诚专利事务所有限公司;

  • 代理人尉伟敏

  • 地址 311100 浙江省杭州市余杭区五常街道联创街188号5号楼401室

  • 入库时间 2023-06-19 10:38:35

说明书

技术领域

本发明涉及数据处理领域,特别涉及一种基于AI的呼叫中心语言处理方法及系统。

背景技术

长期以来,人们把呼叫产业视为单纯接电话的劳动密集型服务业,没有作为主要产业来开发。如授权公告号CN108965619B的发明公开了一种呼叫处理方法、呼叫中心、电子设备和存储介质,其中方法包括:接收携带有移动终端号码的呼叫请求,检索是否有对应该移动终端号码的预订单;若检索到预订单,则将呼叫请求转接至与预订单同服务类型的空闲坐席;若未检索到预订单,则根据该移动终端号码所消费的各服务类型订单的消费额,及各服务类型订单的收入额和成本额,计算该移动终端号码的贡献值;根据贡献值与预设值的大小关系,识别呼叫请求是否有预定意向;若有预定意向则向移动终端提供选择坐席组服务,若没有预定意向则向移动终端提供自助语音导航服务。显然现有技术更注重人工参与,对客户的语言本身理解较差。而随着大数据和人工智能时代的到来,呼叫产业正从劳动密集型向智能密集型转化,从低附加值产业向高附加值产业转移。传统客服以往更多作为呼叫外包产业,随着5G、人工智能、大数据分析等技术发展,该产业的服务模式、技术含量和附加值进入更新换代阶段。随着“三网融合”由概念向应用落地,智能语音AI与呼叫中心技术的融合成为当下的重要主题。因此急需一种更智能化的呼叫中心,能够在大多数情况下与用户无障碍沟通。

发明内容

针对现有技术语言理解能力差,过于依赖人工的问题,本发明提供了一种基于AI的呼叫中心语言处理方法及系统,通过融合人工智能技术,调整原本呼叫中心系统的运行方式,使得与用户的交互更加顺畅。

以下是本发明的技术方案。

一种基于AI的呼叫中心语言处理方法,包括以下步骤:获取用户语句,转换为初始文本;将初始文本转换为初始语音;通过AI识别初始文本以及初始语音的含义并得出回复文本;将回复文本转换为回复语音后输出,等待下一次用户语句的获取;如回复语音输出后,新的用户语句触发预警条件,则根据预案处理。

本发明利用AI技术对初始文本以及初始语音进行处理,相比固定语句的传统问答方式,灵活性更高,可以适应不同的场景。另外将初始文本转换为初始语音可以扩充数据,两者相互验证,提高识别的准确度,防止明显的转换错误。

作为优选,AI识别过程包括:将初始文本以及初始语音与预置的相应领域知识库中的词汇进行语义相似度计算,将得到对应的语义相似度值设置为置信度,以置信度最高的结果作为所需的含义。

作为优选,所述回复文本的得出过程包括:根据含义从相应领域知识库中寻找用于回复的对应关键词,将对应关键词根据预设的语言规则组织为回复文本。

作为优选,还包括地域口音识别步骤,所述地域口音识别步骤在得到初始文本以及初始语音后进行,步骤包括:根据将用户语句与初始语音进行对比,得到发音的差别结果,根据差别结果,在预置的地域口音库中进行匹配,以匹配度最高的地域作为预期地域,将预期地域的口音特征作为扩充条件加入初始文本的转换过程中。由于各地区方言和说话习惯均不同,即使说普通话仍然会存在口音,如翘舌、平舌、鼻音和个别声韵发音混淆等问题,虽然现有技术从语句转换为初始文本时会有修正,但口音会严重影响语句识别的准确度和速度,因此这里利用修正后的初始文本转换成的初始语音,将标准发音的初始语音与对应的用户语句进行比较,记录下差别部分,从库中得到预期的地域,从而将该地域的口音特征导入,大幅提高识别速度和效果。例如将所有n开头发音和l开头发音的字库合并,不论采集到两个种哪一种均从该范围内查找。

作为优选,初始文本的转换过程包括:筛选出用户语句中符合预期地域的口音特征的语音,根据预期地域的口音特征得到口音字词,再根据普通话特征得到的验证字词和其余语句的转换字词,对比口音字词和镜像字词的可靠系数,如口音字词的可靠系数高则保留扩充条件,否则沿用普通话特征,其中可靠系数为口音字词或镜像字词与其余语句的转换字词的匹配程度。由于地域的识别可能存在错误,因此更改后的初始本文转换过程本身包含验证步骤,仅经过验证起效后才沿用,否则弃用。

作为优选,所述触发条件包括:出现常用情绪化语句、出现连续的常用疑问语句或用户语句中末尾的声调出现连续的异常。由于AI回答可能会出错导致用户无法理解,或被情绪化,因此检测到上述异常时需要及时采取补救措施,包括转人工等方式。

一种基于AI的呼叫中心语言处理系统,用于上述方法,包括:

ASR模块:获取用户语句,转换为初始文本;

TTS模块:连接ASR模块,将初始文本转换为初始语音;

NLP模块:连接ASR模块盒TTS模块,通过AI识别初始文本以及初始语音的含义并得出回复文本;

预警模块:获取用户语句,判断用户语句是否触发预警条件,如触发则调用预案。

其中ASR为自动语音识别技术,ASR技术是一种将人的语音转换为文本的技术;TTS为文语转换技术,隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的人声口语输出的技术;NLP是自然语言处理技术,属于人工智能的分支学科,研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动。

作为优选,所述NLP模块执行的任务包括:将初始文本以及初始语音与预置的相应领域知识库中的词汇进行语义相似度计算,将得到对应的语义相似度值设置为置信度,以置信度最高的结果作为所需的含义;根据含义从相应领域知识库中寻找用于回复的对应关键词,将对应关键词根据预设的语言规则组织为回复文本。

作为优选,还包括用于比较用户语句与初始语音的地域口音识别模块,执行以下步骤:根据将用户语句与初始语音进行对比,得到发音的差别结果,根据差别结果,在预置的地域口音库中进行匹配,以匹配度最高的地域作为预期地域,将预期地域的口音特征作为扩充条件加入初始文本的转换过程中;变更后的转换过程包括:筛选出用户语句中符合预期地域的口音特征的语音,根据预期地域的口音特征得到口音字词,再根据普通话特征得到的验证字词和其余语句的转换字词,对比口音字词和镜像字词的可靠系数,如口音字词的可靠系数高则保留扩充条件,否则沿用普通话特征,其中可靠系数为口音字词或镜像字词与其余语句的转换字词的匹配程度。

作为优选,预警模块的触发条件包括:出现常用情绪化语句、出现连续的常用疑问语句或用户语句中末尾的声调出现连续的异常。

本发明的实质性效果包括:利用人工智能驱动的NLP技术,大大提高系统处理复杂问题的能力,提高人机交互。由于增加了NLP模块,使系统具备了对于音频和文本理解的能力。降低了整个系统内部的耦合性,增强了系统整体的稳定性,同时对于对话系统的修改,需要更改NLP内部语言处理逻辑即可,降低了系统的更新维护成本。

具体实施方式

下面将结合实施例,对本申请的技术方案进行描述。另外,为了更好的说明本发明,在下文中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未做详细描述,以便于凸显本发明的主旨。

实施例:

一种基于AI的呼叫中心语言处理方法,包括以下步骤:获取用户语句,转换为初始文本;将初始文本转换为初始语音;通过AI识别初始文本以及初始语音的含义并得出回复文本;将回复文本转换为回复语音后输出,等待下一次用户语句的获取;如回复语音输出后,新的用户语句触发预警条件,则根据预案处理。

本实施例利用AI技术对初始文本以及初始语音进行处理,相比固定语句的传统问答方式,灵活性更高,可以适应不同的场景。另外将初始文本转换为初始语音可以扩充数据,两者相互验证,提高识别的准确度,防止明显的转换错误。

其中AI识别过程包括:将初始文本以及初始语音与预置的相应领域知识库中的词汇进行语义相似度计算,将得到对应的语义相似度值设置为置信度,以置信度最高的结果作为所需的含义。

回复文本的得出过程包括:根据含义从相应领域知识库中寻找用于回复的对应关键词,将对应关键词根据预设的语言规则组织为回复文本。

本实施例还包括地域口音识别步骤,地域口音识别步骤在得到初始文本以及初始语音后进行,步骤包括:根据将用户语句与初始语音进行对比,得到发音的差别结果,根据差别结果,在预置的地域口音库中进行匹配,以匹配度最高的地域作为预期地域,将预期地域的口音特征作为扩充条件加入初始文本的转换过程中。由于各地区方言和说话习惯均不同,即使说普通话仍然会存在口音,如翘舌、平舌、鼻音和个别声韵发音混淆等问题,虽然现有技术从语句转换为初始文本时会有修正,但口音会严重影响语句识别的准确度和速度,因此这里利用修正后的初始文本转换成的初始语音,将标准发音的初始语音与对应的用户语句进行比较,记录下差别部分,从库中得到预期的地域,从而将该地域的口音特征导入,大幅提高识别速度和效果。例如将所有n开头发音和l开头发音的字库合并,不论采集到两个种哪一种均从该范围内查找。

初始文本的转换过程包括:筛选出用户语句中符合预期地域的口音特征的语音,根据预期地域的口音特征得到口音字词,再根据普通话特征得到的验证字词和其余语句的转换字词,对比口音字词和镜像字词的可靠系数,如口音字词的可靠系数高则保留扩充条件,否则沿用普通话特征,其中可靠系数为口音字词或镜像字词与其余语句的转换字词的匹配程度。由于地域的识别可能存在错误,因此更改后的初始本文转换过程本身包含验证步骤,仅经过验证起效后才沿用,否则弃用。

本实施例中预警过程的触发条件包括:出现常用情绪化语句、出现连续的常用疑问语句或用户语句中末尾的声调出现连续的异常。由于AI回答可能会出错导致用户无法理解,或被情绪化,因此检测到上述异常时需要及时采取补救措施,包括转人工等方式。

本实施例还包括一种基于AI的呼叫中心语言处理系统,用于上述方法,包括:

ASR模块:获取用户语句,转换为初始文本;

TTS模块:连接ASR模块,将初始文本转换为初始语音;

NLP模块:连接ASR模块盒TTS模块,通过AI识别初始文本以及初始语音的含义并得出回复文本;

预警模块:获取用户语句,判断用户语句是否触发预警条件,如触发则调用预案。

其中ASR为自动语音识别技术,ASR技术是一种将人的语音转换为文本的技术;TTS为文语转换技术,隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的人声口语输出的技术;NLP是自然语言处理技术,属于人工智能的分支学科,研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动。

NLP模块执行的任务包括:将初始文本以及初始语音与预置的相应领域知识库中的词汇进行语义相似度计算,将得到对应的语义相似度值设置为置信度,以置信度最高的结果作为所需的含义;根据含义从相应领域知识库中寻找用于回复的对应关键词,将对应关键词根据预设的语言规则组织为回复文本。

本实施例还包括用于比较用户语句与初始语音的地域口音识别模块,执行以下步骤:根据将用户语句与初始语音进行对比,得到发音的差别结果,根据差别结果,在预置的地域口音库中进行匹配,以匹配度最高的地域作为预期地域,将预期地域的口音特征作为扩充条件加入初始文本的转换过程中;变更后的转换过程包括:筛选出用户语句中符合预期地域的口音特征的语音,根据预期地域的口音特征得到口音字词,再根据普通话特征得到的验证字词和其余语句的转换字词,对比口音字词和镜像字词的可靠系数,如口音字词的可靠系数高则保留扩充条件,否则沿用普通话特征,其中可靠系数为口音字词或镜像字词与其余语句的转换字词的匹配程度。

预警模块的触发条件包括:出现常用情绪化语句、出现连续的常用疑问语句或用户语句中末尾的声调出现连续的异常。

本实施例的实质性效果包括:利用人工智能驱动的NLP技术,大大提高系统处理复杂问题的能力,提高人机交互。由于增加了NLP模块,使系统具备了对于音频和文本理解的能力。降低了整个系统内部的耦合性,增强了系统整体的稳定性,同时对于对话系统的修改,需要更改NLP内部语言处理逻辑即可,降低了系统的更新维护成本。

通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中可以根据需要而将上述功能分配由不同的功能模块完成,即将具体装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

另外,在本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号