首页> 中国专利> 一种基于正则和文本截断的对话内容分析方法

一种基于正则和文本截断的对话内容分析方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开一种基于正则和文本截断的对话内容分析方法，本方案能够带来以下好处：该方案以作为插件的形式放入工作手机来进行工作，能够做到多机互换通用；通过人工对话，针对语音质检和通话音频分析大部分通过人力重复听来进行对话内容的分析，能够减少人工成本，避免不必要的重复劳动；通过人机对话，避免纯人工的对话造成误判等问题，减少对话内容分析来说可能造成误差；通过人机对话，提高对话效率，解决了人工对话内容分析无法较快的反馈系统从而介入到对话，避免对对话进行干涉；在对话内容分析的交互体验、对话分析速度和准确度上进行大大提高。

著录项

公开/公告号CN113065328A

专利类型发明专利
公开/公告日2021-07-02

原文格式PDF
申请/专利权人浙江百应科技有限公司;
展开▼

申请/专利号CN202110366084.0
发明设计人董金杰;
展开▼

申请日2021-04-06
分类号G06F40/205(20200101);G06F40/35(20200101);G10L15/26(20060101);
代理机构33370 杭州浙言专利代理事务所(普通合伙);
代理人易朝晖
地址 311121 浙江省杭州市余杭区仓前街道梦想小镇天使村11幢101
入库时间 2023-06-19 11:42:32

说明书

技术领域

本发明属于软件领域，涉及一种基于正则和文本截断的对话内容分析方法。

背景技术

目前，针对语音质检和通话音频分析大部分通过人力重复听来进行对话内容的分析，对于人力消耗上成本较高，而且对质检员来说，重复的劳动没有很好的实现个人价值，也容易造成身心的疲惫。

纯人工的对话内容分析可能偏主观，容易造成误判等，对于对话内容分析来说可能造成误差。

人工对话内容分析无法较快的反馈系统从而介入到对话，对对话进行干涉。

综上，现有方案在对话内容分析的交互体验、对话分析速度和准确度上仍有待提高。

发明内容

鉴于现有技术中所存在的问题，本发明采用的技术方案是一种基于正则和文本截断的对话内容分析方法，其特征在于：以作为插件形式放入工作手机，通过语音质检方式将对话内容进行分析，包含以下步骤：

步骤一，通过界面或者接口创建由正则编写的包含多条正则规则的对话分析规则；

步骤二，将输入的对话音频文件或者音频流转换为对话文本内容；

步骤三，获取对话分析规则中的正则规则，按顺序采用第一组正则规则对对话文本进行遍历，如果第一组正则规则命中对话语句，则将对话语句的下一句至对话结束的对话文本通过文本截断的方式截取出来，并记录这一组正则规则命中，如果第一组正则规则未命中对话语句，则将遍历的所有对话文本截取出来，记录这一组正则规则未命中；

步骤四，下一组正则规则以步骤三的方式将步骤三中截取出来的对话文本进行遍历，以此类推，直到所有正则规则完成遍历。

作为本发明的一种优选方案，所述对话音频文件或者音频流通过asr转换为对话文本内容。

作为本发明的一种优选方案，所述的界面为展示对话的交互界面或前端界面。

作为本发明的一种优选方案，所述对话的音频流或者音频文件经过格式转换后，同步或异步进行对话内容分析，并通过接口同步返回或者接口推送异步返回记录。

本发明的有益效果：本方案能够带来以下好处：

1.该方案以作为插件的形式放入工作手机来进行工作，能够做到多机互换通用；

2.通过人工对话，针对语音质检和通话音频分析大部分通过人力重复听来进行对话内容的分析，能够减少人工成本，避免不必要的重复劳动；

3.通过人机对话，避免纯人工的对话造成误判等问题，减少对话内容分析来说可能造成误差；

4.通过人机对话，提高对话效率，解决了人工对话内容分析无法较快的反馈系统从而介入到对话，避免对对话进行干涉；

5.在对话内容分析的交互体验、对话分析速度和准确度上进行大大提高。

附图说明

图1为本实用的流程图。

具体实施方式

如图1所示，本发明公开了一种基于正则和文本截断的对话内容分析方法，采用的技术方案是，一种基于正则和文本截断的对话内容分析方法，其特征在于：以作为插件形式放入工作手机，通过语音质检方式将对话内容进行分析，包含以下步骤：

步骤一，通过界面或者接口创建由正则编写的包含多条正则规则的对话分析规则，所述的界面为展示对话的交互界面或前端界面；

步骤二，将输入的对话音频文件或者音频流转换为对话文本内容，所述对话音频文件或者音频流通过asr转换为对话文本内容，所述对话的音频流或者音频文件经过格式转换后，同步或异步进行对话内容分析，并通过接口同步返回或者接口推送异步返回记录；

步骤三，获取对话分析规则中的正则规则，所述正则规则为不同的选择性法规的规则列表，按顺序采用第一组正则规则对对话文本进行遍历，确认是否存在句子命中正则规则中的第一条规则，如果第一组正则规则命中对话语句，则将对话语句的下一句至对话结束的对话文本通过文本截断的方式截取出来，并记录这一组正则规则命中，直至命中语句或者非命中语句到末尾的文本，如果第一组正则规则未命中对话语句，则将遍历的所有对话文本截取出来，记录这一组正则规则未命中；

步骤四，下一组正则规则以步骤三的方式将步骤三中截取出来的对话文本进行遍历，以此类推，直到所有正则规则完成遍历，完成后对所有结果进行统计分析，之后输出。

现有对话双方A和B的以下一段对话：

A：你好。

B：你好，我是xxx。

A:你好，我这边是xx的客服，xxx。

A：xxxx。

B:不需要。

A:您可以再考虑下。

这样一段对话文本，一组正则规则为

A:*.客服。

B:你好。

当A的正则命中后，需要把上文的[A:你好，我这边是xx的客服，xxx]这一句的后一句到文本结尾截取出来，否则B:你好，这个正则从头开始遍历也能在B的第一句话命中，这样对话顺序就不是正则规则需要的顺序了

然后非命中语句说话人指的是上文中[A:你好，我这边是xx的客服，xxx]这一句命中了，A为命中语句的说话人B为非命中语句的说话人，这里从B的不需要开始截取而不是从A的[A:你好，我这边是xx的客服，xxx]这里截取是因为示例正则中下一次判断对象为B的说话内容，所以不需要对A的其他语句再做遍历）。

本文中未详细说明的部件为现有技术。

上述虽然对本发明的具体实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化，而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于正则和文本截断的对话内容分析方法 [P] . 中国专利： CN113065328A . 2021-07-02
2. 一种基于文本和图片内容的用户评论分析方法 [P] . 中国专利： CN110287403A . 2019-09-27
3. (54) Title: A CONTENT BASED APPROACH TO EXTENDING THE FORM AND FUNCTION OF A BUSINESS INTELLI¬GENCE SYSTEM (57) Abstract: A business intelligence (BI) system includes the ability to extend its functionality outside of the project life cycle by means of specific content. Complex multidimensional queries are interpreted as trees of atomic sub-expressions that are com¬bined in a parse-tree-like structure to form the overall query. Each sub tree is valid in isolation when provided with the proper context. Any sub tree can be an expression template, stored as application content, which at generation time uses simple text sub¬stitution with instance specific parameters to produce multidimensional expression syntax. The system includes a sophisticated type system and semantic layer that hides the user from the complexities inherent in working with OLAP databases. A business in¬telligence expert can provide type and semantic cues for each expression template, held as content. [P] . IN2012CN02100A . 2012-11-02

机译：（54）标题：一种扩展商务智能系统的形式和功能的基于内容的方法（57）摘要：商务智能（BI）系统具有通过以下方式将其功能扩展到项目生命周期之外的能力：具体内容。复杂的多维查询被解释为原子子表达式的树，这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板，该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层，使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
4. LANGUAGE-TO-TEXT CONVERSATION BASED ON THIRD-PARTY CONTENTS [P] . EP3926625A4 . 2021-12-22

机译：基于第三方内容的语言到文本对话
5. FAKEOUT© Software System - An electronic apostille-based real time content authentication technique for text, audio and video transmissions [P] . 美国专利： US2019273618A1 . 2019-09-05

机译： FAKEOUT©软件系统-一种基于电子教皇的实时内容认证技术，用于文本，音频和视频传输