公开/公告号CN112699663A
专利类型发明专利
公开/公告日2021-04-23
原文格式PDF
申请/专利权人 中通天鸿(北京)通信科技股份有限公司;
申请/专利号CN202110019975.9
发明设计人 娄鑫;
申请日2021-01-07
分类号G06F40/211(20200101);G06F40/289(20200101);G06F40/30(20200101);G06F40/247(20200101);G06F40/284(20200101);G06F16/33(20190101);G06F16/332(20190101);
代理机构11577 北京知呱呱知识产权代理有限公司;
代理人康震
地址 101199 北京市通州区新华北街75号1630号
入库时间 2023-06-19 10:43:23
技术领域
本发明涉及语义理解技术领域,具体涉及一种基于多种算法结合的语义理解系统。
背景技术
由于中文句子的复杂程度,导致机器很难理解其中的含义,任何一种算法都无法很好的对句子进行识别和理解,但是可以结合多种不同的算法同时进行识别和理解,多种算法结合的语义理解技术主要应用于人机对话场景下的语义理解意图识别场景,结合多种算法的方式能够更好的理解句子的语义,提高理解的精度。提取其中的得分高的算法进行使用,从而能够更好的接近句子的语义。
发明内容
为此,本发明提供一种基于多种算法结合的语义理解系统,以解决现有人机对话语义理解精度低的问题。
为了实现上述目的,本发明提供如下技术方案:
本发明公开了,一种基于多种算法结合的语义理解系统,所述系统包括:语义文法算法模块和深度学习算法模块,先对句子和回答进行分词处理,分词后将近义词、相似词、相同语义的词分别跟句子中分完词后的词语进行关联,存储到数据库中,用于后面的语义文法匹配,利用bert模型进行训练,将训练后的结果存储起来,用于后面的匹配,利用语义文法算法模块和深度学习算法模块计算出对应的相似度分数,将相似度分数最高的结果作为最终匹配结果反馈给客户。
进一步地,所述语义文法算法模块将句子根据配置的词汇表进行分词,所述词汇表记录常用的通用词汇及专业术语。
进一步地,所述语义文法算法模块在词汇表的基础上进行分词,将近义词、相似词、相同语义的词分别跟句子中分完词后的词语进行关联,将常见的问题项目与对应问题的解答FAQ拆分成多个词语组成的一段语义文法录入系统,拆分后的语义文法存储到数据库中,用于匹配。
进一步地,所述语义文法算法模块接收到实际人机对话语句后,将问题语句进行拆分,拆分后的词语与数据库中的词语进行相似度匹配,得出匹配分数。
进一步地,所述深度学习算法模块通过训练,从大量经人工标注的文本数据中学习到文本中潜在的语义规律,生成一个深度学习语义模型。
进一步地,所述深度学习语义模型针对新录入的人机对话的语句文本进行自动意图识别。
进一步地,所述深度学习语义模型在意图识别后,针对识别结果计算相似度匹配分数。
进一步地,所述系统将语义文法算法模块计算的匹配分数与深度学习算法模块计算的匹配分数进行比较,取得相似度分数最高的算法匹配结果为最终输出结果。
本发明具有如下优点:
本发明公开了一种基于多种算法结合的语义理解系统,通过语义文法算法模块计算与深度学习算法模块两种算法进行语义理解匹配,计算两种算法各自匹配相似度得分,取最高得分的算法匹配结果为最终输出语义理解结果。相比于使用单一的算法来说,效果会更加明显,使语义理解更加精准。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种基于多种算法结合的语义理解系统流程图;
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种基于多种算法结合的语义理解系统,所述系统包括:语义文法算法模块和深度学习算法模块,先对句子和回答进行分词处理,分词后将近义词、相似词、相同语义的词分别跟句子中分完词后的词语进行关联,存储到数据库中,用于后面的语义文法匹配,利用bert模型进行训练,将训练后的结果存储起来,用于后面的匹配,利用语义文法算法模块和深度学习算法模块计算出对应的相似度分数,将相似度分数最高的结果作为最终匹配结果反馈给客户。
语义文法算法模块将句子根据配置的词汇表进行分词,所述词汇表记录常用的通用词汇及专业术语;语义文法算法模块在词汇表的基础上进行分词,将近义词、相似词、相同语义的词分别跟句子中分完词后的词语进行关联,将常见的问题项目与对应问题的解答FAQ拆分成多个词语组成的一段语义文法录入系统,拆分后的语义文法存储到数据库中,用于匹配。
将人机对话过程中产生的语句录入语义文法算法模块,语义文法算法模块接收到实际人机对话语句后,将问题语句进行拆分,拆分后的词语与数据库中的词语进行相似度匹配,得出匹配分数。
深度学习算法模块通过训练,从大量经人工标注的文本数据中学习到文本中潜在的语义规律,生成一个深度学习语义模型。利用bert模型进行训练,将训练后的结果存储起来。
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。
深度学习语义模型针对新录入的人机对话的语句文本进行自动意图识别,在意图识别后,匹配相应的语义理解结果,并针对识别结果计算相似度匹配分数。
在语义文法算法模块和深度学习算法模块均计算完相似度匹配分数后,系统将语义文法算法模块计算的匹配分数与深度学习算法模块计算的匹配分数进行比较,取得相似度分数最高的算法匹配结果为最终输出结果。相比于使用单一的算法来说,效果会更加明显,使语义理解更加精准。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
机译: 一种基于语义相似度的电子文档自动迭代聚类的方法,一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: 使用基于示例的语义表示模式的语音理解系统