首页> 中国专利> 基于自然语言处理的林业生态环境人机交互方法

基于自然语言处理的林业生态环境人机交互方法

摘要

本发明涉及一种基于自然语言处理的林业生态环境人机交互方法,属于神经网络领域。该方法采用知识图的方法对林业生态环境中的自然语言的实体进行推理,使知识推理转化为通过构建深度神经网络处理自然语言问句的问题,从而找到对应关系,表示学习下的知识图深度学习推理,得到相应的结论。本发明在深度学习中引入知识图的概念,在构建知识图的基础上,将浅层语义理解结果注入知识图,通过相应的知识推理获得较为深层的语义理解。该发明解决林业生态环境中语音、文本信息交互问题,使多模态交互设备实现林区导航、局部天气咨询、生态保护宣传、景点推送等互动功能,改善用户体验效果。

著录项

  • 公开/公告号CN108009285A

    专利类型发明专利

  • 公开/公告日2018-05-08

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN201711408324.9

  • 申请日2017-12-22

  • 分类号G06F17/30(20060101);G06N3/04(20060101);

  • 代理机构11275 北京同恒源知识产权代理有限公司;

  • 代理人赵荣之

  • 地址 400065 重庆市南岸区黄桷垭崇文路2号

  • 入库时间 2023-06-19 05:16:05

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-26

    授权

    授权

  • 2018-06-01

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20171222

    实质审查的生效

  • 2018-05-08

    公开

    公开

说明书

技术领域

本发明属于神经网络领域,涉及基于自然语言处理的林业生态环境人机交互方法。

背景技术

作为智能化时代的关键技术,以深度学习为核心的人工智能技术日益成为新一轮产业革 命的引擎,正深刻影响着国际产业竞争格局和国家的国际竞争力。在人工智能的分支领域中, 自然语言处理(Natural Language Processing,NLP)是其中的一门代表性领域,目的就是使计 算机正确处理人类语言,并据此做出人们期待的各种正确响应。人机交互设备是一类结构复 杂、集成度高、技术密集的基础装备,引领高新技术的发展,处于价值链高端和产业链的关 键环节。经历数十年的发展,人机交互以越来越自然的方式呈现在人们面前。近年来,取得 显著进展的人工智能技术与新兴的虚拟现实技术,深刻变革着人机交互领域,多模态、跨媒 体、现实增强的发展趋势正在取代传统图形界面的互动方式。

发明内容

有鉴于此,本发明的目的在于提供一种基于自然语言处理的林业生态环境人机交互方法, 在深度学习中引入知识图的概念,在构建知识图的基础上,将浅层语义理解结果注入知识图, 通过相应的知识推理获得较为深层的语义理解。该发明解决林业生态环境中语音、文本信息 交互问题,使多模态交互设备实现林区导航、局部天气咨询、生态保护宣传、景点推送等互 动功能,改善用户体验效果。

为达到上述目的,本发明提供如下技术方案:

基于自然语言处理的林业生态环境人机交互方法,包括以下步骤:

S1:将输入的林业生态环境中的自然语言文本划分为词或短语;

S2:利用word2vec将词表征为向量,得到矩阵作为输入;

S3:词向量融合,将获取的量化描述融合成新的词向量;

S4:构建面向林业生态环境中的自然语言深度学习模型;

S5:基于半监督学习的林业生态环境的自然语言学习模型优化;

S6:表征学习下的三维张量知识图构建;

S7:表征学习下的林业生态系统中的自然语言知识图深度学习推理。

进一步,所述步骤S1具体为:通过HanLP与Stanford parser中的CRF句法分析器与最 大熵依存句法分析器将文本划分为词或短语,并获取词性、词序、关键词和依存关系量化描 述。

进一步,所述步骤S2具体为:利用Word2vec(Word To Vector)神经网络语言模型对词 向量进行训练,将词汇转换成向量形式,从而把对文本的处理转化为向量空间中的向量运算, 方便地完成各种NLP任务。

进一步,所述步骤S3具体为:根据不同自然语言处理任务的需要,词向量融合方式采取 拼接、加权或者哈希计算;词向量融合效果由随后进行的无监督学习下稀疏表示过程的参数 进行综合评判。

进一步,所述步骤S4具体为:通过选择合适的梯度表示,对学习模型进行交叉验证,检 查学习模型是否存在缺陷。

进一步,所述步骤S5具体为:依据选择的基本表示结构,将稀疏表征下林业生态系统中 的自然语言训练数据全集,提交给构建的深度学习模型进行无监督学习预训练,获得预训练 权值;完成预训练后,对训练数据中的不超过整体20%的部分数据集进行人工知识标注,将 这些数据按照同样的表示结构提交给带有预训练权值的深度学习模型进行有监督训练。

进一步,所述步骤S6具体为:通过定义三元组(h,r,t)生成三维张量来构建语义知识图, 其中,h代表头语义实体,r代表语义关系,t代表尾语义实体;通过张量分解,得到一个核 心张量和一个因子矩阵,核心张量中每个二维矩阵切片代表一种语义关系,因子矩阵中每一 行代表一个语义实体;由核心张量和因子矩阵还原的结果看作对应三元组成立的概率。

进一步,所述步骤S7具体为:利用人工设定的模板对已有的三元组进行扩展,生成自然 语言问句;引入词嵌入概念将获取的知识图训练样本转换为为低维空间向量,使知识推理转 化为通过构建深度神经网络处理自然语言问句的问题,从而找到“问句实体——知识图实体” 的对应关系,以及“问句自然语言描述——知识图语义关系”的对应关系;通过该神经网络模 型的哈希、卷积、最大池化和语义映射运算之后得到答案类型、答案路径、答案周围实体三 种特征向量;将这三种特征向量分别与问句向量做相似度计算,最终的推理得分由三种相似 度求和而得;即S(q,a)=f1(q)Tg1(a)+f2(q)Tg2(a)+f3(q)Tg3(a),其中,f1(q)Tg1(a)表示>2(q)Tg2(a)表示答案路径的相似度,f3(q)Tg3(a)表示答案周围实体的>

本发明的有益效果在于:本发明采用知识图的方法对林业生态环境中的自然语言的实体 进行推理,使知识推理转化为通过构建深度神经网络处理自然语言问句的问题,从而找到“问 句实体--知识图实体”的对应关系,以及“问句自然语言描述——知识图语义关系”的对应 关系,表示学习下的知识图深度学习推理,得到相应的结论,使我们的自然语言理解功能不 仅具备理解字面意思的能力,还具备逻辑推理,理解深层意思的能力。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:

图1为本发明采用半监督卷积神经网络的自然语言处理的林业生态环境人机交互技术构 建的流程图;

图2为本发明深度学习下的林业生态中的自然语言理解模型;

图3为本发明表征学习下的三维张量知识图示意图;

图4为本发明表示学习下的知识图深度学习推理示意图;

图5为本发明知识实体的语义关系映射示意图。

具体实施方式

下面将结合附图,对本发明的优选实施例进行详细的描述。

图1为本发明采用半监督卷积神经网络的自然语言处理的林业生态环境人机交互技术构 建的流程图。以林业生态系统中的自然语言文本为语义知识资源,知识图为语义表示方法。本 文构建一种基于深度神经网络下的自然语言语义知识图,利用构建的知识图对自然语言中的 实体进行描述。下面结合附图给出一个利用半监督卷积神经网络对林业生态系统中的自然语 言语义知识图构建的实施例以对本发明作进一步的阐述。

如图1所示,本发明各部分具体实施细节如下:

1.将输入的林业生态环境中的自然语言文本划分为词或短语。通过HanLP与 Stanford parser中的CRF句法分析器与最大熵依存句法分析器将文本划分为词或短语,并获 取词性、词序、关键词、依存关系等量化描述。

2.利用word2vec将词表征为向量,得到矩阵作为输入。词向量这种方式最主要的优点在 于让有一定关系的词,在数学意义上的距离更近了。要想对词向量进行训练,其中最广泛使 用的方法有神经网络语言模型,word2vec也是基于它进行改进的,本文针对此种模型进行研 宄。Word2vec(Word To Vector),它可以将词汇转换成向量形式,从而把对文本的处理转化 为向量空间中的向量运算,方便地完成各种NLP任务。Word2vec以林业生态系统中的文本 作为输入,首先在训练文本数据集中构建一个词汇表,然后训练出每个单词的词向量作为输 出,产生的词向量文件可以作为特征向量供后续的自然语言处理和机器学习等算法使用。 Word2Vec模型提取文本中词汇的位置关系,提取词汇的上下文信息,生成词汇的向量模型。 词汇可以通过数值向量量化表示,词汇之间的相似度可以由向量计算得到。

3.词向量融合。将获取的量化描述融合成新的词向量。根据不同自然语言处理任务的需 要,词向量融合方式可采取拼接、加权、或者哈希计算。词向量融合效果由随后进行的无监 督学习下稀疏表示过程的参数进行综合评判。

4.构建面向林业生态系统中的自然语言深度学习模型。通过选择合适的梯度表示,对学 习模型进行交叉验证,检查学习模型是否存在缺陷。

5.半监督学习下的林业生态系统中的自然语言深度学习模型优化。依据选择的基本表示 结构,将稀疏表征下林业生态系统中的自然语言训练数据全集(未进行人工知识标注),提交 给构建的深度学习模型进行无监督学习预训练,获得预训练权值。其中,设置深度神经网络 隐藏层偏置为0,输出层的偏置为假定权值ω=0时的最优值。权值设置为ω∈(-r,r), 这里的fanin为前一层网络节点数,fanout为后一层网络节点数。>

6.表征学习下的三维张量知识图构建。通过定义三元组(h,r,t)生成三维张量来构建语义 知识图(如图3所示),其中,h代表头语义实体,r代表语义关系,t代表尾语义实体。通 过张量分解,得到一个核心张量和一个因子矩阵,核心张量中每个二维矩阵切片代表一种语 义关系,因子矩阵中每一行代表一个语义实体。c由核心张量和因子矩阵还原的结果可看作 对应三元组成立的概率。

7.林业生态系统中的自然语言知识图深度学习推理。利用人工设定的模板对已有的三元 组进行扩展,生成自然语言问句。引入词嵌入概念将获取的知识图训练样本转换为为低维空 间向量,使知识推理转化为通过构建深度神经网络处理自然语言问句的问题,从而找到“问句 实体--知识图实体”的对应关系,以及“问句自然语言描述--知识图语义关系”的对应关系,表 示学习下的知识图深度学习推理如图4所示。通过该神经网络模型的哈希、卷积、最大池化 和语义映射运算之后得到答案类型、答案路径、答案周围实体三种特征向量。将这三种特征 向量分别与问句向量做相似度计算,最终的推理得分由三种相似度求和而得。即, S(q,a)=f1(q)Tg1(a)+f2(q)Tg2(a)+f3(q)Tg3(a)。其中,f1(q)Tg1(a)表示答案类型的相>2(q)Tg2(a)表示答案路径的相似度,f3(q)Tg3(a)表示答案周围实体的相似度。

图2为本发明深度学习下的林业生态中的自然语言理解模型。依据选择的基本表示结构, 将稀疏表征下林业生态中的自然语言训练数据全集(未进行人工知识标注),提交给构建的深 度学习模型进行无监督学习预训练,获得预训练权值。其中,设置深度神经网络隐藏层偏置 为0,输出层的偏置为假定权值ω=0时的最优值。权值设置为ω∈(-r,r), 这里的fanin为前一层网络节点数,fanout为后一层网络节点数。>

图3为本发明表征学习下的三维张量知识图示意图。通过定义三元组(h,r,t)生成三维张 量来构建语义知识图(如图3所示),其中,h代表头语义实体,r代表语义关系,t代表尾语 义实体。通过张量分解,得到一个核心张量和一个因子矩阵,核心张量中每个二维矩阵切片 代表一种语义关系,因子矩阵中每一行代表一个语义实体。由核心张量和因子矩阵还原的结 果可看作对应三元组成立的概率。

图4为本发明表示学习下的知识图深度学习推理示意图。利用人工设定的模板对已有的三 元组进行扩展,生成自然语言问句,以弱监督的方式标定大量的林业生态中的自然语言训练 数据,并采用随机破坏已有“问句--答案”三元组对中元素的方式获取负样本。引入词嵌入概念 将获取的知识图训练样本转换为为低维空间向量,使知识推理转化为通过构建深度神经网络 处理自然语言问句的问题,从而找到“问句实体--知识图实体”的对应关系,以及“问句自然语 言描述--知识图语义关系”的对应关系。对词嵌入学习得到的知识图三元组数值向量采用 Recursivesentence基本表示结构,在稀疏化表示后提交给多列卷积神经网络模型。通过该神 经网络模型的哈希、卷积、最大池化和语义映射运算之后得到答案类型、答案路径、答案周 围实体三种特征向量。将这三种特征向量分别与问句向量做相似度计算,最终的推理得分由 三种相似度求和而得。即,S(q,a)=f1(q)Tg1(a)+f2(q)Tg2(a)+f3(q)Tg3(a)。其中,>1(q)Tg1(a)表示答案类型的相似度,f2(q)Tg2(a)表示答案路径的相似度,f3(q)Tg3(a)表>

图5为本发明知识实体的语义关系映射示意图。通过定义三元组(h,r,t)生成三维张量来 构建语义知识图,其中,h代表头语义实体,r代表语义关系,t代表尾语义实体。假设h和 t经过某种与r相关的映射后所得的向量相似或相等,在定义能量函数fr(h,t)前提下,构建学>

最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述 优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和 细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号