首页> 中国专利> 一种句法树结构的汉语文本生成方法

一种句法树结构的汉语文本生成方法

摘要

本发明公开了一种句法树结构的汉语文本生成方法,包括:1、创建树形频度记录表,将语料库中的单字顺序作为表第一层;2、统计树形统计表每层中元素之间的相邻情况的频度,以统计频度为参考,将元素合并,并加入下一层;3、创建一个空的二叉树结构,根据频度记录表对二叉树中的空结点进行扩展操作;4、通过扩展操作让生成二叉树不再存在空结点,将根节点的取值作为文本生成结果。本发明能以特殊的网络结构减少模型拟合的时间和空间成本,并通过较低的算力消耗、较少的语料库规模,以及若干关键词来完成长篇自然语言的生成。

著录项

  • 公开/公告号CN116629206A

    专利类型发明专利

  • 公开/公告日2023-08-22

    原文格式PDF

  • 申请/专利权人 合肥工业大学;

    申请/专利号CN202310767145.3

  • 发明设计人 钱晓临;王晓华;

    申请日2023-06-27

  • 分类号G06F40/14(2020.01);G06F40/211(2020.01);G06F40/253(2020.01);G06F16/31(2019.01);

  • 代理机构安徽省合肥新安专利代理有限责任公司 34101;安徽省合肥新安专利代理有限责任公司 34101;

  • 代理人陆丽莉;何梅生

  • 地址 230009 安徽省合肥市包河区屯溪路193号

  • 入库时间 2024-01-17 01:23:59

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-08

    实质审查的生效 IPC(主分类):G06F40/14 专利申请号:2023107671453 申请日:20230627

    实质审查的生效

  • 2023-08-22

    公开

    发明专利申请公布

说明书

技术领域

本发明属于自然语言处理领域,具体的说是一种句法树结构的汉语文本生成方法。

背景技术

伴随着互联网技术和电子技术的发展,智能文本生成的技术在教育领域、新闻领域逐渐得到应用,现有技术通常采用大规模语言模型来完成文本生成,对算力要求大,仅能在线提供服务,有较高的使用成本。这极大限制了智能写作在日常生活中的应用发展。

发明内容

本发明是为了解决上述现有技术存在的不足之处,提出一种句法树结构的汉语文本生成方法,以期能以特殊的网络结构减少模型拟合的时间和空间成本,以较低的算力消耗、较少的语料库规模,以及若干关键词来完成长篇自然语言的生成。

本发明为达到上述发明目的,采用如下技术方案:

本发明一种句法树结构的汉语文本生成方法的特点在于,是按如下步骤进行:

步骤1、获取大量短文本作为语料库,并对语料库中的每个短文本进行数据清洗后,将所有短文本中的汉字单字按语序顺序排列成一行汉字序列,记为C=(c

定义变量p,并初始化p=0;

定义第p个记录表

步骤2、创建滑动窗口K,令所述滑动窗口K的长度为1;

创建树形频度记录表S=(S

创建索引表S',用于记录加入记录表S的结点的父节点,并初始化S'为空;

步骤3、将滑动窗口K置于第p个记录表W

初始化i=1;

步骤4、判断滑动窗口K所包含

若不存在,则将

若存在,则利用式(1)更新

式(1)中,当p=0时,

步骤5、若i=k

步骤6、令滑动窗口K的长度为2,并将p+1赋值给p;

将滑动窗口K置于第p-1个记录表W

初始化i=1;

步骤7、判断滑动窗口K所包含

若不存在,则将第i项和第i+1项的组合项

若存在,则利用式(1)更新

步骤8、若i=k

步骤9、在第p层S

步骤10、添加

步骤11、设定搜索函数Fs,并用于在索引表S'上搜索

若所搜索的映射关系不存在于S'中,则搜索函数Fs返回0;否则,返回映射关系,即

步骤12、对于第p-1个记录表

步骤13、若

步骤14、判断

步骤15;将i+1赋值给i后,若i=k

步骤16、返回步骤6顺序执行,直到k

步骤17、生成文本:

指定一个汉语关键词序列E=(E

初始化u=1;

步骤18、创建一个空的二叉树T;创建空结点T

步骤19、计算第v个结点T

步骤19.1、创建第v个结点T

步骤19.2、利用式(2)计算第v个结点T

R(T

式(2)中,len表示字符长度函数,C表示长度惩罚函数,且

步骤19.3、令L为T

M1.令T

M2.令T

M3.当L

若L=n,则第v个结点T

M4.当L

若L=n,则记R4

M5.当L

若L=n,则第v个结点T

M6.当L

若L=n,则第v个结点T

M7.当L

若L=n,则第v个结点T

M8.令T

步骤19.4计算第v个结点T

若Rank

若Rank

若Rank

若Rank

若Rank

若Rank

若Rank

若Rank

步骤19.5将M3,M4,M5,M6,M7中创建的若干新空结点,分别作为第v'个结点T

步骤20、将二叉树T的根节点T

本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述汉语文本生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述汉语文本生成方法的步骤。

与现有技术相比,本发明的有益效果在于:

1、本发明采用基于二叉树的多层频度记录表结构,对汉语独特的语法结构进行抽象表达,取代了通常采用的将文本内容视为一维序列处理的方式,从而使得文本的整体逻辑能更快地被捕获,实现了以更小的时间、空间开销达成对汉语语法的收敛,进而降低了训练汉语语言生成模型的时间和空间成本。

2、本发明提出了式(1)所示的频度矫正方法,通过为文本频次添加一个与全文本相关的附加项。与直接统计频次相比,该矫正方法规避了实际语料库数据中频度过大、频度过小导致的网络稀疏、结点死亡的问题。

3、本发明采用自上而下的多级生成方式,通过预设的多种扩展方式来达成在每一语法层次上的最优连接。这一设计让文本的生成过程能够充分体现各层次的逻辑关系、赋予了该方法生成长文本的能力。与现有技术采用大规模语言模型的生成方式相比,该方法在保留了大部分关键逻辑关系的基础上,降低了生成文本计算的复杂度。

附图说明

图1为本发明生成结构扩展方法演示图。

具体实施方式

本实施例中,一种句法树结构的汉语文本生成方法是按如下步骤进行:

步骤1、获取大量短文本作为语料库,优先选择新闻标题数据集、古诗词数据集、聊天短句等格式趋同的语料内容,并对语料库中的每个短文本进行数据清洗后,将所有短文本中的汉字单字按语序顺序排列成一行汉字序列,记为C=(c

定义变量p,并初始化p=0;

定义第p个记录表

步骤2、创建滑动窗口K,令所述滑动窗口K的长度为1;

创建树形频度记录表S=(S

创建索引表S',用于记录加入记录表S的结点的父节点,并初始化S'为空;

步骤3、将滑动窗口K置于第p个记录表W

初始化i=1;

步骤4、判断滑动窗口K所包含

若不存在,则将

若存在,则利用式(1)更新

式(1)中,当p=0时,

步骤5、若i=k

步骤6、令滑动窗口K的长度为2,并将p+1赋值给p;

将滑动窗口K置于第p-1个记录表W

初始化i=1;

步骤7、判断滑动窗口K所包含

若不存在,则将第i项和第i+1项的组合项

若存在,则利用式(1)更新

步骤8、若i=k

步骤9、在第p层S

步骤10、添加

步骤11、设定搜索函数Fs,并用于在索引表S'上搜索

若所搜索的映射关系不存在于S'中,则搜索函数Fs返回0;否则,返回映射关系,即

步骤12、对于第p-1个记录表

步骤13、若

步骤14、判断

步骤15;将i+1赋值给i后,若i=k

步骤16、返回步骤6顺序执行,直到k

步骤17、生成文本:

指定一个汉语关键词序列E=(E

初始化u=1;

步骤18、创建一个空的二叉树T;创建空结点T

步骤19、计算第v个结点T

步骤19.1、创建第v个结点T

步骤19.2、利用式(2)计算第v个结点T

R(T

式(2)中,len表示字符长度函数,C表示长度惩罚函数,且

步骤19.3、令L为T

M1.令T

M2.令T

M3.当L

若L=n,则第v个结点T

M4.当L

若L=n,则记R4

M5.当L

若L=n,则第v个结点T

M6.当L

若L=n,则第v个结点T

M7.当L

若L=n,则第v个结点T

M8.令T

步骤19.4计算第v个结点T

若Rank

若Rank

若Rank

若Rank

若Rank

若Rank

若Rank

若Rank

步骤19.5将M3,M4,M5,M6,M7中创建的若干新空结点,分别作为第v'个结点T

步骤20、将二叉树T的根节点T

步骤21、若需继续生成文本,则返回步骤17顺序执行。否则,结束流程。

本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述方法的程序,该处理器被配置为用于执行该存储器中存储的程序。

本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号