公开/公告号CN116629206A
专利类型发明专利
公开/公告日2023-08-22
原文格式PDF
申请/专利权人 合肥工业大学;
申请/专利号CN202310767145.3
申请日2023-06-27
分类号G06F40/14(2020.01);G06F40/211(2020.01);G06F40/253(2020.01);G06F16/31(2019.01);
代理机构安徽省合肥新安专利代理有限责任公司 34101;安徽省合肥新安专利代理有限责任公司 34101;
代理人陆丽莉;何梅生
地址 230009 安徽省合肥市包河区屯溪路193号
入库时间 2024-01-17 01:23:59
法律状态公告日
法律状态信息
法律状态
2023-09-08
实质审查的生效 IPC(主分类):G06F40/14 专利申请号:2023107671453 申请日:20230627
实质审查的生效
2023-08-22
公开
发明专利申请公布
技术领域
本发明属于自然语言处理领域,具体的说是一种句法树结构的汉语文本生成方法。
背景技术
伴随着互联网技术和电子技术的发展,智能文本生成的技术在教育领域、新闻领域逐渐得到应用,现有技术通常采用大规模语言模型来完成文本生成,对算力要求大,仅能在线提供服务,有较高的使用成本。这极大限制了智能写作在日常生活中的应用发展。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种句法树结构的汉语文本生成方法,以期能以特殊的网络结构减少模型拟合的时间和空间成本,以较低的算力消耗、较少的语料库规模,以及若干关键词来完成长篇自然语言的生成。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种句法树结构的汉语文本生成方法的特点在于,是按如下步骤进行:
步骤1、获取大量短文本作为语料库,并对语料库中的每个短文本进行数据清洗后,将所有短文本中的汉字单字按语序顺序排列成一行汉字序列,记为C=(c
定义变量p,并初始化p=0;
定义第p个记录表
步骤2、创建滑动窗口K,令所述滑动窗口K的长度为1;
创建树形频度记录表S=(S
创建索引表S',用于记录加入记录表S的结点的父节点,并初始化S'为空;
步骤3、将滑动窗口K置于第p个记录表W
初始化i=1;
步骤4、判断滑动窗口K所包含
若不存在,则将
若存在,则利用式(1)更新
式(1)中,当p=0时,
步骤5、若i=k
步骤6、令滑动窗口K的长度为2,并将p+1赋值给p;
将滑动窗口K置于第p-1个记录表W
初始化i=1;
步骤7、判断滑动窗口K所包含
若不存在,则将第i项和第i+1项的组合项
若存在,则利用式(1)更新
步骤8、若i=k
步骤9、在第p层S
步骤10、添加
步骤11、设定搜索函数Fs,并用于在索引表S'上搜索
若所搜索的映射关系不存在于S'中,则搜索函数Fs返回0;否则,返回映射关系,即
步骤12、对于第p-1个记录表
步骤13、若
步骤14、判断
步骤15;将i+1赋值给i后,若i=k
步骤16、返回步骤6顺序执行,直到k
步骤17、生成文本:
指定一个汉语关键词序列E=(E
初始化u=1;
步骤18、创建一个空的二叉树T;创建空结点T
步骤19、计算第v个结点T
步骤19.1、创建第v个结点T
步骤19.2、利用式(2)计算第v个结点T
R(T
式(2)中,len表示字符长度函数,C表示长度惩罚函数,且
步骤19.3、令L为T
M1.令T
M2.令T
M3.当L 若L=n,则第v个结点T M4.当L 若L=n,则记R4 M5.当L 若L=n,则第v个结点T M6.当L 若L=n,则第v个结点T M7.当L 若L=n,则第v个结点T M8.令T 步骤19.4计算第v个结点T 若Rank 若Rank 若Rank 若Rank 若Rank 若Rank 若Rank 若Rank 步骤19.5将M3,M4,M5,M6,M7中创建的若干新空结点,分别作为第v'个结点T 步骤20、将二叉树T的根节点T 本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述汉语文本生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。 本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述汉语文本生成方法的步骤。 与现有技术相比,本发明的有益效果在于: 1、本发明采用基于二叉树的多层频度记录表结构,对汉语独特的语法结构进行抽象表达,取代了通常采用的将文本内容视为一维序列处理的方式,从而使得文本的整体逻辑能更快地被捕获,实现了以更小的时间、空间开销达成对汉语语法的收敛,进而降低了训练汉语语言生成模型的时间和空间成本。 2、本发明提出了式(1)所示的频度矫正方法,通过为文本频次添加一个与全文本相关的附加项。与直接统计频次相比,该矫正方法规避了实际语料库数据中频度过大、频度过小导致的网络稀疏、结点死亡的问题。 3、本发明采用自上而下的多级生成方式,通过预设的多种扩展方式来达成在每一语法层次上的最优连接。这一设计让文本的生成过程能够充分体现各层次的逻辑关系、赋予了该方法生成长文本的能力。与现有技术采用大规模语言模型的生成方式相比,该方法在保留了大部分关键逻辑关系的基础上,降低了生成文本计算的复杂度。 附图说明 图1为本发明生成结构扩展方法演示图。 具体实施方式 本实施例中,一种句法树结构的汉语文本生成方法是按如下步骤进行: 步骤1、获取大量短文本作为语料库,优先选择新闻标题数据集、古诗词数据集、聊天短句等格式趋同的语料内容,并对语料库中的每个短文本进行数据清洗后,将所有短文本中的汉字单字按语序顺序排列成一行汉字序列,记为C=(c 定义变量p,并初始化p=0; 定义第p个记录表 步骤2、创建滑动窗口K,令所述滑动窗口K的长度为1; 创建树形频度记录表S=(S 创建索引表S',用于记录加入记录表S的结点的父节点,并初始化S'为空; 步骤3、将滑动窗口K置于第p个记录表W 初始化i=1; 步骤4、判断滑动窗口K所包含 若不存在,则将 若存在,则利用式(1)更新 式(1)中,当p=0时, 步骤5、若i=k 步骤6、令滑动窗口K的长度为2,并将p+1赋值给p; 将滑动窗口K置于第p-1个记录表W 初始化i=1; 步骤7、判断滑动窗口K所包含 若不存在,则将第i项和第i+1项的组合项 若存在,则利用式(1)更新 步骤8、若i=k 步骤9、在第p层S 步骤10、添加 步骤11、设定搜索函数Fs,并用于在索引表S'上搜索 若所搜索的映射关系不存在于S'中,则搜索函数Fs返回0;否则,返回映射关系,即 步骤12、对于第p-1个记录表 步骤13、若 步骤14、判断 步骤15;将i+1赋值给i后,若i=k 步骤16、返回步骤6顺序执行,直到k 步骤17、生成文本: 指定一个汉语关键词序列E=(E 初始化u=1; 步骤18、创建一个空的二叉树T;创建空结点T 步骤19、计算第v个结点T 步骤19.1、创建第v个结点T 步骤19.2、利用式(2)计算第v个结点T R(T 式(2)中,len表示字符长度函数,C表示长度惩罚函数,且 步骤19.3、令L为T M1.令T M2.令T M3.当L 若L=n,则第v个结点T M4.当L 若L=n,则记R4 M5.当L 若L=n,则第v个结点T M6.当L 若L=n,则第v个结点T M7.当L 若L=n,则第v个结点T M8.令T 步骤19.4计算第v个结点T 若Rank 若Rank 若Rank 若Rank 若Rank 若Rank 若Rank 若Rank 步骤19.5将M3,M4,M5,M6,M7中创建的若干新空结点,分别作为第v'个结点T 步骤20、将二叉树T的根节点T 步骤21、若需继续生成文本,则返回步骤17顺序执行。否则,结束流程。 本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述方法的程序,该处理器被配置为用于执行该存储器中存储的程序。 本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
机译: 数据处理系统的操作方法,涉及执行语义和句法分析并重写具有自然语言中的表达段的文本/语料库,并对段进行语义和句法分类
机译: 使用句法模式的文本生成系统
机译: 一种通信设备,其具有带有接口的转换器和文本生成装置,该文本生成装置使用短消息服务(SMS)文本消息作为其输入和/或输出