首页> 中国专利> 一种句法树结构的汉语文本生成方法

一种句法树结构的汉语文本生成方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种句法树结构的汉语文本生成方法，包括：1、创建树形频度记录表，将语料库中的单字顺序作为表第一层；2、统计树形统计表每层中元素之间的相邻情况的频度，以统计频度为参考，将元素合并，并加入下一层；3、创建一个空的二叉树结构，根据频度记录表对二叉树中的空结点进行扩展操作；4、通过扩展操作让生成二叉树不再存在空结点，将根节点的取值作为文本生成结果。本发明能以特殊的网络结构减少模型拟合的时间和空间成本，并通过较低的算力消耗、较少的语料库规模，以及若干关键词来完成长篇自然语言的生成。

著录项

公开/公告号CN116629206A

专利类型发明专利
公开/公告日2023-08-22

原文格式PDF
申请/专利权人合肥工业大学;
展开▼

申请/专利号CN202310767145.3
发明设计人钱晓临;王晓华;
展开▼

申请日2023-06-27
分类号G06F40/14(2020.01);G06F40/211(2020.01);G06F40/253(2020.01);G06F16/31(2019.01);
代理机构安徽省合肥新安专利代理有限责任公司 34101;安徽省合肥新安专利代理有限责任公司 34101;
代理人陆丽莉;何梅生
地址 230009 安徽省合肥市包河区屯溪路193号
入库时间 2024-01-17 01:23:59

法律信息

法律状态公告日

法律状态信息

法律状态
2023-09-08

实质审查的生效 IPC(主分类):G06F40/14 专利申请号:2023107671453 申请日:20230627

实质审查的生效
2023-08-22

公开

发明专利申请公布

说明书

技术领域

本发明属于自然语言处理领域，具体的说是一种句法树结构的汉语文本生成方法。

背景技术

伴随着互联网技术和电子技术的发展，智能文本生成的技术在教育领域、新闻领域逐渐得到应用，现有技术通常采用大规模语言模型来完成文本生成，对算力要求大，仅能在线提供服务，有较高的使用成本。这极大限制了智能写作在日常生活中的应用发展。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种句法树结构的汉语文本生成方法，以期能以特殊的网络结构减少模型拟合的时间和空间成本，以较低的算力消耗、较少的语料库规模，以及若干关键词来完成长篇自然语言的生成。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种句法树结构的汉语文本生成方法的特点在于，是按如下步骤进行：

步骤1、获取大量短文本作为语料库，并对语料库中的每个短文本进行数据清洗后，将所有短文本中的汉字单字按语序顺序排列成一行汉字序列，记为C＝(c

定义变量p，并初始化p＝0；

定义第p个记录表

步骤2、创建滑动窗口K，令所述滑动窗口K的长度为1；

创建树形频度记录表S＝(S

创建索引表S'，用于记录加入记录表S的结点的父节点，并初始化S'为空；

步骤3、将滑动窗口K置于第p个记录表W

初始化i＝1；

步骤4、判断滑动窗口K所包含

若不存在，则将

若存在，则利用式(1)更新

式(1)中，当p＝0时，

步骤5、若i＝k

步骤6、令滑动窗口K的长度为2，并将p+1赋值给p；

将滑动窗口K置于第p-1个记录表W

初始化i＝1；

步骤7、判断滑动窗口K所包含

若不存在，则将第i项和第i+1项的组合项

若存在，则利用式(1)更新

步骤8、若i＝k

步骤9、在第p层S

步骤10、添加

步骤11、设定搜索函数Fs，并用于在索引表S'上搜索

若所搜索的映射关系不存在于S'中，则搜索函数Fs返回0；否则，返回映射关系，即

步骤12、对于第p-1个记录表

步骤13、若

步骤14、判断

步骤15；将i+1赋值给i后，若i＝k

步骤16、返回步骤6顺序执行，直到k

步骤17、生成文本：

指定一个汉语关键词序列E＝(E

初始化u＝1；

步骤18、创建一个空的二叉树T；创建空结点T

步骤19、计算第v个结点T

步骤19.1、创建第v个结点T

步骤19.2、利用式(2)计算第v个结点T

R(T

式(2)中，len表示字符长度函数，C表示长度惩罚函数，且

步骤19.3、令L为T

M1.令T

M2.令T

M3.当L

若L＝n，则第v个结点T

M4.当L

若L＝n，则记R4

M5.当L

若L＝n，则第v个结点T

M6.当L

若L＝n，则第v个结点T

M7.当L

若L＝n，则第v个结点T

M8.令T

步骤19.4计算第v个结点T

若Rank

步骤19.5将M3,M4,M5,M6,M7中创建的若干新空结点，分别作为第v'个结点T

步骤20、将二叉树T的根节点T

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述汉语文本生成方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述汉语文本生成方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明采用基于二叉树的多层频度记录表结构，对汉语独特的语法结构进行抽象表达，取代了通常采用的将文本内容视为一维序列处理的方式，从而使得文本的整体逻辑能更快地被捕获，实现了以更小的时间、空间开销达成对汉语语法的收敛，进而降低了训练汉语语言生成模型的时间和空间成本。

2、本发明提出了式(1)所示的频度矫正方法，通过为文本频次添加一个与全文本相关的附加项。与直接统计频次相比，该矫正方法规避了实际语料库数据中频度过大、频度过小导致的网络稀疏、结点死亡的问题。

3、本发明采用自上而下的多级生成方式，通过预设的多种扩展方式来达成在每一语法层次上的最优连接。这一设计让文本的生成过程能够充分体现各层次的逻辑关系、赋予了该方法生成长文本的能力。与现有技术采用大规模语言模型的生成方式相比，该方法在保留了大部分关键逻辑关系的基础上，降低了生成文本计算的复杂度。

附图说明

图1为本发明生成结构扩展方法演示图。

具体实施方式

本实施例中，一种句法树结构的汉语文本生成方法是按如下步骤进行：

步骤1、获取大量短文本作为语料库，优先选择新闻标题数据集、古诗词数据集、聊天短句等格式趋同的语料内容，并对语料库中的每个短文本进行数据清洗后，将所有短文本中的汉字单字按语序顺序排列成一行汉字序列，记为C＝(c

定义变量p，并初始化p＝0；

定义第p个记录表

步骤2、创建滑动窗口K，令所述滑动窗口K的长度为1；

创建树形频度记录表S＝(S

创建索引表S'，用于记录加入记录表S的结点的父节点，并初始化S'为空；

步骤3、将滑动窗口K置于第p个记录表W

初始化i＝1；

步骤4、判断滑动窗口K所包含

若不存在，则将

若存在，则利用式(1)更新

式(1)中，当p＝0时，

步骤5、若i＝k

步骤6、令滑动窗口K的长度为2，并将p+1赋值给p；

将滑动窗口K置于第p-1个记录表W

初始化i＝1；

步骤7、判断滑动窗口K所包含

若不存在，则将第i项和第i+1项的组合项

若存在，则利用式(1)更新

步骤8、若i＝k

步骤9、在第p层S

步骤10、添加

步骤11、设定搜索函数Fs，并用于在索引表S'上搜索

若所搜索的映射关系不存在于S'中，则搜索函数Fs返回0；否则，返回映射关系，即

步骤12、对于第p-1个记录表

步骤13、若

步骤14、判断

步骤15；将i+1赋值给i后，若i＝k

步骤16、返回步骤6顺序执行，直到k

步骤17、生成文本：

指定一个汉语关键词序列E＝(E

初始化u＝1；

步骤18、创建一个空的二叉树T；创建空结点T

步骤19、计算第v个结点T

步骤19.1、创建第v个结点T

步骤19.2、利用式(2)计算第v个结点T

R(T

式(2)中，len表示字符长度函数，C表示长度惩罚函数，且

步骤19.3、令L为T

M1.令T

M2.令T

M3.当L

若L＝n，则第v个结点T

M4.当L

若L＝n，则记R4

M5.当L

若L＝n，则第v个结点T

M6.当L

若L＝n，则第v个结点T

M7.当L

若L＝n，则第v个结点T

M8.令T

步骤19.4计算第v个结点T

若Rank

步骤19.5将M3,M4,M5,M6,M7中创建的若干新空结点，分别作为第v'个结点T

步骤20、将二叉树T的根节点T

步骤21、若需继续生成文本，则返回步骤17顺序执行。否则，结束流程。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种最小生成树统计融合的汉语依存句法分析方法 [P] . 中国专利： CN107391488A . 2017-11-24
2. 一种使用句法信息的受控文本生成方法 [P] . 中国专利： CN115600581A . 2023-01-13
3. Data processing system operating method, involves executing semantic and syntactic analysis and rewriting text/corpus having expression segments in natural language, and performing semantic and syntactic categorization of segments [P] . 法国专利： FR2865296A1 . 2005-07-22

机译：数据处理系统的操作方法，涉及执行语义和句法分析并重写具有自然语言中的表达段的文本/语料库，并对段进行语义和句法分类
4. TEXT PRODUCING SYSTEM USING SYNTACTIC PATTERN [P] . 日本专利： JPS5955527A . 1984-03-30

机译：使用句法模式的文本生成系统
5. A communication apparatus having an transducer with an interface and a text generation means which uses short message service (SMS) text messaging as its input and/or output [P] . NZ519636A . 2005-02-25

机译：一种通信设备，其具有带有接口的转换器和文本生成装置，该文本生成装置使用短消息服务（SMS）文本消息作为其输入和/或输出