首页> 中国专利> 基于示例编程的格式丰富文档实体一致性转换方法及框架

基于示例编程的格式丰富文档实体一致性转换方法及框架

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明涉及基于示例编程的格式丰富文档实体一致性转换方法及框架，其针对示例编程在被用于格式丰富的文档时的局限性，通过分析用户操作历史，自动识别操作历史背后的用户意图，并据此为用户提供有效、稳定、高效的下一步操作推荐，以保持格式丰富的文档中实体的一致性。

著录项

公开/公告号CN113139366A

专利类型发明专利
公开/公告日2021-07-20

原文格式PDF
申请/专利权人南京大学;
展开▼

申请/专利号CN202110549527.X
发明设计人许畅;刘疏观;王慧妍;
展开▼

申请日2021-05-20
分类号G06F40/16(20200101);G06F40/295(20200101);G06F40/18(20200101);G06F16/9535(20190101);
代理机构32252 南京钟山专利代理有限公司;
代理人苏良
地址 210093 江苏省南京市鼓楼区汉口路22号
入库时间 2023-06-19 11:54:11

说明书

技术领域

本发明属于信息技术领域，涉及基于示例编程的格式丰富文档实体一致性转换方法及框架。

背景技术

示例编程技术被广泛应用于诸多领域，如电子表格、文件管理、代码转换等，其可根据给定的输入输出示例自动生成程序，从而替代重复的人工操作。

然而，当示例编程技术被用于格式丰富的文档时，经典的示例编程存在局限性：

首先，许多示例编程系统要求用户进入一种特殊的模式来提供示例，这可能会中断用户的正常工作流程，并增加额外的工作负载；

其次，虽然有时由多个实用的示例所组成的规范可以从用户处获取，但这仍然可能会导致歧义，因为在搜索空间内可能有多个满足这些示例的程序。因此，为了更好地合成一个预期的程序，示例编程系统可能仍然需要一定数量的高质量的示例。尽管有些示例编程工作看似只需要特定情况下的少量几个示例，但它们可能局限于某些场景，例如，字符串操作。在这些场景下，搜索空间本身可能并不大，故而只需要几个示例就可以满足要求。然而，对于其他复杂的场景，这些工作的底层学习机制可能需要更多的例子以进行健壮的训练。它们对示例数量要求较高，可能比格式丰富的文档(如Power Point)所能提供的更多。由于格式丰富的文档通常没有足够的示例进行示例编程的程序合成，例如Power Point的一个页面中可能只有几个实体要进行相同的任务，而电子表格中可能有更多(如几十个甚至几百个)单元格要进行相同的计算任务，传统示例编程技术难以适用。

发明内容

本发明的目的是提供一种具有有效性、稳定性和高效性等特点的基于示例编程的格式丰富文档实体一致性转换方法及框架。有效性是指该方法和框架对保持实体一致性的推荐的准确度较高。稳定性是指该方法和框架对于各种因素的不同取值都能保持有效性。高效性是指该方法和框架给出推荐所需时间代价较小，能够满足实时推荐的要求，可部署于运行中的格式丰富的文档辅助实体一致性的保持。

为实现上述目的，本发明采用以下技术方案：

基于示例编程的格式丰富文档实体一致性转换方法，包括如下步骤：

步骤S1、分析用户操作历史，并从为特定格式丰富的文档类型预先设计好的用户意图目标库中，挑选出参数化表达的用户意图目标；

步骤S2、根据用户操作历史，对挑选出的参数化目标进行实例化，获取描述细化的具体用户意图的实例化目标，并获取与此目标关联的种子实体集合；

步骤S3、扫描整个格式丰富文档中的剩余实体，根据获取的实例化目标和其种子实体集合，对各个实体进行实体相关度计算，并根据计算结果确定与实例化目标密切相关的候选实体；

步骤S4、根据实例化目标，为候选实体生成以达成此目标需要的下一步操作，将其作为最终的输出推荐给用户。

进一步地，步骤S1中，从用户意图目标库中挑选出参数化表达的用户意图目标是指，

对用户操作历史进行倒序分析，通过遍历整个预先设计好的包含丰富用户意图的参数化目标库，从中匹配与此操作历史相关联的参数化目标，并标记出与特定参数化目标匹配成功的具体连续的操作序列。

进一步地，对用户操作历史进行倒序分析中，引入噪音容忍策略，允许在用户操作历史中存在特定数量个连续匹配失败的意外操作，减弱实际用户操作历史中包含不受控噪声操作所带来的影响。

进一步地，步骤S2中，对挑选出的参数化目标进行实例化是指，

针对此参数化目标以及从操作历史中抽取的与其匹配成功的操作序列，通过借助表达式求解方法，为参数化目标中包含的参数赋予具体值，从而实例化此目标；同时，根据实例化后的目标，从该操作序列中筛选密切相关的操作集合，并将其对应的实体作为该实例化目标对应的种子实体集合。

进一步地，步骤S3中，扫描整个格式丰富文档中除种子实体集合之外的剩余实体，利用步骤S2得到的实例化目标和对应的种子实体集合，对剩余实体进行实体相关度计算，计划剩余实体与该实例化目标的满足程度；将剩余实体根据下述相关度计算公式获取计算结果并进行倒序排序，截取排名靠前的特定数量实体作为与此实例化目标关联的候选实体集合；

某剩余实体eR

公式(1)中，G为实例化目标的目标属性集合；I代表eR

公式(2)中，a

进一步地，步骤S4中，为了给候选实体生成满足实例化目标的操作，需根据实例化目标的表达式，计算出为满足此实例化目标而具体需要为候选实体的特定属性分配的合适的属性值，从而获取赋值此属性值的的操作作为下一步操作推荐给用户。

进一步地，步骤S4中，下一步操作推荐包含内外两层排序，其中，外层排序将步骤S2得到的实例化目标按照其对应的种子实体集合的元素个数降序排列；内层排序针对的是同一个实例化目标得到的候选实体所产生的符合该实例化目标的操作，内层排序按照候选实体的相关度得分降序排列。

基于示例编程的格式丰富文档实体一致性转换框架，包括：

用户意图识别模块，用于分析用户操作历史，从为特定格式丰富的文档类型预先定义好的用户意图目标库中，挑选出参数化目标，并进行实例化，获取实例化目标及其对应的种子实体集合；

下一步操作推荐模块，用于扫描整个格式丰富的文档中的剩余实体，根据所述用户意图识别模块获取的实例化目标和种子实体集合，对实体进行实体相关度计算，根据计算结果确定与实例化目标密切相关的候选实体；并为候选实体生成符合实例化目标的下一步操作，作为最终的输出推荐给用户。

本发明的有益效果是：

本发明能够缓解经典的示例编程在被用于格式丰富的文档时的局限性，通过分析用户操作历史，自动识别其背后的用户意图，并据此为用户提供有效、稳定、高效的下一步操作推荐，以保持格式丰富的文档中实体的一致性。

附图说明

图1为本发明的格式丰富文档实体一致性转换方法框图；

图2为参数化目标选择的流程框图；

图3为生成实例化目标的流程框图；

图4为Power Point属性的层次树形结构图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本申请实施例中，相关的名词解释如下：

实体是指格式丰富的文档中的某个对象，如文本框、图片、绘制的几何图形等，被建模为一组有限数量的表示其状态信息的键值对，每个键值对指定一个属性及其属性值。

操作是指用户操纵对象的行为，一个操作由两部分组成，一部分是被操作的实体，另一部分是操作所修改的属性及其期望属性值。

目标是指用户操纵对象的意图，目标由目标属性集合(为实现该目标，操作可能需要修改的属性的集合)和表达式集合(对用户意图的表达式形式的描述)组成，参数化目标即用户意图的粗略描述，例如“仅更改实体宽度以使实体右对齐”，实例化目标即用户意图的明确描述，例如“仅更改实体的宽度以使实体右对齐到位置100”。

本发明实施例提供的基于示例编程的格式丰富文档实体一致性转换方法，首先，根据用户操作历史，从为特定格式丰富的文档类型预先设计好的用户意图目标库中选择可能表达了用户意图的参数化目标。其次，尝试将参数化目标转化为实例化目标以精确表达用户意图，同时保存与此实例化目标关联的种子实体集合。然后，扫描文档中的剩余实体，选择与实例化目标密切相关的候选实体。最后，根据具体的实例化目标，为候选实体生成下一步操作推荐。整个方法框架包含两个模块：用户意图识别，下一步操作推荐。对应四个步骤：选择参数化目标，生成实例化目标，选择候选实体，生成下一步操作推荐。

下面对本申请的方案进行具体说明。

如图1所示，基于示例编程的格式丰富文档实体一致性转换方法，包括如下步骤：

步骤S1、分析用户操作历史，并从为特定格式丰富的文档类型预先设计好的描述用户意图的参数化目标库中，挑选出与该操作历史相关联的参数化表达的用户意图目标。

步骤S1中，从用户意图目标库中挑选出参数化表达的用户意图目标是指，

对用户操作历史进行倒序分析，通过遍历整个预先设计好的包含丰富用户意图的参数化目标库，从中匹配与此操作历史相关联的参数化目标，并标记出与特定参数化目标匹配成功的具体连续的操作序列(操作所修改的属性集合与特定目标的目标属性集合交集不为空)。

此外，对用户操作历史进行倒序分析中，引入噪音容忍策略，允许在用户操作历史中存在特定数量个连续匹配失败的意外操作，减弱实际用户操作历史中包含不受控噪声操作所带来的影响。

图2所示为选择参数化目标的流程图。遍历为特定格式丰富的文档类型预先设计的描述用户意图的参数化目标库，被选中的参数化目标必须与用户操作历史中的最新操作相关。参数化目标与操作相关是指目标的目标属性集合与操作所修改的属性集合交集不为空。本步骤可能会选中多个参数化目标，对于每个被选中的参数化目标，方法会对用户操作历史进行倒序分析以获得该参数化目标的相关操作序列，用于后续步骤S2中将目标实例化。容错额度是在倒序分析中最多允许与该实例化目标不相关的连续操作的数量，若容错额度用尽或已经分析完用户操作历史中的所有操作，则倒序分析停止。

步骤S2、根据用户操作历史，对挑选出的参数化目标进行实例化，获取描述细化的具体用户意图的实例化目标，并获取与此目标关联的种子实体集合。

步骤S2中，将挑选出的参数化目标进行实例化是指，

针对此参数化目标以及从操作历史中抽取的与其匹配成功的操作序列，通过借助表达式求解方法，为参数化目标中包含的参数赋予具体值，从而实例化此目标。同时，根据实例化后的目标，从该操作序列中筛选密切相关的操作集合(完全满足给实例化目标的参数)，并将其对应的实体作为该实例化目标对应的种子实体集合。

图3所示为生成实例化目标的流程图，对步骤S1得到的每个参数化目标尝试进行实例化，以生成相应的实例化目标。细节上，对相关操作序列进行倒序分析，尝试将被操作实体分配给参数化目标，即把被操作实体的属性值代入参数化目标的表达式中的对应属性。若表达式中有属性无法被代入具体属性值，则分配失败，停止分析。若分配成功，则保存分配后的表达式，并尝试使用经典表达式求解方法来求解所有被保存的表达式。若得到唯一解，即所有参数化目标中的所有参数都能解出具体值，则得到了该参数化目标对应的无参数的实例化目标，然后从相关操作序列中筛选出真正符合该实例化目标的操作集合，并将这些操作对应的实体作为该实例化目标的种子实体集合。若不能得到唯一解，则认为这个参数化目标还不适合进行下一个操作推荐，因为它的意图还不能通过其相关的用户操作清楚地表达，具体来说，无解时停止分析，多解时继续向前分析相关操作序列，直到得到唯一解或分析完全部相关操作序列。

步骤S3、扫描整个格式丰富文档中的剩余实体，根据获取的实例化目标和其种子实体集合，对各个实体进行实体相关度计算其与种子实体在满足此实例化目标角度的相关度，并后续根据计算结果确定与实例化目标密切相关的候选实体。

步骤S3中，扫描整个格式丰富的文档中除种子实体集合之外的剩余实体，利用步骤S2得到的实例化目标和对应的种子实体集合，对剩余实体进行实体相关度计算，计划剩余实体与该实例化目标的满足程度。将剩余实体根据下述相关度计算公式获取计算结果并进行倒序排序，截取排名靠前的特定数量实体作为与此实例化目标关联的候选实体集合。

某剩余实体eR

公式(1)中，G为实例化目标的目标属性集合。I代表eR

公式(2)中，a

利用步骤S2中得到的每个实例化目标及其种子实体集合，通过计算实体相关度(相关度计算公式如上文所述)并截取相关度分数较高的部分剩余实体作为该实例化目标的候选实体。计算实体相关度时，属性间的相关度可由领域常见表达格式丰富的文档中属性的具体关联程度的层次结构得到。如图4所示，其描述了Power Point的属性层次结构，在该结构中属性为叶节点，方法定义两个叶节点间路径长度的倒数为对应的两个属性间的相关度，例如W(“横向距离”，“字号”)＝1/4(路径：“横向距离”→“实体”→“文本框架”→“字体”→“字号”)。

步骤S4、根据具体的实例化目标，为候选实体生成以达成此目标需要的下一步操作，将其作为最终的输出推荐给用户。

步骤S4中，为了给候选实体生成满足实例化目标的操作，需根据实例化目标的表达式，计算出为满足此实例化目标而具体需要为候选实体的特定属性分配的合适的属性值，从而获取赋值此属性值的的操作作为下一步操作推荐给用户。

步骤S4中，下一步操作推荐包含内外两层排序，其中，外层排序将步骤S2得到的实例化目标按照其对应的种子实体集合的元素个数降序排列。内层排序针对的是同一个实例化目标得到的候选实体所产生的符合该实例化目标的操作，内层排序按照候选实体的相关度得分降序排列。

本步骤为每个候选实体生成符合其实例化目标的下一步操作，以得到如前所述的具有内外两层排序的下一步操作推荐。细节上，将实例化目标的表达式中的非目标属性用候选实体的对应属性值代入，解出候选实体的目标属性的期望属性值，从而得到该候选实体符合实例化目标的下一步操作。

基于示例编程的格式丰富文档实体一致性转换框架，包括：

用户意图识别模块，用于分析用户操作历史，从为特定格式丰富的文档类型预先定义好的用户意图目标库中，挑选出参数化目标，并进行实例化，获取实例化目标及其对应的种子实体集合。

下一步操作推荐模块，用于扫描整个格式丰富的文档中的剩余实体，根据所述用户意图识别模块获取的实例化目标和种子实体集合，对实体进行实体相关度计算，根据计算结果确定与实例化目标密切相关的候选实体。并为候选实体生成符合实例化目标的下一步操作，作为最终的输出推荐给用户。

虽然本发明已以较佳实施例公开如上，但它们并不是用来限定本发明，任何熟习此技艺者，在不脱离本发明之精神和范围内，自当可作各种变化或润饰，但同样在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于示例编程的格式丰富文档实体一致性转换方法及框架 [P] . 中国专利： CN113139366A . 2021-07-20
2. 文档格式转换装置和文档格式转换方法 [P] . 中国专利： CN104331391A . 2015-02-04
3. Client server system and the fixed form document in the variable data modification support system using the same, screen transition method, fixed form document in the variable data modification support method, as well as the program for the [P] . 日本专利： JP5647880B2 . 2015-01-07

机译：客户端服务器系统和可变数据修改支持系统中的固定格式文档使用相同的屏幕转换方法，可变数据修改支持方法中的固定格式文档以及用于
4. Method for extracting digests, reformatting, and automatic monitoring of structured online documents based on visual programming of document tree navigation and transformation [P] . 美国专利： US2003070143A1 . 2003-04-10

机译：基于文档树导航可视化编程的结构化在线文档摘要提取，格式化和自动监控的方法
5. Method for extracting digests, reformatting, and automatic monitoring of structured online documents based on visual programming of document tree navigation and transformation [P] . 美国专利： US6538673B1 . 2003-03-25

机译：基于文档树导航可视化编程的结构化在线文档摘要提取，格式化和自动监控的方法