首页> 中国专利> 一种面向共指关系的手动文本标注工具及方法

一种面向共指关系的手动文本标注工具及方法

摘要

本发明公开了一种面向共指关系的手动文本标注工具及方法,该工具包括存储模块和标注模块,存储模块用于存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;标注模块用于以可视化图形界面的方式为用户提供操作界面,并根据用户操作指令在操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例。本发明可一次性实现跨文档的共指标注,无需先标注文档内共指信息,再聚合文档间共指信息,提高了效率。

著录项

  • 公开/公告号CN112464627A

    专利类型发明专利

  • 公开/公告日2021-03-09

    原文格式PDF

  • 申请/专利权人 北京科技大学;

    申请/专利号CN202011225399.5

  • 发明设计人 宁焕生;徐阳;万月亮;魏大为;

    申请日2020-11-05

  • 分类号G06F40/169(20200101);

  • 代理机构11237 北京市广友专利事务所有限责任公司;

  • 代理人张仲波;付忠林

  • 地址 100083 北京市海淀区学院路30号

  • 入库时间 2023-06-19 10:08:35

说明书

技术领域

本发明涉及文本标注技术领域,特别涉及一种面向共指关系的手动文本标注工具及方法。

背景技术

“共指消解”任务,就是输入文本,输出文本中哪些“指称”是共指的。如果输入单个文本,就是文档内共指消解,如果输入多个文档,就是文档间(跨文档)共指消解。后者显然更难。“消解”一词本意指把同一个“实例”的不同“指称”统一起来,消融歧义。例如有两句话,“时任美国总统将于下周访华”,“当地媒体参加发布会并采访了甲总统”。如果根据上下文知道“时任美国总统”就是“甲总统”,说的是同一个人,那么说“时任美国总统”和“甲总统”这两个短语是“共指”的,这两个短语被称为“指称”,它们都“指向”真实的甲这个人,这个人是指称指向的“实例”。由于上例中的总统是一个实体,所以称为“实体共指”。类似的还有“事件共指”。

共指消解技术兴起较早,但是跨文档的同时消解实体共指和事件共指的技术是近年才发展起来的,特别是针对中文的此种技术。制约此种技术发展的一个重要因素就是缺少标注语料。基于深度学习的共指消解模型必须有足够的标注语料来用于训练,但是目前并没有合适的语料。因此就需要“共指语料标注工具”来辅助标注新的语料。

共指语料标注工具,即标注语料文本中共指关系的标注工具。目前使用比较广泛的是CAT+CROMER,该工具其实是两个工具的组合,标注者需要先用 CAT标注每一篇文档(CAT是文档内共指标注工具),然后用CROMER把不同文档内的共指标注合并起来,实现文档间共指的标注。CAT+CROMER的大致流程为:文档1,2是讲苹果种植的,用户利用CAT把里面许多“苹果”的指称都标注指向苹果这个实例。文档3是讲乔布斯的,用户利用CAT把里面许多“苹果”的指称都标注指向苹果这个实例。但这是3个不同的苹果实例。所以用户需要利用CROMER识别文档间实例的这种差异和联系,把水果苹果和苹果公司区分开,把真正的水果苹果合并。但这种先文档内后文档间的标注方式显然降低了标注效率。

发明内容

本发明提供了一种面向共指关系的手动文本标注工具及方法,以解决现有的标注工具先文档内后文档间的标注方式降低了标注效率的技术问题。

为解决上述技术问题,本发明提供了如下技术方案:

一方面,本发明提供一种面向共指关系的手动文本标注工具,该工具包括:

存储模块,所述存储模块用于存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;

标注模块,所述标注模块用于以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例。

进一步地,所述标注模块包括第一操作单元、第二操作单元、第三操作单元、第四操作单元以及第五操作单元;其中,

所述第一操作单元用于显示所述存储模块所存储的语料文本的目录结构;

所述第二操作单元用于当用户在所述第一操作单元所显示的目录结构中选择一个待标注的语料文本后,显示用户当前选择的语料文本的文本内容;

所述第三操作单元用于当用户在所述第二操作单元显示的文本内容中选择一个指称后,为用户选择的当前指称确定对应的当前节点并显示节点标注信息;

所述第五操作单元用于展示所有实例;当用户选择一个实例后,被选择的实例被认定为当前实例;

所述第四操作单元用于显示当前实例对应的实例标注信息。

进一步地,所述第二操作单元还用于:

当用户在文本内容中选择一个指称后,将用户选择的当前指称高亮显示。

进一步地,所述第三操作单元为当前指称确定对应的当前节点,包括:

若所述存储模块中存储有当前指称对应的节点,则所述第三操作单元将所述存储模块中存储的相应节点作为与当前指称对应的当前节点;

若所述存储模块中未存储当前指称对应的节点,则所述第三操作单元根据用户的新建节点指令为当前指称创建对应的节点作为当前节点。

进一步地,所述第三操作单元还用于:

接收用户输入的编辑节点指令,并根据所述编辑节点指令修改当前节点的节点标注信息,变更当前节点所指向的实例。

进一步地,所述第五操作单元还用于:

接收用户的新建实例指令,并根据所述新建实例指令新建一个实例。

进一步地,所述第四操作单元还用于:

接收用户输入的编辑实例指令,并根据所述编辑实例指令修改当前实例的实例标注信息,变更指向当前实例的节点。

另一方面,本发明还提供一种基于上述的面向共指关系的手动文本标注工具实现的面向共指关系的手动文本标注方法,该方法包括:

通过存储模块存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;

通过标注模块以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例,以实现文本标注。

本发明提供的技术方案带来的有益效果至少包括:

本发明提供了一种高效的,图像化的,跨文档的实体和事件共指工具,以图形化的方式实现标注,对标注者隐藏数据存储和建模细节;以直观的形式展示和编辑指称间的共指关系;实例在不同文档间共享,支持不同文档间指称的共指标注,标注者无需先进行文档内共指标注,再进行文档间共指信息的汇聚。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的面向共指关系的手动文本标注工具的系统框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本实施例提供了一种面向共指关系的手动文本标注工具,如图1所示,该面向共指关系的手动文本标注工具包括:

存储模块,所述存储模块用于存储语料文本、节点和实例;其中,每一节点存储一个指称和用于标注当前节点指向哪个实例的节点标注信息,每一实例存储一个实例信息和用于标注当前实例被哪些节点所指向的实例标注信息;

标注模块,所述标注模块用于以可视化图形界面的方式为用户提供操作界面,并根据用户的操作指令在所述操作界面上展示当前待标注的语料文本和当前指称,为当前指称确定对应的当前节点,并为当前节点确定对应的实例。

进一步地,所述标注模块包括第一操作单元、第二操作单元、第三操作单元、第四操作单元以及第五操作单元;其中,

所述第一操作单元用于显示所述存储模块所存储的语料文本的目录结构,目录结构由文件夹和文件组成;当用于点击文件夹后向用户显示当前文件夹中包含的所有文件,当用户点击其中某一文件后,则在第二操作单元显示其内容;

所述第二操作单元用于当用户在所述第一操作单元所显示的目录结构中选择一个待标注的语料文本后,显示用户当前选择的语料文本的文本内容;并且,当用户在当前显示的文本内容中选择一段文字后,将用户所选择的文字内容进行突出(高亮)显示,并认定用户当前所选择的文字为“当前指称”;

所述第三操作单元用于当用户在所述第二操作单元显示的文本内容中选择一个指称后,为用户选择的当前指称确定对应的当前节点并显示节点标注信息;

具体地,所述第三操作单元为当前指称确定对应的当前节点,包括:

若所述存储模块中存储有当前指称对应的节点,则所述第三操作单元将所述存储模块中存储的相应节点作为与当前指称对应的当前节点;

若所述存储模块中未存储当前指称对应的节点,则所述第三操作单元显示“新建节点”按钮,当用户点击“新建节点”按钮后,根据用户的新建节点指令为当前指称创建一个对应的新节点作为当前节点。

所述第五操作单元用于展示所有的实例;和“新建实例”按钮;用户左键单击一个实例,则此实例被认定为当前实例;当用户点击“新建实例”按钮后,新建一个实例。

所述第四操作单元用于显示当前实例对应的实例标注信息。

所述第三操作单元还包括“编辑指向的实例”按钮,当用户点击“编辑指向的实例”按钮后,再在第五操作单元所显示的实例中选择一个实例即可将当前节点指向所选择的实例;从而实现当前节点所指向实例的变更。

所述第四操作单元还包括“编辑相关节点”按钮,当用户点击“编辑相关节点”按钮后,再在第二操作单元显示的文本内容中选择一段文字,即可将选择的文字作为一个节点指向当前实例,从而实现指向当前实例的节点的变更。

综上,本实施例提供了一种高效的,图像化的,跨文档的实体和事件共指工具,以图形化的方式实现标注,对标注者隐藏数据存储和建模细节;以直观的形式展示和编辑指称间的共指关系;实例在不同文档间共享,支持不同文档间指称的共指标注,标注者无需先进行文档内共指标注,再进行文档间共指信息的汇聚。可以一次性实现跨文档的共指标注,从而有效提高了文本标注效率。

此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号