首页> 中国专利> 语言分析装置、语言分析方法和语言分析程序

语言分析装置、语言分析方法和语言分析程序

摘要

本发明的语言分析装置包括:划分规则,根据在应用时引起分析准确度问题的风险程度,每种划分规则被分类至一种等级;划分点候选产生单元21,当输入了长度大于预定的最大输入长度的字符串时,通过按照引起问题的风险等级递增的顺序逐一依次应用所述划分规则,来产生针对输入字符串的划分点候选;划分点调整单元22,当划分点候选产生单元21所产生的所述划分点候选所获得的划分单元候选的长度小于所述最大输入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长度不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合;以及划分单元23,在所述划分点调整单元所确定的划分点处,将输入字符串划分。

著录项

  • 公开/公告号CN102369524A

    专利类型发明专利

  • 公开/公告日2012-03-07

    原文格式PDF

  • 申请/专利权人 日本电气株式会社;

    申请/专利号CN201080014350.3

  • 发明设计人 安藤真一;定政邦彦;

    申请日2010-03-23

  • 分类号G06F17/27;

  • 代理机构中科专利商标代理有限责任公司;

  • 代理人王波波

  • 地址 日本东京都

  • 入库时间 2023-12-18 04:34:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-08-13

    授权

    授权

  • 2012-04-18

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20100323

    实质审查的生效

  • 2012-03-07

    公开

    公开

说明书

技术领域

本发明涉及通过对自然语言进行语法分析来执行语言分析的方法。更 具体地,本发明涉及语言分析装置、语言分析方法和语言分析程序,在将 长句子划分为较短的句子时高效地执行语言分析过程。

背景技术

典型地,通过首先将输入字符串划分为句子,然后对这些句子中的每 个句子执行分析过程,来执行基于语法分析的语言分析。然而,当分析极 长的句子(如经常在专利申请的说明书中看到的句子)时,基于逐句的简单 分析过程可能会遇到某些问题。

典型地,语言分析装置(如,用于语法分析的语言分析装置)通过将 输入字符串划分为句子,然后研究每个句子中包含的每个单词对之间的关 系,来执行分析过程。这意味着,所要考虑的单词对的数目随输入句子长 度的增加成指数增长。

如果要分析极长的句子,必须计算巨量的单词对。这将导致各种问题, 包括:分析所需的较长的分析时间和大量的存储容量。

此外,可能的解释方式的数目随所要考虑的单词对的数目的增加而增 加。这进而提高了分析差错的可能。为避免如此,已经提出了各种方法: 在执行分析过程之前,如果输入的句子过长,对输入的句子进行划分。

例如,在专利文献1中,公开了一种方法,其中,如果机器翻译过程 所花的时间大于预定时间,应用之前给定的划分规则将输入的句子划分为 较小的单元,并对每个单元执行机器翻译过程。

专利文献2中提出的方法与适应性单词计数相关联地存储划分规则, 并按照适应性单词计数递减的顺序依次应用划分规则,使得输入的句子能 够被划分为更合适的单元。

专利文献1:日本专利待审公开No.61-255468

专利文献2:专利号003173514

以下,将描述对输入的句子进行划分以执行基于语法分析的语言分析 的上述方法存在的问题。

第一个问题是,当给定了分析过程中可接受的最大输入长度(以下称 “最大输入长度”)时,无法根据这样的最大输入长度将长句子划分为适 当长度的处理单元。

划分规则大致分为两类。一类划分规则关注提供相对宽松的中断的语 言表述,另一类关注提供相对细致的中断的语言表述。一般而言,前一类 划分规则允许分析得到正确地执行,即使不予改变地(即,在通过应用前 一类划分规则获得的划分点处将句子划分后不作任何调整)对每个划分单 元执行分析过程。然而,该规则关注于相对稀有的特定语言表述。由于可 能未必从所有输入的句子中获得划分点,这可能是存在问题的,并且当实 际获得划分点时,每个得到的划分单元可能不够短。

另一方面,后一类划分规则通过关注于相对常用的语言表述来获得划 分点。因此,该类划分规则允许从相对大量的句子获得划分点。此外,得 到的划分单元可能足够短。然而,由于各个划分单元可能变得过短以至于 无法对每个划分单元执行正确的分析,这将引起分析准确度常常降低的问 题。

专利文献2中公开的划分方法试图通过与适应性单词计数相关联地存 储划分规则,并按照适应性单词计数递减的顺序依次应用划分规则,来解 决上述问题。然而,该方法也存在分析准确度降低的问题。一个原因在于, 难以针对划分规则设置合适的适应性单词计数。另一个原因在于,当达到 需要应用具有较小适应性单词计数的划分规则的阶段时,得到的划分单元 变得过短以至于无法确保正确分析。

(本发明的目的)

本发明的目的在于,提供语言分析装置和语言分析方法,根据分析过 程中可接受的最大输入长度将长句子划分为合适长度的处理单元。

发明内容

根据本发明的第一示例方面,一种语言分析装置包括:

划分规则,根据在应用时引起分析准确度问题的风险程度,每种划分 规则被分类至一种等级;

划分点候选产生单元,当输入了长度大于预定的最大输入长度的字符 串时,通过按照引起问题的风险等级递增的顺序逐一依次应用所述划分规 则,来产生针对输入字符串的划分点候选;

划分点调整单元,当通过在划分点候选产生单元所产生的所述划分点 候选处将所述字符串划分而获得的划分单元候选的长度小于所述最大输 入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长度 不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合;以 及

划分单元,在所述划分点调整单元所确定的划分点处,将输入字符串 划分。

根据本发明的第二示例方面,一种语言分析方法包括:

划分点候选产生步骤,当输入了长度大于预定的最大输入长度的字符 串时,通过按照引起问题的风险等级递增的顺序逐一依次应用划分规则, 来产生针对输入字符串的划分点候选,根据在应用时引起分析准确度问题 的风险程度,每种划分规则已被分类至一种等级;

划分点调整步骤,当通过在划分点候选产生步骤中所产生的所述划分 点候选处将所述字符串划分而获得的划分单元候选的长度小于所述最大 输入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长 度不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合; 以及

划分步骤,在所述划分点调整步骤所确定的划分点处,将输入字符串 划分。

根据本发明的第三示例方法,一种语言分析程序通过在计算机上运行 来执行语言分析过程,所述语言分析程序使计算机执行:

划分点候选产生过程,当输入了长度大于预定的最大输入长度的字符 串时,通过按照引起问题的风险等级递增的顺序逐一依次应用划分规则, 来产生针对输入字符串的划分点候选,根据在应用时引起分析准确度问题 的风险程度,每种划分规则已被分类至一种等级;

划分点调整过程,当通过在划分点候选产生过程中所产生的所述划分 点候选处将所述字符串划分而获得的划分单元候选的长度小于所述最大 输入长度时,从通过应用相同等级的划分规则同时确保每个划分单元的长 度不大于所述最大输入长度而获得的划分点候选中,选择划分点的组合; 以及

划分过程,在所述划分点调整过程所确定的划分点处,将输入字符串 划分。

根据本发明,如果设置了分析过程中可接受的最大输入长度,可以根 据这样的最大输入长度将长句子划分为适当长度的处理单元。

这是由于:依次应用划分规则,根据在应用时引起分析准确度问题的 风险程度,每种划分规则已被分类至一种等级;以及将每个得到的划分点 调整为使得每个划分单元将具有最大可能长度但不会超过最大输入长度。

附图说明

图1是示出了根据本发明的第一示例实施例的语言分析装置的结构的 框图;

图2是示出了根据本发明的第一示例实施例的语言分析装置的操作的 流程图;

图3是示出了根据本发明的第一示例实施例的语言分析装置的操作的 流程图;

图4是示出了根据本发明的第二示例实施例的语言分析装置的结构的 框图;

图5是示出了根据本发明的第一示例实施例的划分规则存储部分中的 示例数据结构的图;

图6是示出了根据与根据本发明的第一示例实施例相对应的示例1的 示例操作的图;以及

图7是示出了根据本发明的第一实施例的语言分析装置的数据处理设 备的示例硬件结构的框图。

具体实施方式

(第一示例实施例)

下面将参考附图描述本发明的第一示例实施例。

参照图1可见,根据本发明的第一示例实施例的语言分析装置包括: 输入装置1,如键盘或鼠标;数据处理装置2,在程序指令的控制下操作; 存储装置3,存储信息;以及输出装置4,如显示装置和打印装置。

向存储装置3提供划分规则存储部分31。划分规则存储部分31存储 划分规则,划分规则将被应用于输入字符串以识别输入字符串中可能充当 划分点的点。

在根据在应用时引起分析准确度问题的风险程度将划分规则分组为 至少两个等级后,划分规则存储部分31存储划分规则。

例如,按以下方式执行将划分规则分组为某一等级。首先,将通过应 用该划分规则获得的对每个划分单元执行语言分析的结果与在不划分输 入字符串的情况下执行语言分析的结果进行比较。如果比较表明:划分将 不会实质上引起与每个划分单元相对应的分析结果的改变,划分规则被认 为是“无风险的”并被分类为“高级”。如果比较表明:划分以较低的概 率引起该分析结果的改变,划分规则被认为是“低风险的”并被分类为 “中级”。如果比较表明:划分以较高的概率引起该分析结果的改变,划 分规则被认为是“高风险的”并被分类为“低级”。

数据处理装置2包括:划分点候选产生单元21、划分点调整单元22 和划分单元23。

如果作为处理目标输入的字符串的长度大于预定的最大输入长度,划 分点候选产生单元21按照风险度递增的顺序,从存储在划分规则存储部 分31中的划分规则中读取划分规则,并通过应用所读取的划分规则产生 输入字符串内的划分点候选。

此处,术语“划分点候选”指:在输入字符串中识别的可能充当划分 点的点。术语“最大输入长度”指:输入字符串的可接受的最大长度。最 大输入长度是根据语言分析的所需处理时间和可接受的存储开销而确定 的值。例如,可以基于输入字符串中包含的字符或语素的数目来定义该值。

划分点调整单元22接收划分点候选产生单元21所产生的划分点候 选。划分点调整单元22依次逐一检查通过在每个划分点候选处将输入字 符串划分可得到的划分单元候选,并确定其是否将划分点候选用作划分 点。

划分点调整单元22通过必要时选择划分点候选,以确保最终获得的 全部独立划分单元的总数等于或小于最大输入长度,来决定划分点。

划分单元23接收划分点调整单元22所确定的划分点,并通过在该划 分点处将输入字符串划分来产生划分单元。

(示例实施例的操作)

下面,将参照图1和2的流程图来详细描述本示例实施例的操作。

当从输入装置1接收到输入字符串时,数据处理装置2的划分点候选 产生单元21首先计算输入字符串的长度。接着,划分点候选产生单元21 将所计算的长度与先前给定的最大输入长度进行比较,以确定输入字符串 的长度是否大于最大输入长度(步骤A1)。应当注意的是,虽然来自输入装 置1的输入可以是简单的字符串,更优选地,输入包含构成输入字符串的 语素以及这些语素的属性信息,如词根形式和词性。

如果在步骤A1中输入字符串的长度等于或小于最大输入长度,则无 需划分字符串,因此划分点候选产生单元21终止整个过程。

如果输入字符串的长度大于最大输入长度,划分点候选产生单元21 将该输入字符串设置为划分目标(步骤A2)。

接着,划分点候选产生单元21初始化划分规则等级,并将其设置为 风险最低的等级,即“高级”(步骤A3)。

在步骤A4中,划分点候选产生单元21使用在以上步骤A3中设置的 等级的划分规则,对在以上步骤A2中被设置为划分目标的字符串启动划 分点产生过程。下面,将描述划分点产生过程。

划分单元23基于通过划分点候选产生单元21执行的划分点产生过程 获得的划分点,对作为划分目标的字符串进行划分(步骤A5)。

下面,将参照图3的流程图,详细描述划分点候选产生单元21和划 分点调整单元22执行的划分点产生过程。

划分点候选产生单元21从划分规则存储部分31获得所设置等级的划 分规则,并通过对被设置为划分目标的字符串应用所获得的划分规则来产 生划分点候选(步骤B1)。

如果通过应用划分规则未从划分目标中获得划分点候选,划分点候选 产生单元21将划分规则等级降低一级(步骤B2和步骤B3),并通过应用 新等级的划分规则再次尝试产生划分点候选。更具体地,划分点候选产生 单元21通过使用风险等级小一级的划分规则(即,风险度大于初始划分 规则等级的划分规则),来产生划分点候选。

如果不能再降低划分规则等级(图3中未示出),将终止划分点产生过 程。

如果已在图3的步骤B1中设置了划分点候选,划分点候选产生单元 21将所设置的划分点候选传递至划分点调整单元22。

当接收到划分点候选产生单元21设置的划分点候选时,划分点调整 单元22在划分点候选处将输入字符串划分为划分单元候选(步骤B4)。

接着,划分点调整单元22从所获得的划分单元候选中选择尚待检查 的一个划分单元候选(步骤B5)。

选择划分单元候选的方法的一个示例可以是:首先选择在已从当前划 分目标获得的并仍待检查的所有划分单元候选中、距字符串前端最近的划 分单元候选,并依次移动。相反,可以首先选择仍待检查的所有划分单元 候选中、距字符串末尾最近的划分单元候选。另一种可选方法是:以长度 递增的顺序从仍待检查的所有划分单元候选中选择划分单元候选。

接着,在步骤B6中,划分点调整单元22验证在步骤B5中是否成功 选择了仍待检查的划分单元候选。

如果未能在B5中选择仍待检查的划分单元候选,这意味着对所有划 分单元候选完成了检查过程。在该情况下,划分点调整单元22采用剩下 的未移除的划分点候选作为划分点,输出所获得的划分点,并终止过程(步 骤B7)。

如果在步骤B6中验证能够选择仍待检查的划分单元候选,划分点调 整单元22计算所选择的划分单元候选的长度,并将所计算的长度与预定 的最大输入长度进行比较,以确定划分单元候选的长度是否大于最大输入 长度(步骤B8)。

如果步骤B8中的比较指示所选择的划分单元候选的长度大于最大输 入长度,划分点调整单元22将该划分单元候选设置为新的划分目标(步骤 B9),并将划分规则等级降低一级(步骤B10)。

接着,划分点调整单元22将过程交付划分点候选产生单元21,划分 点候选产生单元21进而通过使用新等级的划分规则为划分单元候选产生 划分点候选(步骤B11)。

当该过程从划分点候选产生单元21返回时,划分点调整单元22回到 步骤B5并继续该过程。

如果在步骤B8中,所选择的划分单元候选的长度已被确定为小于最 大输入长度,划分点调整单元22从当前划分目标中获得与所选择的划分 单元候选相邻的新的划分单元候选(步骤B12)。

接着,划分点调整单元22验证是否能够成功获得相邻的划分单元候 选(步骤B13),如果不能则返回步骤B5并继续该过程。

如果能够获得相邻划分单元候选,划分点调整单元22计算所选择的 划分单元候选的长度和所获得的相邻划分单元候选的长度之和。接着,划 分点调整单元22将得到的长度与预定的最大输入长度进行比较,以确定 长度之和是否大于最大输入长度(步骤B14)。

如果在步骤B14中所计算的长度之和被确定为大于最大输入长度,划 分点调整单元22将当前选择的划分单元候选确立为“被检查的”划分单 元候选,并返回步骤B2以继续过程。

如果在步骤B14中所计算的长度之和被确定为小于最大输入长度,划 分点调整单元22移除位于所选择的划分单元候选和所获得的相邻划分单 元候选之间的划分点候选(步骤B15)。接着,划分点调整单元22将通过连 接两个划分单元候选(即,所选择的划分单元候选和所获得的相邻划分单 元候选)获得的划分单元设置为新的处理目标(步骤B16),并返回步骤B12 以继续过程。

(第一示例实施例的效果)

下面将描述该示例实施例的效果。

第一示例实施例被配置为:依次应用划分规则,根据在应用时引起分 析准确度问题的风险程度,每种划分规则已被分类至多种等级中的一种等 级,并且调整每个划分点,使得每个得到的划分单元的长度不是太短但不 超过最大输入长度。因此,在设置了分析过程中可接受的最大输入长度时, 可以根据这样的最大输入长度将长句子划分为适当长度的处理单元。

此外,该示例实施例被配置为:其确立宽松的分类规则,其中,每一 个划分规则与根据引起分析准确度问题的风险度定义的等级相关联;以及 从而其调整每个划分点,使得每个得到的划分单元的长度不是太短但不大 于最大输入长度。因此,在该示例实施例中,可以相对容易地创建划分规 则,这是由于不必向其分类规则添加任何严格的优先级信息,例如,要对 其应用划分规则的单词数目的下限。

(第二示例实施例)

下面,将参照附图详细描述本发明的第二示例实施例。

参照图4,与本发明的第一示例实施例类似,本发明的第二示例实施 例包括:输入装置1、数据处理装置6、存储装置3和输出装置4。

在被读入数据处理装置6之后,语言分析程序5控制数据处理装置6 的操作,并在存储装置3中产生划分规则存储部分32。

在语言分析程序5的控制下,数据处理装置6也执行与根据第一示例 实施例的数据处理装置2所执行过程相同的过程。

数据处理装置6具有图7所示的硬件结构。

如图7所示,可以采用与通用计算机装置类似的硬件结构来实现数据 处理装置6,并且数据处理装置6包括:CPU(中央处理单元)61;主存储 部分62,为主存储器(如,RAM(随机存取存储器))并被用作工作区和/ 或临时存储区;输入/输出接口部分63,与输入装置1、输出装置4和存 储装置3相连,以发送和接收数据;系统总线64,连接在上述组件之间。 例如,存储装置3通过使用硬盘装置来实现,所述硬盘装置包括非易失性 存储器,如ROM(只读存储器)、磁盘和半导体存储器。

不用说,可以通过实现电路组件,将根据该示例实施例的数据处理装 置6的操作作为硬件实现,所述电路组件是硬件组件(如,LSI(大规模 集成电路))并且并入了上述语言分析程序5。此外,还可以通过在存储装 置3中存储语言分析程序5,将该程序加载至主存储部分62中,并在CPU 61上执行该程序,将其作为软件实现。

(第一示例)

下面将参照附图描述本发明的示例1。该示例对应于本发明的第一示 例实施例。

示例1包括:作为输入装置1的键盘;作为数据处理装置2的个人计 算机;作为存储装置3的磁盘记录设备;以及作为输出装置4的显示器。

个人计算机具有CPU,该CPU执行划分点候选产生单元21、划分点调 整单元22和划分单元23的功能。在磁盘记录设备中,用作划分规则存储 部分31的存储区是受保护的。

以下描述假定图5所示的划分规则存储在划分规则存储部分31中。 图5以示意的表格形式示出了存储在划分规则存储部分31中的划分规则。 每行包含划分规则。

在图5中,第一列“等级”存储等级信息,指示应用对应的划分规则 将引起分析精度问题的风险程度。下一列“划分点标识模式”存储模式信 息,基于模式信息可识别划分点。最后一列“划分点”存储将要被识别为 划分点的位置指示为划分点识别模式的相对位置的信息。

例如,图5的第一行包含“等级1”的划分规则,其应用将涉及引起 分析准确度问题的最低风险。对于“等级1”的划分规则,指示:如果输 入字符串包含作为划分点识别模式的句号“。”,可以将紧接着句号(“模 式”)之后的位置识别为划分点。

图5的第二行包括“等级2”的划分规则,其应用将涉及引起分析准 确度问题的相对较低的风险。对于“等级2”的划分规则,指示:如果输 入字符串包含以连词“が”和逗号“、”的顺序出现的划分点识别模式, 可以将紧接着该模式之后的位置识别为划分点。类似地,在图5的表中的 第三和第四行,描述了等级3和等级4的划分规则。在划分规则的等级中, 等级1是最高的,其次是等级2、等级3和等级4。

下面描述假定最大输入长度已被设置为“100”。此外,将描述以下 示例操作,其中,输入长度为300的字符串(日文句子)“~~~す る。~~~するので、~~し、~~し、さらに~~する。”,并且使用 图5所示的划分规则。

当经由键盘等(即,输入装置1)向作为数据处理装置2的个人计算 机输入图6所示的输入句子时,划分点候选产生单元21接受输入句子, 并计算其长度。基于该结果,划分点候选产生单元21检测到输入句子的 长度是“300”,即,大于最大输入长度“100”,并将输入句子设置为划 分目标。划分点候选产生单元21还初始化划分规则等级,并将其设置为 最高的“等级1”,并且执行划分点产生过程。

在划分点产生过程期间,划分点候选产生单元21首先从划分规则存 储部分31获得“等级1”划分规则,并将其应用于划分目标,即图6a所 示的整个输入句子。接着,划分点候选产生单元21检测到划分目标内的 句号“。”,因此将后续部分设置为划分点候选。

接着,划分点调整单元22接收划分点候选产生单元21所设置的划分 点候选,并将划分目标输入句子划分为划分单元候选。该结果如图6b所 示。

接着,划分点调整单元22从划分目标中选择尚待处理的一个划分单 元候选。作为此处所使用的选择尚待检测的划分单元候选的方法,此处将 采用以下方法:首先选择所有划分单元候选中距划分单元候选前端最近的 划分单元候选,并依次移动。

首先,选择图6中所示的长度为“60”的首个划分单元候选,即 “~~~する。”。接着,划分点调整单元22计算划分单元候选的长度, 并确定其长度“60”小于最大输入长度“100”。

接着,划分点调整单元22从划分目标中获得与当前选择的划分单元 候选“~~~する。”相邻的划分单元候选“~~~するので,~~ し、~~し、さらに~~する。”。

由于这两个长度之和为“300”,划分点调整单元22将当前选择的划 分单元候选“~~~する。”确立为“被检查的”划分单元候选,并选 择下一个尚待处理的划分单元候选“~~~するので、~~し、~~し、 さらに~~する。”作为新的处理目标。

该划分单元候选的长度为“240”,大于最大输入长度“100”。因此, 划分点调整单元22将该划分单元候选设置为划分目标,将划分规则等级 降低一级至“等级2”,并递归调用划分点产生过程。

与以上类似,划分点候选产生单元21从划分规则存储部分31获得图 5所示的“等级2”的划分规则,并将其应用于划分目标,即,图6b中所 示的第二划分单元候选。

划分点候选产生单元21检测到以连词“ので”和逗号“、”的顺序 连续出现在划分目标中的模式,因此将后续部分设置为划分点候选。该结 果如图6c所示。

采用以上相同的方式,划分点调整单元22将长度小于最大输入长度 的划分单元候选“~~~するので、”(长度为“80”)确立为“被处理 的”划分单元候选。接着,划分点调整单元22将长度大于最大输入长度 的划分单元候选“~~し、~~し、さらに~~する。”(长度为“160”) 设置为划分目标,将划分规则等级降低一级至“等级3”,并递归调用划 分点产生过程。

与以上类似,划分点候选产生单元21从划分规则存储部分31获得 “等级3”的划分规则,并将其应用于划分目标,即,图6c中所示的第 三划分单元候选。划分点候选产生单元21在两个位置检测到以接续形式 的动词“し”和逗号“、”的顺序连续出现在划分目标中的模式,因此将 其相应的后续部分设置为划分点候选。该结果如图6d所示。

划分点调整单元22将首个划分单元候选“~~し、”(长度为“50”) 设置为尚待处理的划分单元候选,并确定其长度“50”小于最大输入长度 “100”。

接着,划分点调整单元22从划分目标中获得与首个划分单元候选 “~~し、”相邻的第二划分单元候选“~~し、”。

划分点调整单元22还计算这两个划分单元候选的长度之和,并确定 该长度之和“80”小于最大输入长度“100”。

划分点调整单元22移除位于这两个划分单元候选之间的划分点候选, 并将已通过联合上述两个划分单元候选所获得的划分单元候选“~~ し、~~し、”(长度为“80”)设置为新的处理目标。该结果如图6e 所示。

划分点调整单元22选择下一个相邻的划分单元候选“さらに~~す る。”(长度为“80”)。此次,所要处理的划分单元候选的和是“160”, 超过了最大输入长度“100”。相应地,划分点调整单元22将划分单元候 选“~~し、~~し、”(长度为“80”)确立为“被处理的”划分单元候 选,并选择下一个尚待处理的划分单元候选“さらに~~する。”(长度 为“80”)作为新的处理目标。

由于该划分单元候选的长度小于最大输入长度“100”,并且不存在 尚待处理的相邻划分单元候选,划分点调整单元22将所获得的划分点候 选确立为最终选择并产生划分点。

划分点调整单元22以递归方式返回过程,发现不存在尚待处理的划 分单元候选。因此,其逐一确立所有所获得的划分点候选,并产生对应的 划分点。

最后,划分单元23使用所获得的划分点对输入的句子进行划分,并 输出得到的4个划分单元:“~~~する。”、“~~~するので、”、 “~~し、~~し、”和“さらに~~する。”。

虽然以优选的示例实施例和示例为例对本发明进行了描述,应当意识 到:本发明不限于这样的示例实施例和示例,相反,可以在不背离其技术 原理的前提下以各种修改方案予以实现。

相关申请的交叉引用

本申请基于并要求于2009年3月30日递交的日本专利申请No. 2009-081431的优先权,其公开内容全部被并入于此作为参考。

工业实用性

根据本发明的语言分析装置能够适用于各种应用,包括语法分析装置 和机器翻译装置,所述语法分析装置对以第一语言描述的文档进行语法分 析以输出每个句子的句法,所述机器翻译装置将以第一语言(某一语言) 描述的文档翻译成第二语言(另一语言)。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号