首页> 中国专利> 要点抽出装置以及要点抽出方法

要点抽出装置以及要点抽出方法

摘要

本发明提供从文档中抽出要点的要点抽出装置以及要点抽出方法。本发明的目的在于提供能够从文档中抽出恰当的要点的要点抽出装置以及要点抽出方法。输入单元输入文档。分析单元生成表示在构成输入的文档的句子中包含的多个单词以及这些单词间的修饰关系的结构树。抽出单元,在通过判定单元判定为在存储单元中存储的线索词包含在句子中的情况下,对于结构树应用与线索词对应的抽出规则,抽出表示句子的要点的部分结构树。

著录项

  • 公开/公告号CN103324653A

    专利类型发明专利

  • 公开/公告日2013-09-25

    原文格式PDF

  • 申请/专利号CN201310068363.4

  • 发明设计人 新田早织;加纳敏行;

    申请日2013-03-04

  • 分类号G06F17/30;G06F17/27;

  • 代理机构北京银龙知识产权代理有限公司;

  • 代理人许静

  • 地址 日本东京都

  • 入库时间 2024-02-19 20:39:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-12-28

    授权

    授权

  • 2013-10-30

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130304

    实质审查的生效

  • 2013-09-25

    公开

    公开

说明书

本申请基于先前在2012年3月21日递交的日本专利申请2012-064373, 并享受其优先权的好处;其全部内容被收容于本申请中,以资参考。

技术领域

本发明涉及从文档中抽出要点的要点抽出装置以及要点抽出方法。

背景技术

一般,例如在产品支持中心等中,为了分析顾客的要求等,需要确认每 一个蓄积的询问文档(记述来自该顾客的询问的文档),掌握该询问中的重要 的内容。

因此,考虑例如通过抽出与表示询问的谓语(例如“教えて”)有关的句 节,自动地抽出询问文档中的要点。此外,像表示询问的谓语那样,把为了在 文档中抽出要点而成为线索的词称为线索词。

如上所述,通过抽出与表示询问的谓语那样的线索词有关的句节,能够 抽出询问文档中的要点。

但是,在把这样的方法应用在其他的文档(例如记述对于询问的回答的 回答文档等)的情况下,不一定能够抽出适当的要点。

例如,在回答文档中包含“××すると○○できる。”这样的句子的情况 下,作为在相应回答文档中的回答的要点,希望抽出“××”的部分。

具体说,在包含“プリンタをUSBケ-ブルでパソコンと繫ぐとパソコ ンのデ-タの印刷ができます。”这样的句子的回答文档的情况下,该回答文 档中应该抽出的回答的要点是“プリンタをUSBケ-ブルでパソコンと繫ぐ”。

但是,在把上述的回答文档中的线索词例如设为“できる”的情况下, 从该回答文档中抽出的要点成为涉及该线索词“できる”的句节“パソコンの デ-タの印刷ができます”,不适当。

亦即,如上述仅简单地抽出涉及线索词的句节,有时不能抽出适当的要 点。

发明内容

本发明要解决的课题在于,提供能够从文档中抽出适当的要点的要点抽 出装置以及要点抽出方法。

本实施方式的要点抽出装置具有存储单元、输入单元、分析单元、判定 单元、和抽出单元。

存储单元,对应地存储线索词以和用于从包含该线索词的句子中抽出要 点的抽出规则,线索词表示成为用于从构成文档的句子中抽出要点的线索的至 少一个单词。

输入单元,用于输入由包含用户指定的多个单词的句子构成的文档。

分析单元,通过分析构成上述输入的文档的句子,生成表示在该句子中 包含的多个单词以及这些单词间的修饰关系的结构树。

判定单元,根据上述生成的结构树,判定在上述存储单元中存储的线索 词是否包含在构成上述输入的文档的句子中。

抽出单元,在判定为在上述存储单元中存储的线索词包含在构成上述输 入的文档的句子中的情况下,对于上述生成的结构树应用与该线索词对应在上 述存储单元中存储的抽出规则,从该结构树中抽出表示该句子的要点的部分结 构树。

根据上述结构的要点抽出装置,能够从文档中抽出适当的要点。

附图说明

图1是表示实施方式的要点抽出装置的硬件结构的框图。

图2是表示图1表示的要点抽出装置30的主要功能结构的框图。

图3是表示本实施方式的要点抽出装置30的处理过程的流程图。

图4是表示使用表示两个节点以及这些节点间的修饰关系的弧线表现的 依存结构树的图。

图5是表示“一郎が速いボ-ルを軽々投げた”这样的句子的依存结构 树的一例的图。

图6是表示对应关系存储部22的数据结构的一例的图。

图7是表示对应关系存储部22的数据结构的一例的图。

图8是表示通过句子结构分析部32生成的第一句“プリンタを買う予定 ですが、スキャナ-とコピ-機の一体型を探しています。”的依存结构树的 一例的图。

图9是用于具体说明对于第一句的依存结构树应用第一抽出规则的情况 的图。

图10是表示从第一句的依存结构树中抽出的表示第一句的要点的部分结 构树的图。

图11是表示通过句子结构分析部32生成的第二句“性能や價格を考え ると、別々に買うことをお勧めします。”的依存结构树的一例的图。

图12是用于具体说明对于第二句的依存结构树应用了第一抽出规则的情 况的图。

图13是表示从第二句的依存结构树中抽出的表示第二句的要点的部分结 构树的图。

图14是表示通过句子结构分析部32生成的第三句“プリンタをUSBケ -ブルでパソコンと繫ぐとパソコンのデ-タの印刷ができます。”的依存结 构树的一例的图。

图15是用于具体说明对于第三句的依存结构树应用了第二抽出规则的情 况的图。

图16是表示从第三句的依存结构树中抽出的表示第三句的要点的部分结 构树的图。

具体实施方式

下面参照附图说明实施方式。

(第一实施方式)

图1是表示实施方式的要点抽出装置的硬件结构的框图。如图1所示, 计算机10例如与硬盘驱动器(HDD:hard Disk Drive)那样的外部存储装置 20连接。该外部存储装置20存储通过计算机10执行的程序21。计算机10 以及外部存储装置20构成要点抽出装置30。

要点抽出装置30具有从文档(构成文档的句子)中抽出该文档中的重要 的内容(以下记为要点)的功能。

图2是表示图1表示的要点抽出装置30的主要功能结构的框图。如图2 所示,要点抽出装置30包含输入部31、句子结构分析部32、线索词判定部 33、要点抽出部34以及输出部35。在本实施方式中,假定这些各部31~35 通过图1表示的计算机10执行在外部存储装置20中存储的程序21实现。该 程序21可以在计算机可读的存储介质内预先存储和发布。另外,该程序21 例如也可以通过网络向计算机10下载。

另外,要点抽出装置30包含存储部。在本实施方式中,存储部例如在外 部存储装置20中存储。

在该存储部中,对应地存储线索词以及用于从包含该线索词的句子中抽 出要点的抽出规则,该线索词表示成为用于从构成文档的句子中抽出要点的线 索的至少一个单词。具体说,存储部包含对应关系存储部22以及抽出规则存 储部23。

在对应关系存储部22中,对应地存储上述线索词以及对于与该线索词对 应的抽出规则(用于从包含该线索词的句子中抽出要点的抽出规则)分配的抽 出规则号码(识别信息)。也就是说,在对应关系存储部22中,存储线索词和 抽出规则的对应关系(表示对应关系的信息),此外,在对应关系存储部22 中,存储与表示文档的类别或内容的每一观点对应的线索词(不同观点的线索 词)。

此外,在对应关系存储部22中,也可以对于文档的每一观点准备多个线 索词。

在抽出规则存储部23中,与对应关系存储部22中存储的抽出规则号码 对应地,存储分配了该抽出规则号码的抽出规则。为从构成文档的句子中抽出 要点,把抽出规则存储部23中存储的抽出规则用于该文档。

输入部31,与用户的操作对应地,输入通过该用户指定的文档。通过输 入部31输入的文档例如由包含多个单词的句子构成。另外,输入部31还输入 用户指定的文档(通过输入部31输入的文档)的观点(表示观点的信息)。在 用户指定的文档例如是关于询问的文档的情况下,作为观点输入“询问”。另 一方面,在用户指定的文档例如是关于对于询问的回答的文档的情况下,作为 观点输入“回答”。此外,该文档的观点,例如由用户指定。

句子结构分析部32对于构成通过输入部31输入的文档的句子进行句子 结构分析。由此,句子结构分析部32生成表示构成通过输入部31输入的文档 的句子中包含的多个单词以及这些单词间的修饰关系的结构树(以下记为依存 结构树)。此外,在由多个句子构成通过输入部31输入的文档的情况下,句子 结构分析部32为每一个相应的句子生成依存结构树。

线索词判定部33从对应关系存储部22中取得与通过输入部31输入的文 档的观点对应的线索词。线索词判定部33,根据句子结构分析部32生成的依 存结构树,判定在该依存结构树的生成中使用的句子(亦即构成通过输入部 31输入的文档的句子)中,是否包含取得的线索词。

要点抽出部34,确定与通过线索词判定部33取得的线索词(通过线索词 判定部33判定为在构成输入部31输入的文档的句子中包含的线索词)对应地 在对应关系存储部22中存储的抽出规则号码。要点抽出部34从抽出规则存储 部23中抽出分配有确定的抽出规则号码的抽出规则。

要点抽出部34,通过对于通过句子结构分析部32生成的依存结构树应用 取得的抽出规则,从该依存结构树中抽出表示该句子的要点的部分结构树(亦 即结构树形式的要点)。

输出部35把通过要点抽出部34抽出的部分结构树例如变换为纯文本形 式。输出部35输出从通过要点抽出部34抽出的部分结构树变换后的句子(纯 文本形式的要点)。

接着参照图3的流程图,说明本实施方式的要点抽出装置30的处理过程。

首先,输入部31根据用户的操作,输入通过用户指定的文档以及该文档 的观点(步骤S1)。通过输入部31输入的文档,例如由包含多个单词的多个 句子构成。另外,以纯文本的形式通过输入部31输入。以下把通过输入部31 输入的文档称为输入文档。

接着对于构成输入文档的各个句子执行以下的步骤S2~S8的处理。

此时,句子结构分析部32从构成输入文档的句子中取得一个句子(步骤 S2)。以下把在步骤S2取得的句子称为对象句。

句子结构分析部32对于取得的对象句进行句子结构分析(步骤S3)。句 子结构分析部32通过句子结构分析,生成表示对象句中包含的多个单词以及 该单词间的修饰关系的依存结构树。此外,根据一个句子(对象句)生成一个 依存结构树。下面把通过对对象句进行句子结构分析生成的依存结构树简称为 对象句的依存结构树。

这里详细说明通过句子结构分析部32生成的依存结构树。在依存结构树 中,使用节点以及弧线表现在该依存结构树的生成中使用的句子中包含的多个 单词以及这些单词间的修饰关系。也就是说在依存结构树中包含节点以及弧 线。

节点在依存结构树中表示单词。此外,在本实施方式中,假定在通过节 点表示的单词中包含独立词(词类是名词以及动词等的词)以及连接助词(词 类是连接助词的词)。

对节点赋予标题词、词类以及附属词。对节点赋予的标题词,表示通过 该节点表示的单词的文字串。

对节点赋予的词类,表示通过该节点表示的单词的词类。此外,在对节 点赋予的词类中,例如包含名词、サ变名词、动词、形容词、副词以及连体词 那样的独立词的词类或者连接助词。

对节点赋予的附属词,表示通过该节点表示的单词附带的词。在对节点 赋予的附属词中,例如包含“が”、“を”、“の”以及“に”那样的助词等,但 是在本实施方式中,因为连接助词包含在通过节点表示的单词中,所以连接助 词不包含在附属词中。

弧线表示在依存结构树中节点间的句子结构上的修饰关系。对于该弧线 赋予节点间(独立词间或者独立词以及连接助词间)的修饰关系的种类。在对 弧线赋予的独立词间的修饰关系的种类中例如包含ガ格、ヲ格、连体修饰、连 用修饰以及邻接等。另外,在对弧线赋予的独立词以及连接助词间的修饰关系 的种类中包含从属连接(关系)以及从属连接修饰(关系)等。此外,在依存 结构树中,弧线例如通过箭头记述。假定该弧线的箭头,从节点间的修饰关系 中的修饰源的节点朝向修饰目标的节点。

以下在使用一条弧线表示的两个节点间的修饰关系中把该弧线的修饰目 标的节点(亦即成为一条弧线中的终点的节点)称为父节点。另一方面,在使 用一条弧线表示的两个节点间的修饰关系中把该弧线的修饰源的节点(亦即成 为一条弧线中的始点的节点)称为子节点。

图4表示使用表示两个节点以及这些节点间的修饰关系的弧线表现的依 存结构树。此外,在图4表示的依存结构树中,省略对节点赋予的标题词、词 类以及附属词。同样,省略对弧线赋予的节点间的修饰关系的种类。

在图4的依存结构树中,节点101以及节点102通过弧线103连接。在 图4表示的例子中,节点101是父节点,节点102是子节点。

通过组合图4所示那样的依存结构树,表现包含多个单词(独立词以及 连接助词)的句子的句子结构分析结果(亦即依存结构树)。

这里参照图5更具体地说明依存结构树。图5表示“一郎が速いボ-ル を軽々投げた”这样的句子的依存结构树(通过对于该句进行句子结构分析生 成的依存结构树)的一例。在图5表示的依存结构树中,使用节点111~115 以及弧线121~124表现“一郎が速いボ-ルを軽々投げた”这样的句子的句 子结构分析结果。

在图5表示的依存结构树中,对于节点111~115赋予标题词、词类以及 附属词。例如对于节点112,赋予了标题词“一郎”、词类“名词”以及附属词“が”。此外,例如根据和其他节点的关系,有时像节点111那样不赋予附 属词。

另外,在图5表示的依存结构树中,对于弧线121~124,赋予了节点间 的修饰关系的种类。例如对于弧线121,作为节点111以及112之间的修饰关 系的种类赋予了ガ格。

此外,根据该依存结构树中的通过弧线与其他节点连接的方法,将依存 结构树中包含的节点分为根节点、中间节点以及叶节点三种节点。

所谓根节点,是不存在父节点(亦即不通过弧线连接父节点)的节点。 所谓中间节点,是父节点以及子节点存在(亦即通过弧线连接父节点以及子节 点)的节点。另外,所谓叶节点,是不存在子节点(亦即不通过弧线连接子节 点)的节点。

在图5的依存结构树中,节点111是根节点。节点113是中间节点。另 外,节点112、114以及115是叶节点。

再次返回图3,针对对应关系存储部22中存储的线索词中的,与输入文 档的观点对应的各个线索词执行以下的步骤S4~S7的处理。

在这种情况下,线索词判定部33从对应关系存储部22中取得与输入文 档的观点对应的一个线索词(步骤S4)。此外,将在后面详细叙述通过线索词 判定部33取得的线索词。下面把在步骤S4取得的线索词称为对象线索词。

接着,线索词判定部33根据通过句子结构分析部32生成的对象句子的 依存结构树,判定在对象句子中是否包含对象线索词(亦即在对象句子中是否 有对象线索词)(步骤S5)。

在判定为对象句子中不包含对象线索词的情况下(步骤S5否),执行后 述的步骤S8的处理。

另一方面,在判定为对象句子中包含对象线索词的情况下(步骤S5是), 要点抽出部34取得与该对象线索词对应在对应关系存储部22中存储的抽出规 则号码。由此,要点抽出部34把分配有取得的抽出规则号码的抽出规则决定 为用于从对象句子中抽出要点的抽出规则。

在这种情况下,要点抽出部34取得与取得的抽出规则号码对应在对应规 则存储部23中存储的抽出规则(亦即分配有该抽出规则号码的抽出规则)(步 骤S6)。

要点抽出部34,通过对于对象句子的依存结构树应用取得的抽出规则, 从该对象句子的依存结构树中抽出表示该对象句子的要点的部分结构树(依存 结构树形式的要点)(步骤S7)。在这种情况下,要点抽出部34通过遵照取得 的抽出规则切断在对象句子的依存结构树中包含的弧线,分割该对象句子的依 存结构树,抽出部分结构树。此外,将在后面详细叙述通过要点抽出部34抽 出部分结构树的抽出处理。

接着对于与输入文档的观点对应的全部线索词判定是否已执行了上述步 骤S4~S7的处理(步骤S8)。

在判定为尚未对于全部线索词执行处理的情况下(步骤S8否),返回上 述步骤S4重复处理。在这种情况下,在步骤S4,取得与输入文档的观点对应 的线索词中的,尚未执行上述步骤S4~S7的处理的线索词。

另一方面,在判定为对于全部线索词已执行了处理的情况下(步骤S8的 是),判定对于构成输入文档的全部句子是否已执行上述步骤S2~S8的处理 (步骤S9)。

在判定为尚未对于全部句子执行处理的情况下(步骤S9否),返回上述 步骤S2重复处理。在这种情况下,在步骤S2,取得构成输入文档的多个句子 中的,没有执行上述步骤S2~S8的处理的句子。

另一方面,在判定为对于全部句子已执行处理的情况下(步骤S9是), 输出部35,通过把在上述步骤S7中抽出的部分结构树(表示对象句子的要点 的部分结构树)变换为纯文本形式,生成该对象句子的要点(表示该要点的句 子)。这样生成的要点,通过输出部35输出(步骤S10)。

此外,在如上述通过重复处理从一个输入文档抽出多个部分结构树的情 况下,输出对于该抽出的每一个部分结构树生成的要点。

如上述在本实施方式的要点抽出装置30中,通过把从构成输入文档的句 子中抽出的部分结构树变换为纯文本形式,能够抽出输入文档的要点。

这里,说明了对于在对象句子中是否包含在对应关系存储部22中存储的 线索词进行判定,但是例如也可以构成为,通过预先准备好类似词辞典等,判 定在对象句子中是否包含与该线索词类似的词。由此,即使在对应关系存储部 22中存储的线索词不包含在对象句子中的情况下,也能够从该对象句子中抽 出要点。

另外,如上述在对于一个观点在对应关系存储部22中存储多个线索词的 情况下,也可以从一个句子(对象句)中抽出多个要点(表示要点的部分结构 树)。

另外,对于用户指定的文档的观点是一个的情况进行了说明,但是该用 户指定的文档的观点也可以是多个。在这种情况下,只要对于文档的每一观点 执行上述图3表示的处理即可。由此,即使在一个文档中包含多个观点的情况 下,也能够抽出与相应的每一观点对应的要点。

下面具体说明本实施方式的要点抽出装置30的处理。

这里,图6以及图7表示图2表示的对应关系存储部22的数据结构的一 例。如上述在对应关系存储部22中,对应地存储与文档的观点对应的线索词 以及与该线索词对应的抽出规则号码(亦即给用于从包含该线索词的句子中抽 出要点的抽出规则被分配的抽出规则号码)。此外,假定在文档的观点中例如 包含“询问”以及“回答”。

图6表示与文档的观点“询问”对应的线索词以及与该线索词对应的抽 出规则号码。图7表示与文档的观点“回答”对应的线索词以及与该线索词对 应的抽出规则号码。

如图6以及图7所示,线索词例如以包含表示一个独立词的节点、或者 包含表示多个独立词的节点以及表示这些节点间的修饰关系的弧线的结构树 的形式存储在对应关系存储部22中。

在图6表示的例子中,在对应关系存储部22中,作为与文档的观点“询 问”对应的线索词,存储赋予了标题词“知りたい”以及词类“动词”的节点。 下面把赋予了标题词“知りたい”以及词类“动词”的节点(线索词)称为第 一线索词。另外,在对应关系存储部22中,与该第一线索词对应存储抽出规 则号码“1”。

在图6表示的例子中,在对应关系存储部22中,作为与文档的观点“询 问”对应的线索词,存储被赋予了标题词“探しています”以及词类“动词” 的节点(线索词)。下面把赋予了标题词“探しています”以及词类“动词” 的节点(线索词)称为第二线索词。另外,在对应关系存储部22中,与该第 二线索词对应存储抽出规则号码“1”。

另一方面,在图7表示的例子中,在对应关系存储部22中,作为与文档 的观点“回答”对应的线索词,存储把赋予了标题词“お勧めします”以及词 类“动词”的节点作为父节点,把赋予了标题词“こと”以及词类“形式名词” 的节点作为子节点、通过赋予了修饰关系的种类“ヲ格”的弧线在这些节点间 进行连接后的依存结构树。下面把赋予了标题词“お勧めします”以及词类“动 词”的节点作为父节点、把赋予了标题词“こと”以及词类“形式名词”的节 点作为子节点、把通过赋予了修饰关系的种类“ヲ格”的弧线在该节点间连接 后的依存结构树(线索词)称为第三线索词。另外,在对应关系存储部22中, 与该第三线索词对应地存储抽出规则号码“1”。

另外,在图7表示的例子中,在对应关系存储部22中,作为与文档的观 点“回答”对应的线索词,存储赋予了标题词“できます”以及词类“动词” 的节点。下面把赋予了标题词“できます”以及词类“动词”的节点(线索词) 称为第四线索词。另外,在对应关系存储部22中,与该第四线索词对应地存 储抽出规则号码“2”。

此外,后面说明分配了在图6以及图7表示的例子中与第一~第三线索 词对应地在对应关系存储部22中存储的抽出规则号码“1”的抽出规则(下面 表记为第一抽出规则)以及分配有与第四线索词对应地在对应关系存储部22 中存储的抽出规则号码“2”的抽出规则(下面表记为第二抽出规则)的细节。

在以下的说明中,对于对应关系存储部22具有在图6以及图7中表示的 数据结构这样的事实进行说明。

在本实施方式的要点抽出装置30中,从构成文档的句子中抽出要点,但 是,这里对于从后述的第一~第三句中抽出要点的情况分别说明。

首先说明从第一句中抽出要点的情况。假定第一句是“プリンタを買う 予定ですが、スキャナ-とコピ-機の一体型を探しています。”另外,假定 由第一句构成的文档的观点是“询问”。

在通过输入部31输入了这样的第一句(由第一句构成的文档)的情况下, 句子结构分析部32对该第一句进行句子结构分析。由此,句子结构分析部32 生成第一句的依存结构树。

这里,图8表示通过句子结构分析部32生成的第一句“プリンタを買う 予定ですが、スキャナ-とコピ-機の一体型を探しています。”的依存结构 树的一例。此外,关于图8表示的依存结构树的细节,因为和使用上述的图4 以及图5说明的相同,所以省略其详细的说明。

接着,线索词判定部33取得与第一句构成的文档的观点“询问”对应的 线索词。这里,取得图6表示的第一以及第二线索词。

线索词判定部33,判定取得的第一以及第二线索词是否包含在图8表示 的第一句的依存结构树中(亦即在第一句的依存结构树中是否有与第一以及第 二线索词一致的部分)。

这里,第一线索词如上述是被赋予了标题词“知りたい”以及词类“动 词”的节点。在这种情况下,因为在图8表示的第一句的依存结构树中不包含 这样的第一线索词,所以判定为第一线索词不包含在第一句的依存结构树中。 此外,在判定为第一线索词不包含在第一句的依存结构树中的情况下,结束关 于该第一线索词的处理。

另一方面,第二线索词如上述是被赋予了标题词“探しています”以及 词类“动词”的节点。这里,在图8表示的第一句的依存结构树中,包含被赋 予了标题词“探しています”以及词类“动词”的节点。在这种情况下,判定 为在第一句的依存结构树中包含第二线索词。

这样,在判定为在第一句的依存结构树中包含第二线索词的情况下,要 点抽出部34,从抽出规则存储部23中取得分配有与该第二线索词对应地在对 应关系存储部22中存储的抽出规则号码“1”的抽出规则(第一抽出规则)。

在这种情况下,要点抽出部34,通过对于第一句的依存结构树应用取得 的第一抽出规则,从该第一句的依存结构树中抽出表示该第一句的要点的部分 结构树。

这里具体说明第一抽出规则。在第一抽出规则中,着眼在依存结构树中 包含的线索词(与第一抽出规则被分配的抽出规则号码对应地在对应关系存储 部22中存储的线索词),根据该线索词分割该依存结构树,由此抽出表示要点 的部分结构树。

具体说,根据第一抽出规则,切断将线索词和其他节点连接的弧线中的, 被赋予了从属连接以外的修饰关系的种类的弧线,由此把依存结构树分割为两 个部分结构树,提取该分割后的两个部分结构树中的、将通过该被切断的弧线 与线索词连接的表示独立词的节点作为根节点的部分结构树,来作为表示要点 的部分结构树。

这里参照图9具体说明对于上述的第一句的部分结构树应用第一抽出规 则的情况。

如图9所示,在第一句的依存结构树中,第二线索词(赋予了标题词“探 しています”以及词类“动词”的节点),用弧线与被赋予了标题词“が”以 及词类“连接助词”的节点(下面简记为“が”节点)连接。另外,在第一句 的依存结构树中,第二线索词用弧线与被赋予了标题词“一体型”以及词类“名 词”的节点(下面简记为“一体型”节点)连接。

对于第二线索词和“が”节点之间的弧线,作为修饰关系的种类赋予了 “从属连接”。另外,对于第二线索词和“一体型”节点之间的弧线,作为修 饰关系的种类赋予了“ヲ格”。

这里,根据上述第一抽出规则,如图9所示,切断被赋予了从属连接以 外的修饰关系的种类的弧线。此时,第二线索词和“一体型”节点之间的弧线 (被赋予了修饰关系的种类“ヲ格”的弧线)被切断。

由此,第一句的依存结构树,被分割为把第二线索词作为根节点的部分 结构树和把通过切断的弧线与第二线索词连接的“一体型”节点作为根节点的 部分结构树的两个部分结构树。

在这种情况下,抽出第一句的依存结构树被分割后的两个部分结构树中 的,把“一体型”节点作为根节点的部分结构树(亦即包含“一体型”节点的 部分结构树),来作为表示第一句的要点的部分结构树。

亦即,在对于第一句(的依存结构树)应用了第一抽出规则的情况下, 抽出把通过从属连接以外的修饰关系(弧线)与第二线索词连接的表示独立词 的节点(这里,作为第二线索词的子节点的“一体型”节点)作为根节点的部 分结构树,来作为表示第一句的要点的部分结构树。

此外,图10表示从第一句的依存结构树中抽出的表示第一句的要点的部 分结构树(把“一体型”节点作为根节点的部分结构树)。

图10所示的表示第一句的要点的部分结构树,如上述被变换为纯文本形 式。例如通过在从该部分结构树的叶节点向根节点的方向上,依次结合该各节 点被赋予的标题词以及附属词,来进行部分结构树向纯文本形式的变换。具体 说,图10表示的部分结构树被变换为“スキャナ-とコピ-機の一体型”这 样的句子。此外,把图10表示的部分结构树变换后的句子“スキャナ-とコ ピ-機の一体型”,作为第一句(由第一句构成的文档)的要点通过输出部35 输出。

接着说明从第二句中抽出要点的情况。假定第二句是“性能や價格を考 えると、別々に買うことをお勧めします。”另外,假定由第二句构成的文档 的观点是“回答”。

在通过输入部31输入了这样的第二句(由第二句构成的文档)的情况下, 句子结构分析部32对于该第二句进行句子结构分析。由此,句子结构分析部 32生成第二句的依存结构树。

这里,图11表示通过句子结构分析部32生成的第二句“性能や價格を 考えると、別々に買うことをお勧めします。”的依存结构树的一例。此外, 关于图11表示的依存结构树的细节,因为和上述使用图4以及图5说明的内 容相同,所以省略其详细的说明。

接着,线索词判定部33,取得与第二句构成的文档的观点“回答”对应 的线索词。这里,取得图7中表示的第三以及第四线索词。

线索词判定部33,判定取得的第三以及第四线索词是否包含在图11表示 的第二句的依存结构树中(亦即是否在第二句的依存结构树中具有与第三以及 第四线索词一致的部分)。

这里,如上所述,第三线索词是把被赋予了标题词“お勧めします”以 及词类“动词”的节点(以下简记为“お勧めします”节点)作为父节点、把 被赋予了标题词“こと”以及词类“形式名词”的节点(以下简记为“こと” 节点)作为子节点、在这些节点间通过被赋予了修饰关系的种类“ヲ格”的弧 线连接后的依存结构树。这里,在图11表示的第二句的依存结构树中,包含 “お勧めします”节点以及“こと”节点。另外,在图11表示的第二句的依 存结构树中,包含把“お勧めします”节点作为父节点,把“こと”节点作为 子节点的、被赋予了修饰关系的种类“ヲ格”的弧线。在这种情况下,判定 为第三线索词包含在第二句的依存结构树中(亦即,第三线索词是第二句的依 存结构树的部分结构树)。

另一方面,如上所述,第四线索词是被赋予了标题词“できます”以及 词类“动词”的节点。在这种情况下,因为在图11表示的第二句的依存结构 树中不包含这样的第四线索词,所以判定为第四线索词不包含在第二句的依存 结构树中。此外,在判定为第四线索词不包含在第二句的依存结构树中的情况 下结束关于该第四线索词的处理。

在如上述判定为第三线索词包含在第二句的依存结构树中的情况下,要 点抽出部34从抽出规则存储部23中抽出与该第三线索词对应地在对应关系存 储部22中存储的被分配了抽出规则号码“1”的抽出规则(第一抽出规则)。

在这种情况下,要点抽出部34,通过对于第二句的依存结构树应用取得 的第一抽出规则,从该第二句的依存结构树中抽出表示该第二句的要点的部分 结构树。此外,关于第一抽出规则,因为和上述相同,所以省略其详细的说明。

这里,参照图12,具体说明上述对于第二句的依存结构树应用第一抽出 规则的情况。

此外,根据第一抽出规则,如上所述切断连接线索词和其他节点的弧线, 但是如第三线索词那样在包含多个节点的情况下,切断连接该多个节点中的任 何一个节点和其他节点的弧线。

如图12所示,在第二句的依存结构树中,第三线索词(把“お勧めしま す”节点作为父节点、把“こと”节点作为子节点、通过被赋予了修饰关系的 种类“ヲ格”的弧线将这些节点间连接的依存结构树)中的作为父节点的“お 勧めします”节点,通过弧线与被赋予了标题词“と”以及词类“连接助词” 的节点(以下简记为“と”节点)连接。另外,在第二句的依存结构树中,第 三线索词中的子节点的“こと”节点,通过弧线与被赋予了标题词“買う”以 及词类“动词”的节点(以下简记为“買う”节点)连接。

对于第三线索词中的父节点的“お勧めします”节点和“と”节点之间 的弧线,作为修饰关系的种类赋予了“从属连接”。另外,对于第三线索词中 的子节点的“こと”节点和“買う”节点之间的弧线,作为修饰关系的种类赋 予了“连体修饰”。

这里,根据上述第一抽出规则,如图12所示,切断了被赋予了从属连接 以外的修饰关系的种类的弧线。在这种情况下,切断与第三线索词中的子节点 的“こと”节点间的弧线(被赋予了修饰关系的种类“连体修饰”的弧线)。

由此,第二句的依存结构树,被分割为把作为第三线索词的父节点的“お 勧めします”节点设为根节点的部分结构树和把通过被切断的弧线和作为第三 线索词的子节点的“こと”节点连接的“買う”节点作为根节点的部分结构树 的这两个部分的部分结构树。

在这种情况下,抽出第二句的依存结构树被分割后的两个部分结构树中 的,把“買う”节点作为根节点的部分结构树(亦即包含“買う”节点的部分 结构树),来作为表示第二句的要点的部分结构树。

即,在对于第二句(的依存结构树)应用了第一抽出规则的情况下,抽 出把通过从属连接以外的修饰关系(弧线)与第三线索词(中包含的各节点) 连接的表示独立词的节点(这里是第三线索词中的“こと”节点的子节点的 “買う”节点)作为根节点的部分结构树,来作为表示第二句的要点的部分结 构树。

此外,图13表示从第二句的依存结构树中抽出的表示第二句的要点的部 分结构树(把“買う”节点作为根节点的部分结构树)。

图13表示的表示第二句的要点的部分结构树,如上述被变换为纯文本形 式。如上述例如通过从该部分结构树的叶节点向根节点的方向,依次结合该各 节点赋予被赋予的标题词以及附属词,来进行部分结构树向纯文本形式的变 换。具体说,图13表示的部分结构树被变换为“別々に買う”。此外,图13 表示的部分结构树被变换后的句子“別々に買う”,作为第二句(构成的文档) 的要点通过输出部35输出。

接着说明从第三句抽出要点的情况。假定第三句是“プリンタをUSBケ -ブルでパソコンと繫ぐとパソコンのデ-タの印刷ができます。”。另外,假 定由第三句构成的文档的观点是“回答”。

在这样的第三句(构成的文档)通过输入部31输入的情况下,句子结构 分析部32对该第三句进行句子结构分析。由此,句子结构分析部32生成第三 句的依存结构树。

这里,图14表示通过句子结构分析部32生成的第三句“プリンタをUSB ケ-ブルでパソコンと繫ぐとパソコンのデ-タの印刷ができます。”的依存 结构树的一例。此外,关于图14表示的依存结构树的细节,因为和上述使用 图4以及图5说明的相同,所以省略其详细的说明。

接着,线索词判定部33取得与第三句构成的文档的观点“回答”对应的 线索词。这里,取得图7表示的第三以及第四线索词。

线索词判定部33,判定取得的第三以及第四线索词是否包含在图14表示 的第三句的依存结构树中(亦即是否在第三句的依存结构树中有与第三以及第 四线索词一致的部分)。

这里,第三线索词如上述,是把赋予了标题词“お勧めします”以及词 类“动词”的节点作为父节点、把赋予了标题词“こと”以及词类“形式名词” 的节点作为子节点、在这些节点间通过赋予了修饰关系的种类“ヲ格”的弧线 连接后的依存结构树。在这种情况下,因为在图14表示的第三句的依存结构 树中不包含这样的第三线索词,所以判定为第三线索词不包含在第三句的依存 结构树中。此外,在判定为第三线索词不包含在第三句的依存结构树中的情况 下,结束关于该第三线索词的处理。

另一方面,第四线索词如上述,是被赋予了标题词“できます”以及词 类“动词”的节点。这里,在图14表示的第三句的依存结构树中,包含被赋 予了标题词“できます”以及词类“动词”的节点。在这种情况下,判定为第 四线索词包含在第三句的依存结构树中。

这样,在判定为第四线索词包含在第三句的依存结构树中的情况下,要 点抽出部34,从抽出规则存储部23中取得与该第四线索词对应地在对应关系 存储部22中存储的分配了抽出规则号码“2”的抽出规则(第二抽出规则)。

在这种情况下,要点抽出部34,通过对于第三句的依存结构树应用取得 的第二抽出规则,从该第三句的依存结构树中抽出表示该第三句的要点的部分 结构树。

这里具体说明第二抽出规则。在第二抽出规则中,和上述第一抽出规则 同样,着眼在依存结构树中包含的线索词(与第二抽出规则被分配的抽出规则 号码对应地在对应关系存储部22中存储的线索词),根据该线索词分割该依存 结构树,抽出表示要点的部分结构树。

具体说,根据第二抽出规则,确定通过作为修饰关系的种类被赋予了从 属连接的弧线(第一弧线)与线索词(第一节点)连接的表示连接助词的节点 (第二节点),确定通过作为修饰关系的种类被赋予了从属连接修饰的弧线(第 二弧线)与该确定的节点连接的表示独立词的节点(第二节点),通过切断被 赋予了该从属连接修饰的弧线把依存结构树分割为两个部分结构树,抽出该分 割后的两个部分结构树中的不包含线索词的部分结构树(亦即包含该第三节点 的部分结构树)作为表示要点的部分结构树。

这里,参照图15,具体说明对于上述第三句的依存结构树应用第二抽出 规则的情况。

如图15所示,在第三句的依存结构树中,第四线索词(赋予了标题词“で きます”以及词类“动词”的节点),通过弧线连接了被赋予了标题词“と” 以及词类“连接助词”的节点(以下简记为“と”节点)。另外,在第三句的 依存结构树中,第四线索词,通过弧线与被赋予了标题词“印刷”以及词类“名 词”的节点(下面简记为“印刷”节点)连接。

对于第四线索词和“と”节点之间的弧线,作为修饰关系的种类赋予了 “从属连接”。另外,对于第四线索词和“印刷”节点之间的弧线,作为修饰 关系的种类赋予了“ガ格”。

根据上述第二规则,确定通过赋予了从属连接的弧线与第四线索词连接 的表示连接助词的“と”节点(第四线索词的子节点)。另外,在第三句的依 存结构树中,如此确定的“と”节点,通过弧线与被赋予了标题词“繫ぐ”以 及词类“动词”的节点(以下简记为“繫ぐ”节点)连接。此外,对于“と” 节点和“繫ぐ”节点之间的弧线,作为修饰关系的种类赋予了“从属连接修饰”。

在这种情况下,根据上述第二抽出规则,确定通过作为修饰关系的种类 赋予了从属连接修饰的弧线与“と”节点连接的表示独立词(这里是动词)的 “繫ぐ”节点(“と”节点的子节点)。

这里,根据第二抽出规则,如图15所示,切断连接“と”节点和“繫ぐ” 节点(该“と”节点的子节点)的弧线(作为修饰关系的种类赋予了从属连接 修饰的弧线)。

由此,第三句的依存结构树,被分割为把第四线索词作为根节点的部分 结构树和把“繫ぐ”节点作为根节点的部分结构树的两个部分结构树。

在这种情况下,抽出将第三句的依存结构树分割后的两个部分结构树中 的,以“繫ぐ”节点作为根节点的部分结构树(即包含“繫ぐ”节点的部分结 构树),来作为表示第三句的要点的部分结构树。

即,在对第三句应用第二抽出规则的情况下,抽出把通过从属连接的修 饰关系(弧线)与第四线索词连接的表示连接助词的子节点(这里是“と”节 点)进一步通过从属连接修饰的修饰关系(弧线)所连接的子节点(这里“繫 ぐ”节点)作为根节点的部分结构树,来作为表示第三句的要点的部分结构树。

此外,图16表示从第三句的依存结构树中抽出的表示第三句的要点的部 分结构树(把“繫ぐ”节点作为根节点的部分结构树)。

图16表示的第三句的依存结构树,如上述被变换为纯文本形式。如上述 例如通过从该部分结构树的叶节点向根节点的方向,依次结合该各节点被赋予 的标题词以及附属词,进行部分结构树向纯文本形式的变换。此外,在如图 16所示对于根节点存在三个子节点的情况下,只要按照在第三句中出现的顺 序结合标题词以及附属词即可。

具体说,图16表示的部分结构树,被变换为“プリンタをUSBケ-ブル でパソコンと繫ぐ”这样的句子。此外把图16表示的部分结构树变换后的句 子“プリンタをUSBケ-ブルでパソコンと繫ぐ”,作为第三句(构成的文档) 的要点通过输出部35输出。

如上述在本实施方式中,输入用户指定的由包含多个单词的句子构成的 文档,分析构成该输入的文档的句子,由此生成表示在该句子中包含的多个单 词以及这些单词间的修饰关系的依存结构树,在根据该生成的依存结构树,判 定在对应关系存储部22中存储的线索词包含在构成该输入的文档的句子中 时,对于该生成的依存结构树应用被赋予了与该线索词对应地在对应关系存储 部22中存储的抽出规则号码的抽出规则,从该依存结构树中抽出表示该句的 要点的部分结构树的结构,能够从文档中抽出恰当的要点。

亦即,在本实施方式中,通过预先决定恰当的线索词和抽出规则的对应 关系,能够抽出各种结构的句子(构成的文档)中的要点。

另外,在本实施方式中,在对应关系存储部22中存储的线索词包含表示 多个单词以及这些单词间的修饰关系的依存结构树,把在该线索词中包含的依 存结构树作为部分结构树,判定是否包含在生成的依存结构树中,由此与把线 索词仅作为一个单词等的情况比较,能够使用更适当的抽出规则抽出要点。

另外,在本实施方式中,通过对于生成的依存结构树应用第二抽出规则, 在该依存结构树中,确定通过表示从属连接关系的第一弧线与线索词(第一节 点)连接的表示连接助词的第二节点,确定通过表示从属连接修饰关系的第二 弧线与该确定的第二节点连接的表示独立词的第三节点,通过切断该第二弧线 把结构树分割为两个部分结构树,抽出该分割后的两个部分结构树中的,包含 该确定的第三节点的部分结构树,来作为表示构成输入的文档的句子的要点的 部分结构树,由此即使在线索词和要抽出的要点之间不存在直接的修饰关系的 情况下,也能够恰当地抽出要点。

另外,在本实施方式中,通过在对应关系存储部22以及抽出规则存储部 23中,对应地存储与表示文档的类别或者内容的文档的每一观点(询问以及 回答等)对应的线索词以及用于从包含这些线索词的句子中抽出要点的抽出规 则,输入用户指定的文档的观点,判定与该输入的文档的观点对应的线索词是 否包含在构成该文档的句子中,由此能够使用与用户指定的文档的观点对应的 线索词所对应的抽出规则抽出要点,所以能够抽出更恰当的要点。

如上述在本实施方式中,因为能够从各种各样的文档(例如询问文档或 者回答文档等)中抽出要点,所以例如与仅从询问文档中抽出要点那样的情况 比较,能够扩大询问及其回答集(FAQ)的制作等的该抽出的要点的利用范围。

说明了本发明的几种实施方式,但是这些实施方式的意图是作为例子提 示,而不限定发明的范围。这些实施方式可以用其他各种各样的形式实施,在 不脱离发明的要点的范围内,能够进行各种省略、置换、变更。当这些实施方 式或其变形在发明的范围或者要点内包含时,同样在权利要求的范围内记载的 发明及其等价的范围内包含。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号