首页> 中国专利> 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序

语句结构向量化装置、语句结构向量化方法及语句结构向量化程序

摘要

语句结构向量化装置(100)具有:词素分析部(110),其对输入语句进行词素分析,由此生成多个词素;依赖分析部(120),其对多个词素进行依赖分析,由此生成与多个词素相关的依存结构图;以及语句结构向量化部(130),其从依存结构图中提取多个部分结构信息,将与多个部分结构信息对应的词素串转换成数值序列,由此生成语句结构向量。

著录项

  • 公开/公告号CN113330430A

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 三菱电机株式会社;

    申请/专利号CN201980086927.2

  • 发明设计人 伍井启恭;

    申请日2019-01-31

  • 分类号G06F16/00(20060101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人马建军;邓毅

  • 地址 日本东京都

  • 入库时间 2023-06-19 12:24:27

说明书

技术领域

本发明涉及语句结构向量化装置、语句结构向量化方法及语句结构向量化程序。

背景技术

由于万维网(World Wide Web)的普及扩大,积累有以自然语言记述的大量电子化文本(以下也称作“文本”)。因此,从积累的文本中找出希望的文本的全文检索技术、结合记述内容对积累的文本进行分类的文档分类技术等的重要性不断提高。例如,在全文检索技术中,基于输入的查询文本(即,提问语句文本)与检索对象文本之间的内容相似度,决定检索对象文本的排序(即,位次)。另外,在文档分类技术中,基于文本间的内容相似度,将各文本分类成多个类别中的任意一个。

为了求出文本间的内容相似度即文本中包含的语句间的语义相似度,已知有从文本中提取被称作概念向量的特征量的技术。例如,专利文献1提出有如下系统:对文本进行词素分析,提取内容词(即,词条),并且生成基于词条的索引,将各词条作为根据文本内的重要度加权后的词条向量进行处理,通过对词条向量进行合成而得到的向量来表现各文本的特征量。在检索时,使用对加权后的词条向量进行合成而得到的检索查询向量,计算查询文本与检索对象文本的相似度。相似度例如是2个向量所成的角的余弦即余弦(cosine)相似度。但是,在该方法中,由于使用通过词素分析得到的各个词条来构成向量,因此,存在以下问题:即使是彼此的语义不同的文本,对于内容词组(Bag-of-Words:BoW,词袋模型)相同的文本,也判定为相似度高。

为了解决该问题,专利文献2提出有如下方法:通过对文本的结构进行依赖分析,将文本的结构转换成带标签的顺序树(即,依存结构树),将该依存结构树的部分结构作为特征量进行向量化。但是,近年来,已知并列结构等语句的语义结构不能利用依存结构树来充分地表现。

为了解决该问题,非专利文献1提出有使用依赖图结构(dependency graph)来表现语句的语义结构的方法。

现有技术文献

专利文献

专利文献1:日本特开2002-14970号公报

专利文献2:日本特开2003-271599号公报

非专利文献

非专利文献1:Schuster、Sebastian以及另外1名,“Enhanced English UniversalDependencies:An Improved Representation for Natural Language UnderstandingTasks”,LREC Stanford University,ID 779,2016年

非专利文献2:Marie-Catherine de Marneffe以及另外1名,“Stanford typeddependencies manual”,Revised for the Stanford Parser v.3.7.0,2016年9月

发明内容

发明要解决的课题

然而,在从依赖图结构中提取作为其部分结构的部分图的情况下,提取出的部分图的数量对应于依赖图结构的大小而呈指数函数地增加,因此,存在用于文本结构向量化的计算量增大的问题。

本发明正是为了解决上述课题而完成的,提供一种能够以较少的计算量适当地对语句结构进行向量化的语句结构向量化装置、语句结构向量化方法及语句结构向量化程序。

用于解决课题的手段

本发明一个方式的语句结构向量化装置的特征在于,具有:词素分析部,其对输入语句进行词素分析,由此生成多个词素;依赖分析部,其对所述多个词素进行依赖分析,由此生成与所述多个词素相关的依存结构图;以及语句结构向量化部,其从所述依存结构图中提取多个部分结构信息,将与所述多个部分结构信息对应的词素串转换成数值序列,由此生成语句结构向量。

本发明另一方式的语句结构向量化方法的特征在于,具有以下步骤:对输入语句进行词素分析,由此生成多个词素;对所述多个词素进行依赖分析,由此生成与所述多个词素相关的依存结构图;以及从所述依存结构图中提取多个部分结构信息,将与所述多个部分结构信息对应的词素串转换成数值序列,由此生成语句结构向量。

发明效果

根据本发明,能够以较少的计算量适当地对语句结构进行向量化。

附图说明

图1是表示本发明实施方式1的语句结构向量化装置的硬件结构的例子的图。

图2是表示实施方式1的语句结构向量化装置的硬件结构的另一例的图。

图3是概略地表示实施方式1的语句结构向量化装置的结构的功能框图。

图4是表示实施方式1的语句结构向量化装置的动作的流程图。

图5是表示输入到实施方式1的语句结构向量化装置的输入语句的例子的图。

图6是表示由实施方式1的语句结构向量化装置的词素分析部执行的词素分析的结果的例子的图。

图7是表示由实施方式1的语句结构向量化装置的依赖分析部执行的依赖分析的结果的例子的图。

图8是以图结构表示图7所示的依赖分析结果的图。

图9是表示存储器中存储的N元语法编号1~4的词素信息的图。

图10的(a)~(d)是表示通过对与提取出的2个词素相关的信息赋予重编号词素编号和重编号依赖编号而生成的信息的图。

图11是表示存储器中存储的N元语法编号1~7的词素信息的图。

图12是表示在部分图由2个词素构成时的处理中使用的2词素结构编号与重编号依赖编号的对应关系的图。

图13的(a)~(e)是表示通过将从图10的(a)~(d)所示的信息中提取出的信息合并而生成的信息的图。

图14是表示存储器中存储的N元语法编号1~10的词素信息的图。

图15是表示在部分图由3个词素构成时的处理中使用的3词素结构编号与重编号依赖编号的对应关系的图。

图16是表示从图9~图15的信息中提取出的与语句结构向量化相关的信息的例子的图。

图17是概略地表示本发明实施方式2的语句结构向量化装置的结构的功能框图。

具体实施方式

以下,参照附图对本发明实施方式的语句结构向量化装置、语句结构向量化方法及语句结构向量化程序进行说明。在各图中,对相同的结构要素标注相同的标号。此外,以下的实施方式只不过是示例,能够在本发明的范围内进行各种变更。例如,能够适当组合各实施方式的结构。另外,在本申请中,使用非专利文献1、2中示出的用词。

实施方式1

首先,对本发明实施方式1的语句结构向量化装置100的结构进行说明。图1是表示实施方式1的语句结构向量化装置100的硬件结构的例子的图。在图1所示的例子中,语句结构向量化装置100例如具有存储作为软件的程序(即语句结构向量化程序)的存储器20和作为执行存储器20中存储的程序的运算处理部的处理器10。处理器10是CPU(CentralProcessing Unit:中央处理单元)等信息处理电路。存储器20例如是RAM(Random AccessMemory:随机存取存储器)等易失性的存储装置。语句结构向量化装置100例如是计算机。

实施方式1的语句结构向量化程序从记录信息的记录介质经由介质信息读取装置(未图示)或经由能够与互联网等连接的通信接口(未图示)被存储到存储器20。实施方式1的语句结构向量化程序能够由处理器10执行。另外,实施方式1的语句结构向量化方法能够通过执行存储器20中存储的语句结构向量化程序的处理器10来实现。

语句结构向量化装置100也可以具有连接鼠标、键盘、触摸面板等作为用户操作部的输入装置的输入接口30。另外,语句结构向量化装置100也可以具有连接显示图像的显示装置的输出接口40。另外,语句结构向量化装置100也可以具有存储各种信息的HDD(HardDisk Drive:硬盘驱动器)、SSD(Solid State Drive:固态驱动器)等存储装置50。存储装置50也可以是语句结构向量化装置100的外部存储装置。在语句结构向量化装置100具有用于与外部装置进行通信的通信接口(未图示)的情况下,存储装置50也可以是存在于能够经由通信接口连接的云上的存储装置。

图2是表示实施方式1的语句结构向量化装置100的硬件结构的另一例的图。在图2所示的例子中,语句结构向量化装置100具备处理电路60、具有输入接口的输入电路70、具有输出接口的输出电路80和存储装置50。处理电路60例如是专用的硬件。处理电路60也可以包含通过读出并执行存储器中存储的程序来实现各部的功能的处理器。另外,也可以通过专用的硬件实现处理电路60的一部分,通过包含执行软件或固件的处理器的电路来实现处理电路60的另一部分。

图3是概略地表示实施方式1的语句结构向量化装置100的结构的功能框图。如图3所示,语句结构向量化装置100具有词素分析部110、依赖分析部120和语句结构向量化部130。另外,语句结构向量化装置100也可以具有存储已生成的语句结构向量的存储部140。存储部140例如可以是图1或图2中的存储器20、存储装置50或它们双方。

词素分析部110接收包含多个输入语句的文本即查询文本,通过词素分析对多个输入语句的各个语句进行分割。该处理也被称作词素分割。词素分析部110输出多个词素作为词素分析的结果。“词素”是具有语义的表现要素的最小单位。用于进行词素分割的处理能够使用公知技术来执行。输入语句的例子在后述的图5中示出。词素的例子在后述的图6中示出。

依赖分析部120分析与从词素分析部110输出的各输入语句相关的多个词素中的依赖即依存结构。依赖分析部120输出依存结构信息作为依存结构的分析结果。“依存结构”表示语句的句法结构,通过语句内的词素间的依存关系的集合来表现由多个词素构成的词素串的结构。词素间的依存关系也称作词素间的依赖关系。用于进行依赖分析的处理能够使用公知的技术来执行。依存结构的例子在后述的图7中示出。

语句结构向量化部130接收从依赖分析部120输出的与各输入语句相关的依存结构信息,生成与依存结构对应的语句结构向量。

接着,说明实施方式1的语句结构向量化装置100的动作。图4是表示实施方式1的语句结构向量化装置100的动作的流程图。另外,图5是表示语句结构向量化装置100接收的输入语句的例子的图。该输入语句的例子“The boy who lived(活下来的男孩)”是从非专利文献1的第4页左栏示出的例子中引用的。

《步骤S101:词素分析》

在步骤S101中,当图5所示的输入语句200被输入到词素分析部110时,词素分析部110对输入语句200即文本进行词素分析,输出词素分析的结果。

图6是表示由词素分析部110执行的词素分析的结果的例子的图。在图6中示出4个词素。在图6所示的词素分析的结果210中,左起第2列示出词素的例子,左起第1列示出赋予给第2列所示的词素的词素编号。在图6中,第2列利用标题表面形式(即,小写字符统一字符串)来表示。

《步骤S102:依赖分析》

在接下来的步骤S102中,当图6所示的词素分析的结果210被输入到依赖分析部120时,依赖分析部120进行针对词素分析结果210的依赖分析。

图7是表示由依赖分析部120执行的依赖分析的结果的例子的图。图7中的第1列和第2列的信息与图6中的第1列和第2列的信息相同。在图7中,第3列表示依赖编号,第4列表示依赖关系。在此,“依赖编号”表示依赖中的中心词(head)的词素编号。另外,“依赖关系”是标签。关于依赖编号以及依赖关系,例如在非专利文献2中进行说明。

在图7中,依赖关系“det”表示限定词(determiner)。依赖关系“nsubj”表示形式主语(nominal subject)。依赖关系“ref”表示指示对象(referent)。“acl”表示名词的从句修饰词(clausal modifier of noun)。“relcl”表示关系从句(relative clause)。依赖关系“acl:relcl”表示名词的关系从句修饰词(relative clause modifier of noun)。

图8是以图结构表示图7所示的依赖分析结果的图。该图结构也称作“依赖结构”或“依存结构图”。在图8中,“lived”将“boy”修饰为“nsubj”,“boy”将“lived”修饰为“acl:relcl”。即,“boy”和“lived”相互修饰,在图结构255内形成环结构。因此,图8所示的依赖结构不能利用无法表现环结构的以往树结构来适当地处理。

《步骤S103:提取一元语法》

图9是表示按照字符顺序对词素信息1进行排序而得到的信息的图,词素信息1是图7所示的词素和依赖关系的对的信息。在此,字符顺序是字母顺序。语句结构向量化部130按照字符顺序对作为词素与依赖关系的对的信息的词素信息1进行排序,对词素信息1赋予N元语法编号。N为正整数。N元语法编号以1为起始点(即,从1开始计数),如图9所示,按照升序赋予。在图9中示出N=1的情况即一元语法的情况。一元语法表示unigram。图9所示的信息被存储到存储器(例如,图1中的存储器20或存储装置50)。例如,词素信息“boy.nsubj”是由词素“boy”与依赖关系“nsubj”的对构成的词素信息。通过以上的处理,将图9所示的N元语法编号1~4的信息300存储到存储器。

《步骤S104:提取2词素结构信息》

图10的(a)~(d)是表示通过对与提取出的2个词素相关的信息赋予重编号词素编号和重编号依赖编号而生成的信息的图。语句结构向量化部130进行从输入语句的各词素中提取处于依赖关系的2个词素的信息的处理。对输入语句的全部词素进行该处理。在此,说明对图7所示的词素编号1~4的词素进行该处理的情况。

在图7中,词素编号1的词素“the”的依赖编号为“2”。因此,语句结构向量化部130如图10的(a)中作为信息230所示,提取与处于依赖关系的词素编号1的词素“the”和词素编号2的词素“boy”相关的2个信息,对它们赋予作为从1开始的序列号的重编号词素编号。

重编号词素编号在图10的(a)的第1列示出。如图10的(a)所示,语句结构向量化部130将与图7的信息220中的词素编号1的信息以及词素编号2的信息相同的信息作为词素编号、词素、依赖编号以及依赖关系存储到存储器。

重编号依赖编号在图10的(a)的第2列示出。在图7中针对词素编号1的“the”的依赖编号是“2”,因此,语句结构向量化部130参照词素编号2的“boy”的重编号词素编号。由于该重编号词素编号是“2”,因此,语句结构向量化部130将作为相同数值的“2”作为重编号依赖编号存储到存储器。

另外,图7中针对词素编号2的“boy”的依赖编号是“4”,因此,语句结构向量化部130搜索词素编号4。但是,图10的(a)所示的信息230不存在词素编号4,因此,语句结构向量化部130将表示没有依赖对象的符号“*”作为词素编号2的“boy”的重编号依赖编号存储到存储器。

语句结构向量化部130对图7所示的词素编号2~4的各个词素进行与以上相同的处理,生成图10的(b)~(d)所示的信息240、250、260,将生成的信息240、250、260存储到存储器。

《步骤S105:提取二元语法》

图11是表示通过语句结构向量化部130根据图10的(a)~(d)所示的信息生成的信息的图。语句结构向量化部130将如下信息追加到在N元语法编号为一元语法编号时存储的信息中并存储到存储器,该信息是根据图10的(a)~(d)所示的信息230、240、250、260中的各个信息,按照字符顺序对2个词素的作为词素与依赖关系的对的信息的词素信息进行排序而得到的。在图11中示出N=2的情况即二元语法的情况。二元语法表示bigram。

在实施方式1中,如图9所示,在N元语法编号为一元语法编号时,已经将N元语法编号1~4的信息存储到存储器。因此,语句结构向量化部130在N元语法编号为二元语法编号时,将N元语法编号5以后的信息存储到存储器。与N元语法编号为一元语法编号时同样地,语句结构向量化部130将重编号词素编号1的词素和依赖关系的信息存储在词素信息1的列中,将重编号词素编号2的词素和依赖关系的信息存储在词素信息2的列中。如图11所示,语句结构向量化部130将N元语法编号5、6、7的信息存储到存储器。通过以上的处理,将图11所示的N元语法编号1~7的信息310存储到存储器。

《步骤S106:提取N形态结构信息》

接下来,语句结构向量化部130设作为处理对象的词素的数量为N来进行处理。例如,在设N为3以上的整数时,多个部分结构信息包含与1个词素相关的1词素结构信息~与N个词素相关的N词素结构信息,语句结构向量化部130通过合并N-1词素结构信息和2词素结构信息的处理来生成N词素结构信息。

在实施方式1中,为了简单,对进行至N=3为止的处理的情况进行说明。为了处理N个词素,使用N-1个词素的词素结构信息(即,N-1词素结构信息)和2个词素的词素结构信息(即,2词素结构信息)。在此,由于生成3个词素结构信息,因此,使用N-1词素结构信息(即,2词素结构信息)和2词素结构信息。语句结构向量化部130对图10的(a)~(d)中的全部N-1(=2)词素结构信息进行以下的处理。

图13的(a)~(e)是表示通过合并从图10的(a)~(d)所示的信息中提取出的信息而生成的信息的图。语句结构向量化部130着眼于图10的(a)的信息230的词素编号1和词素编号2来进行处理。语句结构向量化部130进行如下检索:是否存在能够成为图10的(a)的信息230的结合对象的其他2词素结构的信息。在图10的(a)的信息230和图10的(b)的信息240中,作为不同的词素编号,存在词素编号1、3,作为共同的词素编号,存在词素编号2,并且,词素编号2的重编号依赖编号为“*”。因此,这些信息230、240能够结合,即能够合并。因此,语句结构向量化部130对重编号词素编号2的行进行合并,生成图13的(a)的信息270,使存储器存储与3个词素相关的词素结构信息(即,3词素结构信息)。在此,“合并”是指按照规定的规则将多个信息合并成1个。

同样地,在图10的(a)所示的信息230和图10的(c)所示的信息250中,作为不同的词素编号,存在词素编号1、4,作为共同的词素编号,存在词素编号2。但是,图10的(a)所示的词素编号2的重编号依赖编号为“*”,与此相对,图10的(c)所示的词素编号2的重编号依赖编号为“2”。因此,语句结构向量化部130对词素编号2的行进行合并。此时,如图10的(c)所示,用于结合的重编号依赖编号2的依赖编号为“4”,因此,语句结构向量化部130采用图10的(c)的信息250的合并后的重编号词素编号“3”作为重编号依赖编号来进行合并,由此生成图13的(b)所示的信息280。该信息280作为3词素结构信息被追加存储到存储器。通过重复同样的处理,生成图13的(c)~(e)所示的3词素结构信息。

《步骤S107:提取N元语法》

图14是表示通过语句结构向量化部130根据N个对的信息生成的信息的图。在图14中示出N=3的情况即三元语法的情况。三元语法表示trigram。在图14中,N个对的信息是词素信息1~3。语句结构向量化部130通过按照字符顺序进行排序,作为N元语法编号追加存储到按照N-1元语法存储的存储器。接着,语句结构向量化部130将对如下信息赋予N元语法编号而得到的信息追加到图11所示的信息中并存储到存储器,该信息是按照字符顺序对图13的(a)~(e)所示的词素与依赖关系的N个对的信息进行排序而得到的。

在实施方式1中,如图14所示,在N元语法编号为二元语法编号时,已经将N元语法编号1~7的信息存储到存储器。因此,语句结构向量化部130将N元语法编号为“8”以后的信息存储到存储器。即,除了图9所示的N元语法编号为一元语法编号时存储的N元语法编号1~4的信息以及图11所示的N元语法编号为二元语法编号时存储的N元语法编号5~7的信息以外,语句结构向量化部130还将图14所示的N元语法编号为三元语法编号时存储的N元语法编号8~10的信息存储到存储器。具体而言,语句结构向量化部130将图13的(a)~(e)中的重编号词素编号1的词素和依赖关系的信息存储在词素信息1的列中,将重编号词素编号2的词素和依赖关系的信息存储在词素信息2的列中,将重编号词素编号3的词素和依赖关系的信息存储在词素信息3的列中。通过以上的处理,将图14所示的N元语法编号1~10的信息320存储到存储器。

《步骤S108:结束判定》

在接下来的步骤S108中,语句结构向量化部130判定针对全部语句的处理是否已结束。如果针对全部语句的处理已完成,则判断为“是”,处理进入步骤S109,如果处理未完成,则判断为“否”,使N增加1,处理返回步骤S106。

《步骤S109:输出语句结构向量》

图16是表示从图9~图15的信息中提取出的与语句结构向量化相关的信息的例子的图。图16示出由语句结构向量化部130提取出的、相对于向量维度的向量值Vk。语句结构向量化部130将由向量值Vk构成的数值序列作为语句结构向量输出。

在步骤S109中,语句结构向量化部130从词素结构信息中提取语句结构向量。

在图16的维度1~4中,示出从依存结构图中提取出的部分结构即部分图由1个词素构成时的向量值Vk。N元语法编号1~4的词素信息构成词素串并被存储到存储器。此时的词素结构编号(即,1词素结构编号)通过基于1个词素且1种词素的N-1=1-1=0的计算,如图16所示,全部成为“0”。

接着,在图16的维度5~8中,示出从依存结构图中提取出的部分结构即部分图由2个词素构成时的向量值Vk。N元语法编号5~7的词素信息构成词素串并被存储到存储器。由于N元语法编号5的词素结构是图10的(c)中的信息250和图10的(d)中的信息260这2个信息,因此,根据图12的信息285求出词素结构编号(在此,2词素结构编号),并记录各自的词素编号“0”、“1”。以下,关于维度6、7、8,进行与维度5的情况相同的处理。在此,图12是表示在部分图由2个词素构成时的处理中使用的2词素结构编号与重编号依赖编号的对应关系的图。

接着,在图16的维度9~13中,示出从依存结构图中提取出的部分结构即部分图由3个词素构成时的向量值Vk。N元语法编号8~10的词素信息构成词素串并被存储到存储器。由于N元语法编号8的词素结构是图13的(d)中的信息300和图13的(e)中的信息310这2个信息,因此,根据图15的信息315求出词素结构编号(在此,3词素结构编号),并记录各自的词素编号“4”、“7”。以下,对于维度10、11、12、13,进行与维度9的情况相同的处理。在此,图15是表示在部分图由3个词素构成时的处理中使用的3词素结构编号与重编号依赖编号的对应关系的图。

在实施方式1中,图16所示的各维度中的词素结构编号的出现个数全部为1,因此,向量值Vk全部为1。向量化部130将具有相对于该结果维数的Vk值的向量作为语句结构向量输出。输出的语句结构向量被存储到存储部140。

如以上说明的那样,如果使用实施方式1的语句结构向量化装置100、语句结构向量化方法或者语句结构向量化程序,则能够将依赖结果的依存结构图展开成适于自然语言的语言约束的部分结构。例如,除了现实中不可能存在的依赖之外,能够从依存结构图中提取部分图作为部分结构,使用这样的部分图来生成语句结构向量。因此,能够生成与语句的语义对应的适当的语句结构向量。

另外,在实施方式1中,通过渐进地合并词素结构的处理,能够减少要处理的词素结构的组合数量。并且,通过在不搜索循环的图结构的情况下决定性地提取部分结构,能够以较少的计算量生成语句结构向量。

另外,在上述说明中,说明了在输入语句中出现的部分结构存在1个以上的情况,省略表示不存在部分结构的情况的向量值Vk即0,从而削减信息量。因此,能够削减存储器要求的存储容量。但是,输出的语句结构向量也可以包含表示不存在部分结构的情况的0的向量值。

另外,在上述说明中,说明了向语句结构向量化装置100的输入语句为英语的情况,但输入语句也可以是日语、韩语等的后向依赖语言。在后向依赖语言的情况下,语句结构向量化装置100也可以通过进行删除现实中不可能存在的词素结构编号的处理,来削减计算量以及存储器要求的存储容量。

实施方式2

在上述实施方式1中,说明了对输入语句进行向量化的语句结构向量化装置100。在实施方式2中,说明能够使用由上述实施方式1的语句结构向量化装置100生成的语句结构向量进行文档检索或文档分类的语句结构向量化装置100a。根据语句结构向量化装置100a,能够进行以往无法辨别的高精度的文档检索或文档分类。

图17是概略地表示本发明实施方式2的语句结构向量化装置100a的结构的功能框图。实施方式2的语句结构向量化装置100a、语句结构检索方法以及语句结构检索程序能够通过与图1或图2所示的硬件结构相同的硬件结构来实现。实施方式2的语句结构向量化装置100a能够通过变更实施方式1的语句结构向量化装置100执行的程序来实现。

如图17所示,语句结构向量化装置100a具有向量化部500、似然度计算部520和排序决定部530。向量化部500是实施方式1的语句结构向量化装置100。语句结构向量化装置100a也可以具有存储检索对象文档的检索对象文档存储部510和存储候选文档的候选文档存储部540。另外,语句结构向量化装置100a也可以具有进行语句检索处理的检索处理部550、进行语句分类处理的分类处理部560或者它们双方。在语句结构向量化装置100a具有检索处理部550的情况下,语句结构向量化装置100a是文档检索装置。在语句结构向量化装置100a具有分类处理部560的情况下,语句结构向量化装置100a是文档分类装置。在图17中,似然度计算部520、排序决定部530、检索处理部550以及分类处理部560构成进行基于语句结构向量的处理的处理部570。

向量化部500进行如下处理:使用向量空间模型,对作为包含输入语句的文本的查询文本和检索对象文档存储部510中存储的检索对象文档的文本进行向量化。例如,向量化部500根据查询文本和检索对象文档的文本的各个文本内的tfidf等重要度,生成针对各文本中包含的词条的加权后的向量。在此,“tfidf”是Term Frequency-Inverse DocumentFrequency(出现频率、逆文档频度)的缩写。tfidf是评价文档的文本中包含的词条的重要度的公知方法。向量化部500通过合成针对各文本中包含的词条的加权后的向量,取得各文本的向量即语句结构向量。

接着,似然度计算部520根据已取得的2个向量所成的角的余弦即余弦相似度,计算查询文本与检索对象文档的文本的似然度。

接着,排序决定部530根据由似然度计算部520计算出的似然度,将按照似然度从高到低的顺序对检索对象文档进行排序后的候选文档输出到候选文档存储部540。

检索处理部550能够使用基于语句结构向量得到的似然度,从检索对象文档中检索希望的文档。

另外,分类处理部560能够使用基于语句结构向量得到的似然度,将检索对象文档中包含的语句分类成多个类别。

根据以上说明的语句结构向量化装置100a,能够实现高精度的文档检索或者文档分类。

标号说明

100、100a:语句结构向量化装置;110:词素分析部;120:依赖分析部;130:语句结构向量化部;140:存储部;500:向量化部;510:检索文档存储部;520:似然度计算部;530:排序决定部;540:候选文档存储部;550:检索处理部;560:分类处理部;570:处理部。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号