首页> 中国专利> 关联词登记装置、信息处理装置以及关联词登记方法

关联词登记装置、信息处理装置以及关联词登记方法

摘要

本发明提供关联词登记装置、信息处理装置以及关联词登记方法。接收用户输入的检索字的检索查询,按照接收顺序将所接收到的检索查询存储到检索查询存储单元中,根据预先设定的检索查询提取条件,从检索查询存储单元中提取接收顺序比所接收到的检索查询早的先前的检索查询,将构成所提取出的先前的检索查询的先前的检索字和构成所接收到的检索查询的检索字,作为字符串组存储到字符串组存储单元中;根据预先设定的字符串组提取开始条件,从字符串组存储单元中提取先前的检索字相同或相似的字符串组,根据预先设定的登记条件,从所提取出的字符串组确定作为关联词的字符串组,在关联词数据库中登记所确定的字符串组作为关联词。

著录项

  • 公开/公告号CN103279557A

    专利类型发明专利

  • 公开/公告日2013-09-04

    原文格式PDF

  • 申请/专利权人 乐天株式会社;

    申请/专利号CN201310231780.6

  • 发明设计人 平手勇宇;

    申请日2011-11-07

  • 分类号G06F17/30;

  • 代理机构北京三友知识产权代理有限公司;

  • 代理人李辉

  • 地址 日本东京都

  • 入库时间 2024-02-19 20:08:03

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-17

    授权

    授权

  • 2013-10-09

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20111107

    实质审查的生效

  • 2013-09-04

    公开

    公开

说明书

本申请是申请日为2011年11月7日,申请号为201180053722.8,发明名称为“关 联词登记装置、信息处理装置、关联词登记方法、关联词登记装置用程序以及记录介 质”的发明专利申请的分案申请。

技术领域

本发明涉及登记检索关键字作为关联词的关联词登记装置、信息处理装置以及关 联词登记方法的技术领域。

背景技术

为了补充检索关键字并提高翻译等的精度,在信息检索系统、自然语言处理系统、 机械翻译系统等中利用同义词辞典这种单词数据库。研究了用于自动构建该同义词辞 典的各种装置。例如,在专利文献1中公开了如下的意思辞典登记装置:利用意思辞 典中的已经赋予了意思信息的辞典条目的信息,自动对输入辞典条目赋予意思信息。

专利文献1:日本特开2000-268035号公报

但是,在专利文献1所记载的技术中,根据输入数据和已登记的全部数据的单纯 的单词间意思的距离来判定近义,所以,近义的判定精度低,无法抑制不需要的同义 词这样的关联词的登记。因此,难以构建高精度的同义词辞典等的关联词的辞典。

发明内容

本发明是鉴于这种问题而完成的,其课题的一例的目的在于,提供能够登记高精 度的关联词的关联词登记装置等。

为了解决上述课题,第1方面所记载的发明是一种关联词登记装置,其具有:接 收单元,其接收用户输入的检索字的检索查询;检索查询存储单元,其按照接收顺序 存储所述接收到的检索查询;检索查询提取单元,其根据预先设定的检索查询提取条 件,从所述检索查询存储单元中提取接收顺序比所述接收到的检索查询早的先前的检 索查询;字符串组存储单元,其存储构成所述提取出的先前的检索查询的先前的检索 字和构成所述接收到的检索查询的检索字,作为字符串组;字符串提取单元,其根据 预先设定的字符串组提取开始条件,从所述字符串组存储单元中提取所述先前的检索 字相同或相似的字符串组;关联词确定单元,其根据预先设定的登记条件,从所述提 取出的字符串组确定作为关联词的字符串组;以及关联词登记单元,其在关联词数据 库中登记所述确定的字符串组作为关联词。

第2方面所记载的发明的特征在于,在第1方面所记载的关联词登记装置中,所 述检索查询存储单元还存储用户识别信息,作为所述检索查询提取条件,所述检索查 询提取单元提取输入了所述检索查询的用户的用户识别信息一致的所述先前的检索 查询。

第3方面所记载的发明的特征在于,在第1方面或第2方面所记载的关联词登记 装置中,作为所述检索查询提取条件,所述检索查询提取单元提取从所述检索查询的 接收时刻起规定时间内接收到的先前的检索查询。

第4方面所记载的发明的特征在于,在第1~3方面中的任意一个方面所记载的 关联词登记装置中,所述检索查询存储单元还存储类别信息,作为所述检索查询提取 条件,所述检索查询提取单元根据所述类别信息提取所述先前的检索查询。

第5方面所记载的发明的特征在于,在第1~4方面中的任意一个方面所记载的 关联词登记装置中,作为所述字符串组提取开始条件,在所述检索查询存储单元中的 检索查询数或所述字符串组集合的元素数超过规定阈值的情况下,所述字符串提取单 元提取所述字符串组。

第6方面所记载的发明的特征在于,在第1~5方面中的任意一个方面所记载的 关联词登记装置中,在满足所述字符串组提取开始条件后经过了规定时间的情况下, 所述字符串提取单元提取所述字符串组。

第7方面所记载的发明的特征在于,在第1~6方面中的任意一个方面所记载的 关联词登记装置中,作为所述登记条件,在所述先前的检索字相同或相似的字符串组 中,具有相同或相似的检索字的字符串组的数量或具有相同或相似的检索字的字符串 组的比例超过规定阈值的情况下,所述关联词确定单元确定该字符串组作为关联词。

第8方面所记载的发明的特征在于,在第1~7方面中的任意一个方面所记载的 关联词登记装置中,还具有:关联词候选集合生成单元,其根据规定条件从存储了与 检索查询有关的记录的检索查询记录中提取关联词的候选,生成关联词候选集合;部 分字符串生成单元,其根据所述检索字的字符串生成部分字符串;候选字符串提取单 元,其根据所述生成的部分字符串,从所述关联词候选集合中提取候选字符串;得分 计算单元,其根据所述候选字符串与所述检索字之间的相似度、所述候选字符串的使 用次数和基于所述候选字符串的检索的检索结果数,计算所述候选字符串的适宜性得 分;排序单元,其按照所述得分的顺序对所述候选字符串进行排序;判定基准生成单 元,其根据所述候选字符串的适宜性得分和排序,生成针对所述排序的适宜性得分的 基准线,作为是否将所述候选字符串登记为关联词的判定基准;登记字符串提取单元, 其提取所述适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作 为用于登记为关联词的登记字符串;以及关联词登记单元,其在关联词数据库中登记 所述提取出的登记字符串和所述检索字作为关联词。

第9方面所记载的发明是一种关联词登记装置的关联词登记方法,该关联词登记 装置登记关联词,该关联词登记方法包括:接收步骤,接收用户输入的检索字的检索 查询;检索查询存储步骤,对检索查询存储单元进行存储,该检索查询存储单元按照 接收顺序存储所述接收到的检索查询;检索查询提取步骤,根据预先设定的检索查询 提取条件,从所述检索查询存储单元中提取接收顺序比所述接收到的检索查询早的先 前的检索查询;字符串组存储步骤,对字符串组存储单元进行存储,该字符串组存储 单元存储构成所述提取出的先前的检索查询的先前的检索字和构成所述接收到的检 索查询的检索字,作为字符串组;字符串提取步骤,根据预先设定的字符串组提取开 始条件,从所述字符串组存储单元中提取所述先前的检索字相同或相似的字符串组; 关联词确定步骤,根据预先设定的登记条件,从所述提取出的字符串组确定作为关联 词的字符串组;以及关联词登记步骤,在关联词数据库中登记所述确定的字符串组作 为关联词。

发明效果

根据本发明,根据减少了字符数的部分字符串从关联词候选集合中提取候选字符 串,所以,能够通过候选字符串的适宜性得分来抑制不需要的关联词的登记,能够提 高关联词的精度。

附图说明

图1是示出本发明的一个实施方式的关联词登记系统的概要结构例的示意图。

图2是示出图1的关联词登记服务器的概要结构的一例的框图。

图3是示出图1的信息提供服务器的概要结构的一例的框图。

图4是示出图1的终端的概要结构的一例的框图。

图5是示出图1的关联词登记系统1的第1实施方式的动作中的、关联词登记服 务器的关联词候选集合的生成的动作例的流程图。

图6是示出图1的终端中显示的网页的一例的示意图。

图7是示出图1的关联词登记服务器中的第1实施方式的关联词的登记的动作例 的流程图。

图8是示出部分字符串的提取的一例的示意图。

图9(A)和(B)是示出排序-得分/曲线的一例的示意图。

图10是示出图1的关联词登记服务器中的计算适宜性得分的动作例的子进程的 流程图。

图11(A)~(C)是示出用于计算适宜性得分的可用性的图形的一例的线图。

图12是示出图1的关联词登记系统1的第2实施方式的动作中的、终端中显示 的网页的一例的示意图。

图13是示出图1的关联词登记服务器的检索查询记录/数据库构建的动作例的流 程图。

图14是示出图1的终端中显示的网页的一例的示意图。

图15是示出图1的关联词登记服务器的关联词的登记的动作例的流程图。

图16是示出字符串组的一例的示意图。

具体实施方式

下面,参照附图对本发明的实施方式进行说明。另外,以下说明的实施方式是针 对关联词登记系统应用本发明的情况下的实施方式。

[1.关联词登记系统的结构和功能概要]

首先,使用图1对本发明的一个实施方式的关联词登记系统的结构和概要功能进 行说明。

图1是示出本实施方式的关联词登记系统1的概要结构例的示意图。

如图1所示,关联词登记系统1具有:关联词登记服务器10(关联词登记装置 的一例),其登记关联词;信息提供服务器20,其为了实现用户利用的作为信息提供 网站的一例的购物网站(内部EC(electronic commerce,电子商务)网站的一例)运 营而设置,用于对用户提供关联词登记服务器10中登记的信息和商品的信息;以及 终端30,其供用户在信息提供服务器20中进行商品等的检索。

关联词登记服务器10和信息提供服务器20通过局域网等连接,能够相互收发数 据,构成服务器系统5。而且,服务器系统5和终端30通过网络3连接,能够根据 通信协议(例如TCP/IP)收发数据。另外,网络3例如通过因特网、专用通信线路 (例如CATV(Community Antenna Television)线路)、移动通信网(包含基站等)以 及网关等构建。

并且,关联词登记服务器10根据终端30等中的用户的检索行动等构建关联词的 数据库,支援终端30等中的用户的检索行动。

信息提供服务器20从终端30接收包含检索字的检索查询并进行检索,对终端 30发送检索结果。并且,为了构建关联词的数据库,信息提供服务器20对关联词登 记服务器10发送所接收到的检索查询。并且,信息提供服务器20作为购物网站,进 行商品的检索、商品信息的提供、广告信息的提供和商品的购入手续等。

用户的终端30存在多个。

[2.各服务器的结构和功能]

(2.1关联词登记服务器10的结构和功能)

接着,使用图2对关联词登记服务器10的结构和功能进行说明。

图2是示出关联词登记服务器10的概要结构的一例的框图。

如图2所示,作为计算机进行工作的关联词登记服务器10具有通信部11、存储 部12、输入输出接口部13、系统控制部14。而且,系统控制部14和输入输出接口 部13经由系统总线15而连接。

通信部11与网络3连接,对与终端30等的通信状态进行控制,进而,与局域网 连接,与局域网上的信息提供服务器20等的其他服务器进行数据收发。

存储部12例如由硬盘驱动等构成,存储操作系统和服务器程序等的各种程序、 数据等。另外,各种程序例如可以经由网络3从其他服务器装置等取得,也可以记录 在记录介质中并经由驱动装置(未图示)读入。

并且,在存储部12中构建存储有与从终端30接收到的检索查询有关的记录的检 索查询记录/数据库12a(以下设为“检索查询记录DB12a”。)、存储根据检索查询而生 成的关联词的候选字符串作为关联词候选集合的关联词候选数据库12b(以下设为“关 联词候选DB12b”。)、存储根据检索查询而生成的关联词的关联词数据库12c(以下 设为“关联词DB12c”。)、字符串组数据库12d(以下设为“字符串组DB12d”。)等。 另外,检索查询记录DB12a、关联词候选DB12b、关联词DB12c和字符串组DB12d 可以在服务器系统5内构建在关联词登记服务器10以外的其他服务器中,也可以构 建在服务器系统5外部。

在检索查询记录DB12a(检索查询存储单元的一例)中存储有与接收到检索查询 的接收时刻、用户ID等的用于区分用户的用户识别信息对应的检索查询。另外,作 为用户识别信息,举出购物网站等的用户ID、用户终端或访问点的识别编号、IP地 址等。进而,在信息提供服务器20中,在用户进行商品检索的情况下,还与商品所 属的商品类别、用户打开的Web页所示的商品类别等的类别信息对应地,将检索查 询存储在检索查询记录DB12a中。

在关联词候选DB12b中存储有根据规定条件从检索查询记录DB12a的检索查询 记录中提取出的关联词的候选字符串,作为关联词候选集合。

在关联词DB12c中存储有由关联词登记服务器10生成的关联词。

在字符串组DB12d(字符串组存储单元的一例)中存储有接收到的检索查询的 检索字和从检索查询记录DB12a中提取出的检索查询的检索字的字符串组。

接着,输入输出接口部13进行通信部11和存储部12与系统控制部14之间的接 口处理。

系统控制部14由CPU(Central Processing Unit)14a、ROM(Read Only Memory) 14b、RAM(Random Access Memory)14c等构成。通过由CPU14a读出ROM14b或 存储部12中存储的各种程序并执行,系统控制部14进行关联词的登记处理等。

(2.2信息提供服务器20的结构和功能)

接着,使用图3对信息提供服务器20的结构和功能进行说明。

图3是示出信息提供服务器20的概要结构的一例的框图。

如图3所示,信息提供服务器20具有通信部21、存储部22、输入输出接口部 23、系统控制部24,系统控制部24和输入输出接口部23经由系统总线25而连接。 另外,信息提供服务器20的结构和功能与关联词登记服务器10的结构和功能大致相 同,所以,以关联词登记服务器10的各结构和各功能中的不同之处为中心进行说明。

通信部21通过网络3或局域网等对与终端30或关联词登记服务器10等的通信 状态进行控制等。

在存储部22中构建商品数据库(以下设为“商品DB”。)22a和会员数据库(以 下设为“会员DB”。)22b等。

在商品DB22a中,与用于识别商品的标识符即商品ID相关联地存储有商品名、 种类、商品的图像、规格和商品信息、与各商品有关的广告信息等。并且,在商品 DB22a中存储有通过HTML(HyperText Markup Language)、XML(Extensible Markup  Language)等的标记语言等记述的商品网页的文件等。

进而,在商品DB22a中构建用于检索商品的检索数据库。商品DB22a是存储与 服务器系统5内部的EC网站中销售的商品关联的检索字的检索字存储单元的一例。

在会员DB22b中登记有进行了会员登记的用户(购物网站的利用者)的用户ID、 名称、住址、电话号码、邮件地址、职业、兴趣、购买历史、用户关心的主题和种类 (商品类别)等的用户信息。并且,在会员DB22b中登记有用户从终端30登录购物 网站时所需要的用户ID、登录ID和密码。这里,登录ID和密码是登录处理(用户 的认证处理)中使用的登录信息。

系统控制部24由CPU24a、ROM24b、RAM24c等构成。而且,通过由CPU24a 读出ROM24b和存储部22中存储的各种程序并执行,系统控制部24进行商品检索 处理、用户的商品购入处理等。

(2.3终端30的结构和功能)

接着,使用图4对终端30的结构和功能进行说明。

图4是示出终端30的概要结构的一例的框图。

如图4所示,作为计算机进行工作的终端30例如是个人计算机、包含智能手机 的便携型无线电话机、PDA等的便携终端,具有通信部31、存储部32、显示部33、 操作部34、输入输出接口部35、系统控制部36。而且,系统控制部36和输入输出 接口部35经由系统总线37而连接。

通信部31通过网络3对与信息提供服务器20等的通信进行控制。另外,在终端 30为便携终端装置的情况下,通信部31具有无线通信功能,以使得与网络3的移动 体通信网连接。

存储部32例如由硬盘驱动等构成,存储操作系统、网页浏览器的程序、网页浏 览器用工具条的程序等。

显示部33例如由液晶显示元件或EL(Electro Luminescence)元件等构成。在显 示部33中,通过网页浏览器显示检索画面的网页、从信息提供服务器20提供的商品 检索的结果的网页。

操作部34例如由键盘和鼠标等构成。用户通过操作部34输入应答。另外,在显 示部33为触摸面板这种触摸开关方式的显示面板的情况下,操作部34取得用户接触 或接近的显示部33的位置信息。

输入输出接口部35是通信部31和存储部32与系统控制部36之间的接口。

系统控制部36例如具有CPU36a、ROM36b、RAM36c。系统控制部36的CPU36a 读出ROM36b、RAM36c、存储部32中存储的各种程序并执行。例如,系统控制部 36执行网页浏览器的程序而作为网页浏览器进行工作。

[3.关联词登记系统中的第1实施方式的动作]

接着,使用图5~图11对本发明的一个实施方式的关联词登记系统1中的第1 实施方式的动作进行说明。

图5是示出关联词登记服务器10的关联词候选集合的生成的动作例的流程图。 图6是示出终端30中显示的网页的一例的示意图。图7是示出关联词登记服务器的 关联词的登记的动作例的流程图。图8是示出部分字符串的提取的一例的示意图。图 9是示出排序-得分/曲线的一例的示意图。图10是示出关联词登记服务器10中的计 算适宜性得分的动作例的子进程的流程图。图11是示出用于计算适宜性得分的可用 性的图形的一例的线图。

(3.1关联词候选集合的生成)

使用图5对关联词候选集合的生成进行说明。

首先,信息提供服务器20在从终端30接收到包含用户输入的检索字的检索查询 时进行检索,并且对关联词登记服务器10发送该检索查询。进而,信息提供服务器 20还对关联词登记服务器10发送针对检索查询的检索结果的件数。

然后,关联词登记服务器10从信息提供服务器20接收检索查询和检索结果的件 数,将检索查询与检索结果的件数对应地存储在检索查询记录DB12a中。此时,关 联词登记服务器10也可以与接收到检索查询的接收时刻、用户ID、IP地址等的用于 区分用户的用户识别信息对应地存储检索查询。

接着,如图5所示,关联词登记服务器10从检索查询记录中提取检索查询(步 骤S1)。具体而言,关联词登记服务器10的系统控制部14从检索查询记录DB12a 中提取一个检索查询。

接着,关联词登记服务器10判定是否是检索结果的件数为1件以上的检索查询 (步骤S2)。具体而言,关联词登记服务器10的系统控制部14从检索查询记录DB12a 中读出与提取出的检索查询对应的检索结果的件数,判定检索结果的件数是否为1 件以上。另外,关联词登记服务器10的系统控制部14也可以构成为,为了求出符合 检索查询的检索结果的件数,对信息提供服务器20发送所提取出的检索查询,从信 息提供服务器20接收符合件数。

在检索结果的件数为1件以上的情况下(步骤S2:是),关联词登记服务器10 在关联词候选集合中登记所提取出的检索查询(步骤S3)。具体而言,在检索结果的 件数为1件以上、即检索结果的件数不是零件的检索查询的情况下,关联词登记服务 器10的系统控制部14将该检索查询(包含作为关联词的候选字符串的检索字)作为 关联词候选集合,登记在关联词候选DB12b中。

在检索结果的件数不是1件以上的情况下(步骤S2:否),关联词登记服务器10 不在关联词候选集合中登记所提取出的检索查询。

接着,判定是否存在剩余的检索查询(步骤S4)。具体而言,关联词登记服务器 10的系统控制部14判定在检索查询记录DB12a中是否存在还未进行检索结果件数判 定的检索查询。

在存在剩余的检索查询的情况下(步骤S4:是),返回步骤S1,关联词登记服务 器10提取下一个检索查询,在不存在剩余的检索查询的情况下(步骤S4:否),结 束关联词候选集合的生成的处理。这样,关联词登记服务器10预先生成某种程度的 规模的关联词候选集合。关联词登记服务器10作为关联词候选集合生成单元的一例 进行工作,其根据规定条件从存储了与检索查询有关的记录的检索查询记录中提取关 联词的候选,生成关联词候选集合。

另外,信息提供服务器20在接收检索查询并进行检索时,在检索结果的件数不 是零件的情况下,也可以在检索查询中附加不是零件的信息并发送到关联词登记服务 器10。该情况下,关联词登记服务器10在接收到检索结果的件数不是零件的检索查 询时,将其存储在关联词候选DB12b中。

(3.2关联词的登记)

接着,使用图6~图9对关联词的登记的动作进行说明。

首先,如图6所示,在终端30的显示部33中,用户对从信息提供服务器20提 供的Web页40的检索字输入栏41输入例如“A家的餐桌”这样的检索字。点击检索 按钮42进行检索,终端30对信息提供服务器20发送包含该检索字的检索查询。接 着,在信息提供服务器20从终端30接收到包含用户输入的检索字的检索查询时,对 关联词登记服务器10发送该检索查询。

接着,如图7所示,关联词登记服务器10接收包含用户输入的检索字的检索查 询(步骤S10)。具体而言,关联词登记服务器10的系统控制部14从信息提供服务 器20通过通信部11接收检索查询。另外,如在上述关联词候选集合的生成中说明的 那样,关联词登记服务器10将接收到的检索查询存储在检索查询记录DB12a中。并 且,关联词登记服务器10也可以在满足步骤S2的条件的情况下,将检索查询登记在 关联词候选集合中。

接着,关联词登记服务器10取得检索字的字符数(步骤S11)。具体而言,关联 词登记服务器10的系统控制部14在检索查询中包含的检索字为汉字等的情况下,变 换为平假名这样的读音,或者进行罗马字变换。例如,关联词登记服务器10的系统 控制部14将“A家的餐桌”表音变换为“えいけのしょくたく”,使字符数从5个字符 增加到9个字符。进而,关联词登记服务器10的系统控制部14也可以将“えいけの しょくたく”罗马字变换为“eikenoshokutaku”,从而增加到15个字符。然后,关联词 登记服务器10的系统控制部14取得进行平假名变换或罗马字变换等的表音变换后的 检索字的字符数(例如9个字符或15个字符)。

接着,关联词登记服务器10判定检索字的字符数是否为5个字符以上(步骤 S12)。具体而言,关联词登记服务器10的系统控制部14判定表音变换后的检索字的 字符数是否为5个字符以上。

在检索字的字符数为5个字符以上的情况下(步骤S12:是),关联词登记服务 器10从检索字中提取4个字符的部分字符串(步骤S13)。具体而言,如图8所示, 关联词登记服务器10的系统控制部14针对检索字的字符串“eikenoshokutaku”,设部 分字符串的长度(Window Size)L为4,设Window的滑动宽度(Sliding Size)S为 2,生成部分字符串p1("eike")、部分字符串p2("keno")等的部分字符串并进行提 取。另外,根据部分字符串的长度L,步骤S2的阈值(5个字符)被设定为比该部 分字符串的长度L大的值。

这样,关联词登记服务器10作为根据检索字的字符串生成部分字符串的部分字 符串生成单元的一例进行工作。并且,关联词登记服务器10作为部分字符串生成单 元的一例进行工作,其根据检索字的字符数设定部分字符串的长度,生成该设定的长 度的部分字符串。并且,关联词登记服务器10作为部分字符串生成单元的一例进行 工作,其根据检索字的字符数设定生成部分字符串时的检索字的字符数的移动宽度, 以该设定的移动宽度生成部分字符串。并且,关联词登记服务器10作为针对使检索 字进行表音变换后的检索字生成部分字符串的部分字符串生成单元的一例进行工作。

接着,关联词登记服务器10从关联词候选集合中提取与部分字符串部分一致的 关联词的候选字符串(步骤S14)。具体而言,关联词登记服务器10的系统控制部14 根据图8所示的部分字符串生成检索查询Query="eike"OR"keno"OR"nosh"OR "shok"OR"okut"OR"utak",根据该检索查询,从关联词候选DB12b中提取关联词的 候选字符串。即,关联词登记服务器10的系统控制部14提取与所提取出的各部分字 符串部分一致的候选字符串。这里,部分一致是指,例如在部分字符串"eike"的情况 下,是包含"eike"的候选字符串、包含"eike"的一部分"eik"的候选字符串。这样,关联 词登记服务器10作为候选字符串提取单元的一例进行工作,其根据所生成的部分字 符串,从关联词候选集合中提取候选字符串。

并且,在检索字的字符数不是5个字符以上的情况下(步骤S12:否),关联词 登记服务器10从关联词候选集合中提取与检索字部分一致的关联词的候选字符串 (步骤S15)。具体而言,关联词登记服务器10的系统控制部14不提取部分字符串, 而从关联词候选DB12b中提取与所接收到的检索字本身或表音变换后的检索字部分 一致的候选字符串。

另外,关联词登记服务器10的系统控制部14也可以根据相似度来提取与部分字 符串或检索字相似的候选字符串。另外,作为相似度。举出Jaro-Winkler距离、莱文 斯坦距离等的字符串间的距离。

接着,关联词登记服务器10计算各关联词的候选字符串的适宜性得分(步骤 S16)。具体而言,关联词登记服务器10的系统控制部14通过后述适宜性得分子进程, 计算所提取出的各候选字符串的适宜性得分。

接着,关联词登记服务器10按照适宜性得分顺序求出排序(步骤S17)。具体而 言,关联词登记服务器10的系统控制部14进行按照适宜性得分从高到低的顺序排序 各候选字符串的处理。然后,关联词登记服务器10的系统控制部14取出上位一定数 例如上位50位的候选字符串,进一步缩小候选字符串。这样,关联词登记服务器10 作为按照得分的顺序对候选字符串进行排序的排序单元的一例进行工作。

接着,关联词登记服务器10生成适宜性得分的基准线(步骤S18)。具体而言, 关联词登记服务器10的系统控制部14根据所取出的上位的关联词的候选字符串中的 适宜性得分为上位排序的字,决定并生成基准线。更具体而言,如图9(A)所示, 在图示了针对排序的相对适宜性得分的曲线中,系统控制部14例如将对1位~n位 的适宜性得分的点进行近似的近似函数设为基准线L1。

这里,关于作为基准线的一例的近似函数,举出对数函数、指数函数、1次函数、 2次函数、3次函数等的乘幂函数、双曲线这样的圆锥曲线的函数等。近似函数只要 是对排序-得分/曲线的各点进行近似或插值的函数即可。在求解近似函数时,利用最 小二乘法等的基准即可。并且,相对适宜性得分例如是用排序1位的适宜性得分的值 去除各得分而得到的值。另外,在决定基准线L1时,也可以通过最小二乘法决定下 位的适宜性得分、50位~10位的各得分。另外,排序-得分的曲线按照适宜性得分的 排序顺序排序,所以,成为广义的递减的曲线。

这样,关联词登记服务器10作为判定基准生成单元的一例进行工作,其根据候 选字符串的适宜性得分和排序,生成针对排序的适宜性得分的基准线,作为是否将候 选字符串登记为关联词的判定基准。并且,关联词登记服务器10作为通过对排序与 适宜性得分之间的关联进行近似的近似函数求出基准线的判定基准生成单元的一例 进行工作。并且,关联词登记服务器10作为通过规定范围的排序的数据求出基准线 的判定基准生成单元的一例进行工作。

接着,关联词登记服务器10判定各适宜性得分与基准线之间的背离是否为阈值 以上(步骤S19)。具体而言,关联词登记服务器10的系统控制部14判定基准线L1 与排序1位的得分之间的差分是否为阈值以上。更具体而言,关联词登记服务器10 的系统控制部14从排序1位的适宜性得分中减去在基准线L1的式子中代入排序的值 而得到的值,计算差分。然后,如果差分为阈值θ以上,则提取候选字符串作为关联 词的登记字符串。这里,改变对适宜性得分进行调节的参数等,通过仿真,例如如基 准线的0.1倍那样,预先求出阈值。该情况下,关联词登记服务器10的系统控制部 14提取适宜性得分为基准线的1.1倍以上的候选字符串作为关联词。

这样,关联词登记服务器10作为登记字符串提取单元的一例进行工作,其提取 适宜性得分与基准线L1之间的背离为预先设定的阈值θ以上的候选字符串,作为用 于登记为关联词的登记字符串。

在各适宜性得分与基准线之间的背离为阈值以上的情况下(步骤S19:是),关 联词登记服务器10登记与基准线之间的背离为阈值以上的关联词的候选字符串作为 关联词(步骤S20)。具体而言,关联词登记服务器10的系统控制部14在各适宜性 得分与基准线之间的背离为阈值以上的情况下,在关联词DB12c中登记排序1位的 候选字符串,作为接收到的检索字的关联词的登记字符串。另外,在存在多个(例如 3个)各适宜性得分与基准线之间的背离为阈值以上的候选字符串的情况下,关联词 登记服务器10的系统控制部14不限于排序1位的候选字符串,也可以如排序1位~ 3位的候选字符串、1位和3位的候选字符串那样存储规定数的候选字符串,还可以 如排序2位那样存储规定顺位的候选字符串。这样,关联词登记服务器10作为在关 联词数据库中登记所提取出的登记字符串和检索字作为关联词的关联词登记单元的 一例进行工作。

在差分不是阈值以上的情况下(步骤S19:否),关联词登记服务器10结束处理。

接着,对所构建的关联词数据库的利用进行说明。

信息提供服务器20在根据从用户的终端30接收到的检索查询进行检索时,作为 关联词提取单元的一例,参照关联词登记服务器10的关联词DB12c,提取与检索查 询的检索字对应的关联词。例如,信息提供服务器20对关联词登记服务器10发送所 接收到的检索查询。关联词登记服务器10从信息提供服务器20接收检索查询,从关 联词DB12c中提取与检索查询的检索字对应的登记字符串。然后,关联词登记服务 器10作为关联词输出单元的一例,对信息提供服务器20发送所提取出的登记字符串 作为关联词。信息提供服务器20对终端30发送所接收到的关联词。然后,如图6 所示,终端30如“也许是‘○○▲’?”那样在关联词显示栏43中显示所接收到的关联词。 另外,也可以如“排序1的关联词”、“排序2的关联词”那样显示多个关联词。并且, 不限于检索结果的件数为零件或较少的情况,也可以显示关联词。

(3.3适宜性得分的计算的子进程)

接着,使用图10和图11对适宜性得分的计算的子进程进行说明。

在步骤S14或步骤S15中提取出关联词的候选字符串后,如图10所示,关联词 登记服务器10计算所提取出的关联词的候选字符串与检索字的距离(步骤S30)。具 体而言,关联词登记服务器10的系统控制部14例如根据式(1),计算检索字u与候 选字符串w之间的距离Distance(w,u)。

[数1]

Distance(w,u)=α·Dist(w,u)+β·Dist.Yomi(w,u)···(1)

这里,Distance(w,u)是检索字u与候选字符串w之间的距离,是表示它们以 何种程度相似的指标(相似度的一例)。另外,Dist(w,u)是候选字符串w与检索字 u之间的Jaro-Winkler距离,Dist.Yomi(w,u)是候选字符串w的读音与检索字u的 读音之间的Jaro-Winkler距离。系数α和系数β存在α+β=1的关系,在希望看重读音 时,增大系数β的比例(例如α<β、α=0.3、β=0.7)。另外,Distance(w,u)作为距离, 优选为能够由0~1表现的Jaro-Winkler距离,但是,不限于Jaro-Winkler距离,也可 以是莱文斯坦距离、表示检索字u与候选字符串w之间的相似度的指标。

接着,关联词登记服务器10取得各关联词的候选字符串的出现频度(步骤S31)。 具体而言,关联词登记服务器10的系统控制部14计算检索查询记录中的各关联词的 候选字符串的出现频度。更具体而言,关联词登记服务器10的系统控制部14根据式 (2),根据检索查询记录DB12a的数据,针对各候选字符串w计算P(w)。

[数2]

P(w)=log10(Occ.Count(w)···(2)

这里,P(w)涉及候选字符串w在检索查询记录DB12a的检索记录数据中被检 索到几次的出现频度。另外,Occ.Count(w)是检索查询记录中的候选字符串w的 出现次数(候选字符串的使用次数)。在使用检索查询记录DB12a的检索查询记录数 据的情况下,P(w)较高的字是各种用户在检索中经常输入的一般单词。这样,关 联词登记服务器10的系统控制部14作为适宜性得分计算单元的一例,根据检索查询 存储单元(检索查询记录DB12a)的数据计算适宜性得分。

接着,关联词登记服务器10根据各关联词的候选字符串的商品DB22a中的检索 件数计算检索可能性(可用性)(步骤S32)。具体而言,首先,关联词登记服务器10 的系统控制部14对信息提供服务器20发送各关联词的候选字符串w,信息提供服务 器20的系统控制部24求出商品DB22a中的检索件数(检索结果数),对关联词登记 服务器10发送各候选字符串w的检索件数。

然后,关联词登记服务器10的系统控制部14根据式(3),根据检索件数计算各 候选字符串w的检索可能性的值。

[数3]

Availability(w)=1(#ofSearchResult(w)>0)0(#ofSearchResult(w)=0)···(3)

并且,Availability(w)是基于候选字符串w的检索的检索结果数(检索符合数) 的权重系数,例如由下式表现。这里,#of Search Result(w)是候选字符串w的检索 结果数。另外,可用性(Availability)如图11(A)所示,除了式(3)以外,如图 11(B)(C)所示存在各种变化。

接着,关联词登记服务器10根据检索字与关联词的候选字符串之间的距离、各 关联词的候选字符串的出现频度、各关联词的候选字符串的检索可能性,计算各关联 词的候选字符串的适宜性得分(步骤S33)。具体而言,关联词登记服务器10的系统 控制部14根据式(4)计算各候选字符串w的适宜性得分。

[数4]

Score(w|u)=P(w+γ)Distance(w,u)+δ·Availability(w)···(4)

这里,γ和δ是用于调整适宜性得分的参数。参数γ是针对P(w)的调整值, 表示允许对不经常输入的字进行修正的程度。不经常输入的字的P(w)的值较小, 所以,在检索中难以搜索到新词汇、新商品。在希望在检索中尽可能搜索到不经常使 用的字的情况下,通过服务器侧的设定来增大参数γ的值。

并且,参数δ是针对Distance(w,u)的调整值,主要防止Distance(w,u)成为 零而使得分的值发散。另外,关联词登记服务器10预先设定式(4)中的参数γ和δ、 式(1)中的参数α和β(例如γ>δ、γ>1、δ<1、γ=2、δ=0.01)。

如上所述,关联词登记服务器10作为得分计算单元的一例进行工作,其根据候 选字符串与所述检索字之间的相似度、候选字符串的使用次数和基于候选字符串的检 索的检索结果数,计算候选字符串的适宜性得分。并且,关联词登记服务器10作为 对相似度和使用次数的信息进行调节的参数调节单元的一例进行工作。

以上,根据本实施方式,生成根据检索结果为1以上(规定条件的一例)而从存 储了与检索查询有关的记录的检索查询记录DB12a中提取出关联词的候选字符串的 关联词候选集合,将其存储在关联词候选DB12b中,接收用户输入的检索字的检索 查询,根据检索字的字符串生成部分字符串,根据部分字符串从关联词候选DB12b 的关联词候选集合中提取候选字符串,根据候选字符串与检索字之间的相似度、候选 字符串的使用次数和基于候选字符串的检索的检索结果数,计算候选字符串的适宜性 得分,按照得分的顺序对候选字符串进行排序,根据候选字符串的适宜性得分和排序, 生成针对排序的适宜性得分的基准线,作为是否将候选字符串登记为关联词的判定基 准,提取适宜性得分与基准线之间的背离为预先设定的阈值以上的候选字符串,作为 用于登记为关联词的登记字符串,在关联词DB12c中登记所提取出的登记字符串作 为检索字的关联词,由此,根据减少了字符数的部分字符串从关联词候选集合中提取 候选字符串,所以,能够通过候选字符串的适宜性得分来抑制不需要的关联词的登记, 能够提高关联词的精度。进而,根据本实施方式,能够使处理高速化。

并且,当根据关联词对用户提示检索字时,能够使用户快速找到目标检索对象。

并且,在关联词登记服务器10根据检索字的字符数设定部分字符串的长度、并 生成该设定的长度的部分字符串的情况下,通过决定部分字符串的长度,能够实现处 理的高效化,能够实现处理的高速化和关联词精度的提高。

并且,在关联词登记服务器10根据检索字的字符数设定生成部分字符串时的检 索字的字符数的移动宽度、并以该设定的移动宽度生成部分字符串的情况下,能够进 一步使处理高速化。

并且,在关联词登记服务器10针对使检索字进行表音变换后的检索字生成部分 字符串的情况下,即使是较短的字,也能够高效提取部分字符串,能够实现处理的高 速化和关联词精度的提高。

并且,关联词登记服务器10作为参数调节单元,在还具有对得分计算单元的相 似度和使用次数的信息进行调节的参数δ、γ的情况下,通过对参数δ、γ进行调整, 能够根据用户的特性和状况改变适宜性得分,能够进一步提高关联词的精度。

并且,关联词登记服务器10作为判定基准生成单元,通过对排序与适宜性得分 之间的关联进行近似的近似函数求出基准线,由此,作为脱离近似函数的异常值,容 易检测关联词的登记字符串,能够进一步提高关联词的精度。

并且,关联词登记服务器10作为判定基准生成单元,在通过规定范围(例如上 位)的排序的数据求出基准线L1的情况下,能够从上位的排序中检测脱离基准线L1 的候选字符串,所以,能够更加适当地提取处于上位排序的候选字符串。

在还具有商品DB22a作为存储与在内部或外部的EC网站中销售的商品相关联的 检索字的检索字存储单元的一例的情况下,特别地,使用商品DB22a的数据,能够 容易地计算可用性,能够反映在适宜性得分中。

并且,在关联词登记服务器10还具有检索查询记录DB12a作为存储与检索查询 有关的记录的检索查询存储单元的一例、根据检索查询记录DB12a的数据计算适宜 性得分的情况下,当从检索查询记录DB12a中蓄积的字中提取候选字符串时,能够 一次性地缩小到用户兴趣集中的候选字符串。特别地,在基于最近的记录的情况下, 能够提取特别反映了用户喜好的候选字符串。

并且,在步骤S19,关联词登记服务器10作为登记字符串提取单元,也可以对 要提取的登记字符串的数量设置上限。该情况下,能够抑制不需要的关联词的登记, 能够提高关联词的精度。

并且,在信息提供服务器20参照关联词数据库而提取与所接收到的检索查询的 检索字对应的关联词并进行输出的情况下,能够对用户提示能够使用户快速找到目标 检索对象的高精度的关联词。

另外,也可以根据所取出的上位的关联词的候选字符串中的适宜性得分为下位排 序的候选字符串来决定基准线。更具体而言,如图9(B)所示,在图示了针对排序 的相对适宜性得分的曲线中,关联词登记服务器10的系统控制部14例如决定连结 50位和10位的适宜性得分而得到的直线(基准线L2)。

基准线L2在x轴为排序、y轴为相对适宜性得分的曲线中由y=ax+b的直线的式 子表现。这里,相对适宜性得分例如是用排序1位的适宜性得分的值去除各得分而得 到的值。另外,在决定基准线L2时,可以通过最小二乘法决定下位的适宜性得分、 50位~10位的各得分。这里,如图9(B)所示,与上位的适宜性得分相比,下位的 适宜性得分成为按照排序顺序而相互近似的适宜性得分。

这里,基准线L2是对排序与适宜性得分之间的关联进行近似的近似函数的一例, 是连结50位和10位的适宜性得分而得到的直线。另外,作为近似函数,除了直线(1 次函数)以外,也可以是对数函数、指数函数、2次函数或3次函数等的乘幂函数、 双曲线这样的圆锥曲线的函数等。

在决定基准线L2后,关联词登记服务器10求出基准线与y轴(相对适宜性得分 的轴)之间的截距b的值,将对截距b的值乘以常数而得到的值设为阈值θ。

另外,在步骤S13中,关联词登记服务器10也可以在部分字符串的提取中,根 据检索字的字符数而动态变更部分字符串的长度L和Window的滑动宽度S。例如, 在检索字的字符数较多的情况下,延长部分字符串的长度L,扩大滑动宽度S。作为 基准值,在针对字符数15设为L=4、S=3的情况下,在检索字的字符数为40时,如 L=8、S=3那样延长字符串的长度,如L=4、S=5那样扩大滑动宽度,如L=8、S=5 那样扩大字符串的长度和滑动宽度。这样,在关联词登记服务器10根据检索字的字 符数而动态变更部分字符串的长度L和Window的滑动宽度S的情况下,能够实现处 理的高速化和关联词精度的提高。

并且,购物网站也可以是与网络3连接的外部EC网站,信息提供服务器20不 限于商品检索,也可以是一般的检索服务器。该情况下,根据外部EC网站等中的检 索服务器的检索件数计算检索可能性(可用性)。

[4.关联词登记系统中的第2实施方式的动作]

接着,使用图6和图12~图16对本发明的一个实施方式的关联词登记系统1中 的第2实施方式的动作进行说明。另外,针对与所述第1实施方式的动作相同或对应 的部分使用相同标号,主要说明不同之处。其他实施方式和变形例也同样。

(4.1检索查询记录和字符串组集合的生成)

首先,使用图6和图12~图14对检索查询记录和字符串组集合的生成进行说明。

另外,从以某种程度构建了检索查询记录DB12a的状态起进行说明。在该检索 查询记录DB12a中,与用户识别信息一起存储有与检索查询的接收时刻对应的检索 查询。进而,还与商品的类别信息对应地存储有检索查询(类别信息在后面叙述)。

作为该用户识别信息的一例,例如在来自登录到购物网站的用户A的终端30的 检索查询的情况下,举出用户A的用户ID、存在于从用户A的终端30发送的检索 查询的头中的IP地址。

关于该接收时刻,举出信息提供服务器20从终端30接收到检索查询的接收时刻、 关联词登记服务器10从信息提供服务器20接收到该检索查询的接收时刻。如果是信 息提供服务器20从终端接收到检索查询的时刻,则信息提供服务器20还对关联词登 记服务器10发送检索查询的接收时刻。并且,接收时刻可以是在检索查询记录DB12a 中存储检索查询时标注的时间戳。

首先,当用户(例如用户A)利用用户A的终端30登录购物网站时,如图6所 示,从信息提供服务器20对该终端30发送购物网站的主页即Web页40的信息。然 后,在终端30的显示部33中显示Web页40。该Web页40是购物网站的主页,显 示有主类别显示45,扩展有针对各类别的链接。进而,显示有该购物网站的关联群 组企业的商品和服务的类别显示46,扩展有针对各类别的链接。并且,在Web页40 中显示有表示用户A的信息“A,你好”。

接着,如图6所示,当在Web页40中点击“家电”的商品类别的链接时,如图12 所示,在显示部33中显示“家电”的Web页50。在该Web页50中显示主类别“家电” 的类别显示55的子类别显示56。

当在该Web页50的检索字记入栏51中输入检索字“▼▼○”并点击检索按钮52 时,终端30的系统控制部36通过通信部31对信息提供服务器20发送检索查询。该 检索查询具有所输入的检索字、Web页50的类别信息(表示主类别“家电”的类别显 示65的类别识别编号等)、作为用户识别信息的一例的(用户A的)用户ID等。

接着,信息提供服务器20从终端30接收该检索查询,将其发送到关联词登记服 务器10,并且参照商品DB22a进行商品的检索。并且,确定该检索查询的发送方的 IP地址,也将该IP地址发送到关联词登记服务器10。该IP地址是用户识别信息的 一例,在用户未登录的情况下,代替用户ID而使用。

接着,如图13所示,关联词登记服务器10接收包含检索字的检索查询(步骤 S41)。具体而言,关联词登记服务器10的系统控制部14通过通信部11从信息提供 服务器20接收检索查询,将接收到的检索查询和检索查询的接收时刻对应地存储在 检索查询记录DB12a中。进而,关联词登记服务器10的系统控制部14与IP地址对 应地将检索查询存储在检索查询记录DB12a中。另外,关联词登记服务器10的系统 控制部14也可以使检索查询包含IP地址。并且,由于得知检索查询的受理的前后关 系即可,所以,关联词登记服务器10的系统控制部14也可以不附加接收时刻,而附 加接收到的顺序,将检索查询存储在检索查询记录DB12a中。这样,关联词登记服 务器10的系统控制部14作为按照接收顺序存储所接收到的检索查询的检索查询存储 单元的一例进行工作。

接着,关联词登记服务器10判定在检索查询记录中是否存在用户ID一致的先前 的检索查询(步骤S42)。具体而言,关联词登记服务器10的系统控制部14从检索 查询记录DB12a中提取与用户A的用户ID一致、且接收时刻比接收到的检索查询早 的先前(接收顺序较早的一例)的检索查询。然后,关联词登记服务器10的系统控 制部14在能够提取先前的检索查询的情况下,判定为在检索查询记录中存在先前的 检索查询,在无法提取的情况下,判定为不存在先前的检索查询。另外,关联词登记 服务器10的系统控制部14也可以从检索查询记录DB12a中提取与接收到的检索查 询的IP地址一致、且接收时刻比接收到的检索查询早的先前的检索查询。

这里,与用户ID一致的情况或与IP地址一致的情况是预先设定的检索查询提取 条件的一例。这样,关联词登记服务器10作为检索查询提取单元的一例进行工作, 作为检索查询提取条件,其提取输入了检索查询的用户的用户识别信息一致的先前的 检索查询。

在检索查询记录中存在用户ID一致的先前的检索查询的情况下(步骤S42:是), 关联词登记服务器10判定接收时刻和先前的检索查询的接收时刻是否为规定时间内 (步骤S43)。具体而言,关联词登记服务器10的系统控制部14提取所接收到的检 索查询的接收时刻与先前的检索查询的接收时刻之差为规定时间内(例如3秒~60 秒之间)的先前的检索查询。然后,关联词登记服务器10的系统控制部14在能够提 取先前的检索查询的情况下,判定为先前的检索查询为规定时间内,在无法提取的情 况下,判定为不是规定时间内。

这里,规定时间内是预先设定的检索查询提取条件的一例。这样,关联词登记服 务器10作为检索查询提取单元的一例进行工作,其根据预先设定的检索查询提取条 件,从检索查询存储单元中提取接收时刻比接收到的检索查询早的先前的检索查询。 并且,关联词登记服务器10作为检索查询提取单元的一例进行工作,作为检索查询 提取条件,其提取接收时刻为从检索查询的接收时刻起的规定时间内的先前的检索查 询。

在接收时刻和先前的检索查询的接收时刻为规定时间内的情况下(步骤S43: 是),关联词登记服务器10存储所接收到的检索字和接收时刻最近的先前的检索字的 字符串组(步骤S44)。具体而言,关联词登记服务器10的系统控制部14选择提取 出的先前的检索查询中的、构成所接收到的检索查询的检索字和构成接收时刻最近的 先前的检索查询的检索字,将这些先前的检索字和接收到的检索字的字符串组存储在 字符串组DB12d中。

另外,作为预先设定的检索查询提取条件的一例,关联词登记服务器10的系统 控制部14也可以进一步缩小为类别信息(例如主类别)一致的先前的检索查询。

接着,关联词登记服务器10与用户ID和接收时刻对应地将检索查询存储在检索 查询记录中(步骤S45)。具体而言,关联词登记服务器10的系统控制部14与类别 信息、用户ID(也可以是IP地址)和接收时刻对应地将检索查询存储在检索查询记 录DB12a中。并且,在检索查询记录中不存在用户ID一致的先前的检索查询的情况 下(步骤S42:否)、接收时刻和先前的检索查询的接收时刻不是规定时间内的情况 下(步骤S43:否),关联词登记服务器10的系统控制部14也与用户ID和接收时刻 对应地将检索查询存储在检索查询记录DB12a中。

这样,关联词登记服务器10作为字符串组存储单元的一例进行工作,其存储构 成所提取出的先前的检索查询的先前的检索字和构成所接收到的检索查询的检索字, 作为字符串组。

接着,在信息提供服务器20进行了商品检索后,作为检索结果,如图14所示, 将Web页60的信息发送到终端30。

接着,终端30从信息提供服务器20接收Web页60的信息,将其显示在显示部 33中。

用户A查看Web页60的检索结果,在存在目标商品的情况下,点击商品显示栏 63的商品,但是,在不存在目标商品的情况下,进一步在检索字输入栏61中输入检 索字,当点击检索按钮62时,如上所述,终端30对信息提供服务器20发送包含检 索字“▲▲O■”和类别信息(“家电”)的检索查询。然后,信息提供服务器20接收该 检索查询,发送到关联词登记服务器10,进行检索。如上所述,关联词登记服务器 10接收检索查询(步骤S41),进行步骤S42~步骤S45的处理。

针对来自其他用户B等的检索查询也进行上述处理,在检索查询记录DB12a中 生成类别信息、按照每个用户ID或每个IP地址而同时与接收时刻对应的检索查询的 检索查询记录,在字符串组DB12d中生成汇集了字符串的字符串组集合。

(4.2关联词的登记)

接着,使用图15和图16对关联词的登记进行说明。

首先,如图15所示,关联词登记服务器10判定是否满足提取开始条件(步骤 S50)。具体而言,作为提取开始条件的一例,关联词登记服务器10的系统控制部14 判定检索查询记录DB12a中的检索查询记录的检索查询数(总检索查询数)、字符串 组DB12d中存储的字符串组集合的元素数(字符串组集合的总数)是否超过规定阈 值。并且,关联词登记服务器10的系统控制部14也可以判定从上次满足该字符串组 提取开始条件起是否经过了规定时间。

在满足提取开始条件的情况下(步骤S50:是),关联词登记服务器10从字符串 组集合中提取先前的检索字相同的字符串组(步骤S51)。具体而言,如图16所示, 关联词登记服务器10的系统控制部14从字符串组DB12d中提取先前的检索字71相 同(检索字相同)的字符串组70。在不满足提取开始条件的情况下(步骤S50:否), 结束关联词登记的处理。

另外,关联词登记服务器10的系统控制部14也可以根据预先设定的字符串组提 取开始条件,从字符串组DB12d中提取先前的检索字相似的字符串组。检索字彼此 相似例如是指,基于Jaro-Winkler距离、莱文斯坦距离等的字符串间的距离的相似度 的值为规定阈值以上的情况。例如,关联词登记服务器10的系统控制部14还提取具 有与先前的检索字71相似的先前的检索字“▼▼●”的字符串组。

这样,关联词登记服务器10作为字符串提取单元的一例进行工作,其根据预先 设定的字符串组提取开始条件,从字符串组存储单元中提取所述先前的检索字相同或 相似的字符串组。

接着,关联词登记服务器10判定提取出的字符串组的总数是否为规定以上(步 骤S52)。具体而言,关联词登记服务器10的系统控制部14判定与某个先前的检索 字71有关的字符串组的总数是否为规定以上(例如3个以上)。如图16所示,与先 前的检索字71有关的字符串组有<先前的检索字71-检索字71>的字符串组70、<先 前的检索字71-检索字72>的字符串组70、<先前的检索字71-检索字73>的字符串组 70合计3个。

在提取出的字符串组的总数为规定以上的情况下(步骤S52:是),关联词登记 服务器10判定所提取出的字符串组中是否存在满足登记条件的字符串组(步骤S53)。 具体而言,作为登记条件的一例,关联词登记服务器10的系统控制部14判定各字符 串组70的数量是否为规定数以上(例如10个以上)。这样,关联词登记服务器10 的系统控制部14判定在先前的检索字71相同或相似的字符串组70中具有相同或相 似的检索字72、73、74的字符串组的数量是否超过规定阈值。关联词登记服务器10 的系统控制部14确定超过规定阈值的字符串组作为关联词。另外,如果存在与检索 字73“▲▲▲”相似的检索字“▲▲△”,则关联词登记服务器10的系统控制部14也可 以计数为相同字符串组。

这样,关联词登记服务器10作为关联词确定单元的一例进行工作,其根据预先 设定的登记条件,从提取出的字符串组中确定作为关联词的字符串组。并且,关联词 登记服务器10作为关联词确定单元的一例进行工作,作为登记条件,在先前的检索 字相同或相似的字符串组中具有相同或相似的检索字的字符串组的数量超过规定阈 值的情况下,确定该字符串组作为关联词。

并且,作为登记条件的一例,关联词登记服务器10的系统控制部14也可以判定 在先前的检索字71相同或相似的字符串组中具有相同或相似的检索字的字符串组的 比例是否超过规定阈值(例如80%)。

这样,关联词登记服务器10作为关联词确定单元的一例进行工作,作为登记条 件,在先前的检索字相同或相似的字符串组中具有相同或相似的检索字的字符串组的 比例超过规定阈值的情况下,确定该字符串组作为关联词。

接着,在存在满足登记条件的字符串组的情况下(步骤S53:是),关联词登记 服务器10登记字符串组作为关联词(步骤S54)。具体而言,如图16所示,由于<先 前的检索字71-检索字71>的字符串组70为3个(15%)、<先前的检索字71-检索字 72>的字符串组70为16个(80%)、<先前的检索字71-检索字73>的字符串组70为1 个(5%),所以,关联词登记服务器10的系统控制部14将<先前的检索字71-检索字 72>的字符串组70作为关联词而登记在关联词DB12c中。

这样,关联词登记服务器10作为登记所确定的字符串组作为关联词的关联词登 记单元的一例进行工作。

另外,在不存在满足登记条件的字符串组的情况下(步骤S53:否),关联词登 记服务器10判定不满足登记条件的字符串组是否登记在关联词DB中(步骤S55)。 具体而言,关联词登记服务器10的系统控制部14判定已经登记的<先前的检索字- 检索字>的字符串组70的比例是否在字符串组DB12d中减少而穿过规定阈值(例如 80%)。在具有相同或相似的先前的检索字的其他字符串组增加的情况下产生这种情 况。

在不满足登记条件的情况下(步骤S55:是),关联词登记服务器10从关联词 DB中删除不满足登记条件的字符串组(步骤S56)。具体而言,关联词登记服务器 10的系统控制部14在关联词DB12c中,从已经登记的字符串组中删除不满足登记条 件的字符串组。

在步骤S54之后,关联词登记服务器10判定是否针对全部字符串组进行了提取 (步骤S57)。具体而言,关联词登记服务器10的系统控制部14判定是否针对字符 串组DB12d的字符串组集合中的全部先前的检索字进行了步骤S51的字符串组的提 取处理,在未对全部字符串组进行提取的情况下(步骤S57:否),返回步骤S11,在 针对全部字符串组进行了提取的情况下(步骤S57:是),结束关联词登记的处理。

以上,根据本实施方式,接收用户输入的检索字的检索查询,根据预先设定的检 索查询提取条件,从检索查询记录中提取在时间上在接收到的检索查询之前取得的先 前的检索查询,将提取出的先前的检索查询的先前的检索字和接收到的检索查询的检 索字作为字符串组而存储在字符串组DB12d中,在满足预先设定的字符串组提取开 始条件时,提取先前的检索字相同或相似的字符串组,将满足预先设定的登记条件的 提取出的字符串组作为关联词而登记在关联词DB12c中,由此,在字符串组提取开 始条件下蓄积一定量的接收到的检索查询和基于检索查询提取条件的先前的检索查 询的字符串组,从该蓄积的字符串组中,将满足登记条件的字符串组作为关联词而登 记在关联词DB12c中,所以,能够提高关联词的精度。

并且,关联词登记服务器10还存储用户识别信息,作为检索查询提取条件,在 提取输入了检索查询的用户的用户识别信息一致的先前的检索查询的情况下,能够生 成同一用户的字符串组,所以,能够进一步提高关联词的精度。

并且,作为检索查询提取条件,在提取接收时刻为从检索查询的接收时刻起的规 定时间内的先前的检索查询的情况下,关联词登记服务器10能够提取规定时间内的 关联性高的先前的检索查询,所以,能够进一步提高关联词的精度。

并且,关联词登记服务器10还存储类别信息,作为检索查询提取条件,在根据 类别信息提取先前的检索查询的情况下,能够将类别相同或关联的检索字彼此作为字 符串组,所以,能够进一步提高关联词的精度。

并且,作为字符串组提取开始条件,在字符串组集合的元素数超过规定阈值的情 况下,关联词登记服务器10提取字符串组时,能够蓄积某种程度的规模的字符串组, 能够从中提取适当的字符串组,所以,能够进一步提高关联词的精度。

并且,作为登记条件,在先前的检索字相同或相似的字符串组中具有相同或相似 的检索字的字符串组的数量超过规定阈值的情况下,关联词登记服务器10登记字符 串组作为关联词时,能够选择高精度的字符串组,能够进一步提高关联词的精度。

并且,作为登记条件,在先前的检索字相同或相似的字符串组中具有相同或相似 的检索字的字符串组的比例超过规定阈值的情况下,关联词登记服务器10登记该字 符串组作为关联词时,能够选择高精度的字符串组,能够进一步提高关联词的精度。

另外,在步骤S51中,作为字符串组提取开始条件,也可以在检索查询记录DB12a 中的检索查询数超过规定阈值的情况下,关联词登记服务器10提取字符串组。该情 况下,能够蓄积某种程度的规模的字符串组,能够从中提取适当的字符串组,所以, 能够进一步提高关联词的精度。

并且,在步骤S50中,也可以在从满足字符串组提取开始条件起经过了规定时间 的情况下,关联词登记服务器10提取字符串组。该情况下,能够蓄积某种程度的规 模的字符串组,能够从中提取适当的字符串组,所以,能够进一步提高关联词的精度。

进而,也可以组合关联词登记系统中的第1和第2实施方式的动作来登记关联词。 该情况下,也可以以能够区分如第1实施方式的动作那样考虑了字符串彼此的距离的 关联词和如第2实施方式的动作那样考虑了使用检索查询的顺序的关联词的方式,在 关联词DB12c中构建关联词数据库。

作为关联词数据库的活用方法,例如,首先,在终端30中输入“○▽”进行检索的 情况下,信息提供服务器20参照在关联词DB12c中通过第1实施方式的动作而构建 的关联词数据库,如图6所示,作为关联词,在Web页40中显示“也许‘○○▲’?”。接 着,在终端30中选择“○○▲”进行检索的情况下,信息提供服务器20也可以参照在关 联词DB12c中通过第2实施方式的动作而构建的关联词数据库,作为关联词,在Web 页40中显示“是‘…▲·’么?”。

另外,代替这样阶段地显示关联词,也可以同时显示这些关联词。

进而,本发明不限于上述各实施方式。上述各实施方式是例示,具有实质上与本 发明的权利要求范围所记载的技术思想相同的结构、发挥相同作用效果的方式均包含 在本发明的技术范围内。

标号说明

1:关联词登记系统;10:关联词登记服务器(关联词登记装置);12a:检索查 询记录DB;12b:关联词候选DB;12c:关联词DB;12d:字符串组DB;20:信息 提供服务器(信息处理装置);22a:商品DB;30:终端。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号