首页> 中国专利> 关键字管理程序、关键字管理系统和关键字管理方法

关键字管理程序、关键字管理系统和关键字管理方法

摘要

本发明提供关键字管理程序、关键字管理系统和关键字管理方法。在关键字管理系统中,网络话题积累装置(100)计算表示关键字的每单位时间的增加值的Burst值,根据计算出的Burst值和与该Burst值对应的关键字在内容中的特征(标题中包含关键字的数量、展开链接的数量、被增强的数量),计算综合Burst值。然后,网络话题积累装置(100)根据综合Burst值的时间序列推移,从内容中提取与对应于综合Burst值的关键字的关联关键字(相关关键字和共现关键字),将把关键字和关联关键字对应起来的信息作为主题,输出到用户终端(20)。

著录项

  • 公开/公告号CN101583951A

    专利类型发明专利

  • 公开/公告日2009-11-18

    原文格式PDF

  • 申请/专利权人 富士通株式会社;

    申请/专利号CN200780050107.5

  • 申请日2007-01-18

  • 分类号G06F17/30;

  • 代理机构北京三友知识产权代理有限公司;

  • 代理人黄纶伟

  • 地址 日本神奈川县

  • 入库时间 2023-12-17 22:57:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-01-03

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20120215 终止日期:20190118 申请日:20070118

    专利权的终止

  • 2012-02-15

    授权

    授权

  • 2010-01-13

    实质审查的生效

    实质审查的生效

  • 2009-11-18

    公开

    公开

说明书

技术领域

本发明涉及对与网络连接的用户终端访问内容时所利用的关键字进行管理的关键字管理程序、关键字管理系统和关键字管理方法。

背景技术

近年来,因特网广泛普及,用户利用与因特网连接的用户终端,从网络上取得各种信息。例如,在用户从网络上取得与规定关键字相关联的信息的情况下,能够利用检索引擎来取得。

并且,即使用户不知道特定的关键字,通过访问服务提供商管理的门户网站或博客等,也能够取得服务提供商选出的新闻、话题、劝告信息等各种信息。

除此之外,对应于进行信息收集的用户,在网络上提供各种服务。例如,在非专利文献1中公开了如下的服务:向用户提供话题的关键字,提示该关键字的检索。该服务进行在规定期间内检索到的关键字的排名,向用户通知排名结果,由此,能够向用户提供话题的关键字。

另外,在专利文献1中公开了如下技术:为了使用户的信息检索更加舒适,根据检索到的关键字和与关键字相关联的信息之间的关联性的程度,来设定与关键字相关联的信息的配置。

非专利文献1:ニフテイ株式会社“瞬ワ一ド”、[online]、[平成18年12月25日检索]、因特网<http://www.nifty.com/shun/>

专利文献1:日本特开2006-31577号公报

但是,在上述现有技术中存在如下问题:即使能够向用户提供成为话题的主题,也仍不清楚所提供的主题为何成为了话题。

该情况下,用户不知道所提供的主题为何成为了话题,所以,需要在不知道话题理由的状态下进行检索。而且,检索的结果,命中与主题相关联的各种信息(包含与话题无关的信息),用户无法舒适地进行利用主题的检索。

即,明确主题为什么成为话题并向用户通知成为话题的主题的信息,是极其重要的课题。

发明内容

本发明是鉴于上述内容而完成的,其目的在于,提供明确主题为什么成为话题并能够向用户通知成为话题的主题的信息的关键字管理程序、关键字管理系统和关键字管理方法。

为了解决上述课题并达成目的,本发明的关键字管理程序用于对在与网络连接的用户终端访问到内容时所利用的关键字进行管理的关键字管理系统,该关键字管理程序的特征在于,该关键字管理程序使计算机执行以下步骤:突发值计算步骤,在该步骤中,计算突发值,该突发值表示所述关键字的每单位时间的增加值;综合突发值计算步骤,在该步骤中,根据与所述突发值对应的关键字在所述内容中的特征,对所述突发值进行校正,从而计算出综合突发值;以及输出控制步骤,在该步骤中,根据所述综合突发值的时间序列推移,从所述内容中提取与对应于该综合突发值的关键字相关联的关联关键字,将所述关键字和关联关键字对应起来输出到所述用户终端。

并且,本发明的特征在于,在上述发明中,该关键字管理程序还使计算机执行形式要素分析执行步骤,在该步骤中,根据所述突发值为阈值以上的关键字,分析在所述内容内包含的文本的形式要素,在所述突发值计算步骤中,针对由所述形式要素分析结果得到的关键字,进一步计算突发值。

并且,本发明的特征在于,在上述发明中,该关键字管理程序还使计算机执行分类步骤,在该步骤中,根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为预先准备的多个类型中的任一种类型,在所述输出控制步骤中,将所述分类步骤的分类结果进一步输出到所述用户终端。

并且,本发明的特征在于,在上述发明中,所述关键字在内容中的特征包含:在所述内容中标题所包含的所述关键字的数量、在所述内容中展开链接的所述关键字的数量、以及在所述内容中被修饰的所述关键字的数量。

并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中,提取与所述综合突发值的时间序列推移相关的关键字,作为所述关联关键字。

并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中,进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。

并且,本发明的关键字管理系统对在与网络连接的用户终端访问到内容时所利用的关键字进行管理,该关键字管理系统的特征在于,该关键字管理系统具有:突发值计算单元,其计算突发值,该突发值表示所述关键字的每单位时间的增加值;综合突发值计算单元,其根据与所述突发值对应的关键字在所述内容上的特征,对所述突发值进行校正,从而计算出综合突发值;以及输出控制单元,其根据所述综合突发值的时间序列推移,从所述内容中提取与对应于该综合突发值的关键字相关联的关联关键字,将所述关键字和关联关键字对应起来输出到所述用户终端。

并且,本发明的特征在于,在上述发明中,该关键字管理系统还具有形式要素分析执行单元,该形式要素分析执行单元根据所述突发值为阈值以上的关键字,分析在所述内容中包含的文本的形式要素,所述突发值计算单元针对由所述形式要素分析结果得到的关键字,进一步计算突发值。

并且,本发明的特征在于,在上述发明中,该关键字管理系统还具有分类单元,该分类单元根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为预先准备的多个类型中的任一种类型,所述输出控制单元将所述分类单元的分类结果进一步输出到所述用户终端。

并且,本发明的特征在于,在上述发明中,所述关键字在内容中的特征包含:在所述内容中标题所包含的所述关键字的数量、在所述内容中展开链接的所述关键字的数量、以及在所述内容中被修饰的所述关键字的数量。

并且,本发明的特征在于,在上述发明中,所述输出控制单元提取与所述综合突发值的时间序列推移相关的关键字,作为所述关联关键字。

并且,本发明的特征在于,在上述发明中,所述输出控制单元进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。

并且,本发明的关键字管理方法用于对在与网络连接的用户终端访问到内容时所利用的关键字进行管理的关键字管理系统,该关键字管理方法的特征在于,该关键字管理方法包含以下步骤:突发值计算步骤,在该步骤中,计算突发值,该突发值表示所述关键字的每单位时间的增加值;综合突发值计算步骤,在该步骤中,根据与所述突发值对应的关键字在所述内容中的特征,对所述突发值进行校正,从而计算出综合突发值;以及输出控制步骤,在该步骤中,根据所述综合突发值的时间序列推移,从所述内容中提取与对应于该综合突发值的关键字相关联的关联关键字,将所述关键字和关联关键字对应起来输出到所述用户终端。

并且,本发明的特征在于,在上述发明中,该关键字管理方法还包含形式要素分析执行步骤,在该步骤中,根据所述突发值为阈值以上的关键字,分析在所述内容中包含的文本的形式要素,在所述突发值计算步骤中,针对由所述形式要素分析结果得到的关键字,进一步计算突发值。

并且,本发明的特征在于,在上述发明中,该关键字管理方法还包含分类步骤,在该步骤中,根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为预先准备的多个类型中的任一种类型,在所述输出控制步骤中,将所述分类步骤的分类结果进一步输出到所述用户终端。

并且,本发明的特征在于,在上述发明中,所述关键字的在内容中的特征包含:在所述内容中标题所包含的所述关键字的数量、在所述内容中展开链接的所述关键字的数量、以及在所述内容中被修饰的所述关键字的数量。

并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中,提取与所述综合突发值的时间序列推移相关的关键字,作为所述关联关键字。

并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中,进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。

根据本发明,计算表示关键字的每单位时间的增加值的突发值,根据与计算出的突发值对应的关键字在内容中的特征,对突发值进行校正,从而计算出综合突发值,根据该综合突发值的时间序列推移,从内容中提取与对应于综合突发值的关键字相关联的关联关键字,将关键字和关联关键字对应起来输出到所述用户终端,所以,根据成为话题的关键字和关联关键字,用户能够容易地理解该关键字为什么成为话题。

并且,根据本发明,根据突发值为阈值以上的关键字,分析内容所包含的文本的形式要素,针对由形式要素分析结果得到的关键字,进一步计算突发值,所以,能够更准确地提取成为话题的关键字。

并且,根据本发明,根据综合突发值的时间序列推移,将对应于综合突发值的关键字分类为预先准备的多个类型中的任一种类型,所以,用户能够容易地理解通过怎样的经过成为话题的关键字。

并且,根据本发明,根据包含标题所包含的所述关键字的数量、展开链接的关键字的数量、以及被修饰的关键字的数量的关键字在内容中的特征,来校正综合突发值,所以,能够更可靠地提取话题的关键字。

并且,根据本发明,提取与综合突发值的时间序列推移相关的关键字作为关联关键字,所以,根据成为话题的关键字和关联关键字,用户能够容易地理解该关键字为什么成为话题。

并且,根据本发明,进一步提取在内容的文本中与综合突发值为阈值以上的关键字一起出现的关键字作为关联关键字,所以,根据成为话题的关键字和关联关键字,用户能够容易地理解该关键字为什么成为话题,能够更加舒适地执行使用关键字的信息检索。

附图说明

图1是用于说明现有技术和本实施例的关键字管理系统之间的差异的说明图。

图2是示出本实施例的关键字管理系统的结构的系统结构图。

图3是示出本实施例的网络话题积累装置的结构的功能框图。

图4是示出新闻/博客表的数据结构的一例的图。

图5是示出检索词表的数据结构的一例的图。

图6是示出用户辞典表的数据结构的一例的图。

图7是示出形式要素分析结果管理表的数据结构的一例的图。

图8是示出Burst计算参数表的数据结构的一例的图。

图9是示出综合Burst存储表的数据结构的一例的图。

图10是示出主题类型管理表的数据结构的一例的图。

图11是示出关联关键字表的数据结构的一例的图。

图12是示出共现关键字表的数据结构的一例的图。

图13是示出最终结果存储表的数据结构的一例的图。

图14是示出本实施例的网络话题积累装置的处理步骤的流程图。

图15是示出构成图3所示的网络话题积累装置的计算机的硬件结构的图。

符号说明

10:网络;20:用户终端;30:各种内容存储装置;40:服务器;50:计算机;51:输入装置;52:监视器;53:RAM;53a:各种数据;54:ROM;55:介质读取装置56:网络接口;57:CPU;57a:话题关键字提供处理;58:HDD;58a:各种数据;58b:话题关键字提供程序;59:总线;100:网络话题积累装置;110:输入部;120:输出部;130:通信控制IF部;140:输入输出控制IF部;150:存储部;150a:Web内容数据库;150b:新闻/博客表;150c:检索词表;150d:用户辞典表;150e:形式要素分析结果管理表;150f:Burst计算参数表;150g:综合Burst存储表;150h:主题类型管理表;150i:相关关键字表;150j:共现关键字表;150k:最终结果存储表;160:控制部;160a:数据管理部;160b:Burst计算部;160c:用户辞典登记部;160d:形式要素分析部;160e:综合Burst计算部;160f:主题类型判定部;160g:相关关键字检测部;160h:共现关键字检测部;160i:输出关键字判定处理部。

具体实施方式

下面,根据附图详细说明本发明的关键字管理程序、关键字管理系统和关键字管理方法的实施例。另外,不由该实施例限定本发明。

首先,与现有技术相比较来说明本实施例的关键字管理系统的特征。图1是用于说明现有技术和本实施例的关键字管理系统之间的差异的说明图。如图1左侧所示,在现有技术中,根据访问到内容时所利用的关键字的利用频度来选择成为话题的关键字,从利用频度从高到低的顺序排列所选择的关键字,作为主题通知给用户终端(以下为用户终端)(参照图1左侧)。

但是,现有技术仅根据利用频度来排列成为话题的关键字,所以,用户无法理解各关键字为什么成为主题,无法舒适地进行利用各关键字的信息检索。

另一方面,本实施例的关键字管理系统的特征在于,计算表示用户访问到内容时所利用的关键字的每单位时间的增加值的突发值,计算根据与该突发值对应的关键字的内容上的特征校正了计算出的突发值得到的综合突发值。而且,根据综合突发值的时间序列推移,从内容中提取与对应于综合突发值的关键字相关联的关键字(以下为关联关键字),以把关键字和关联关键字对应起来的信息作为主题,通知给用户终端(参照图1右侧)。

这样,本实施例的关键字管理系统将设置了与成为话题的关键字密切相关联的其他关键字的关键字组作为主题,通知给用户,所以,用户能够理解各关键字为什么成为话题,能够舒适地执行利用主题的信息检索。

接着,说明本实施例的关键字管理系统的结构。图2是示出本实施例的关键字管理系统的结构的系统结构图。如该图所示,该关键字管理系统构成为,利用网络10来连接用户终端20、各种内容存储装置30、服务器40、网络话题积累装置100。

用户终端20是利用由服务器40运营的门户网站(包含检索引擎)来取得各种信息的装置。另外,用户终端20在取得各种信息的情况下,经由输入装置(省略图示)从用户接收关键字,将接收的关键字输出到服务器40。

各种内容存储装置30是存储在网络上收发的各种内容(新闻、博客、BBS(Bulletin Board System)、股价、天气、占卜等文本内容)的存储装置。另外。各种内容包含有生成该内容的日期时间的信息。

服务器40是如下的装置:运营门户网站,并且,在从用户终端20取得了关键字的情况下,从各种内容存储装置30检索与所取得的关键字相关联的信息,将检索到的信息输出到用户终端20。并且,服务器40将从用户终端20取得的关键字的历史作为检索记录信息,存储在存储装置(省略图示)中。该检索记录信息是将检索的关键字、检索的日期时间、检索数量(同一用户重复检索视为一次)、利用关键字来命中的各种信息的件数的信息对应起来存储得到的。

网络话题积累装置100是将成为话题的关键字和关联关键字对应起来输出到用户终端20的装置。这里,说明网络话题积累装置100的结构。图3是示出本实施例的网络话题积累装置100的结构的功能框图。如该图所示,该网络话题积累装置100构成为具有:输入部110、输出部120、通信控制IF部130、输入输出控制IF部140、存储部150、以及控制部160。

其中,输入部110是输入各种信息的输入单元,由键盘、鼠标、麦克风等构成。另外,后述的监视器(输出部120)也与鼠标协作,实现指示设备功能。

输出部120是输出各种信息的输出单元,由监视器(或显示器、触摸面板)、扬声器等构成。通信控制IF部130是主要对用户终端20、各种内容存储装置30、服务器40之间的通信进行控制的单元。输入输出控制IF部140是对输入部110、输出部120、通信控制IF部130、存储部150、控制部160进行的数据的输入输出进行控制的单元。

存储部150是存储控制部160进行的各种处理所需要的数据和程序的存储单元,特别地,作为与本发明密切相关联的部分,如图3所示,存储部150具有:Web内容数据库150a、新闻/博客表150b、检索词表150c、用户辞典表150d、形式要素分析结果管理表150e、Burst计算参数表150f、综合Burst存储表150g、主题类型管理表150h、相关关键字表150i、共现关键字表150j、最终结果存储表150k。

Web内容数据库150a是存储网络话题积累装置100从服务器40取得的检索记录信息和从各种内容存储装置30取得的各种内容的信息(新闻、博客、BBS、股价、天气、占卜等文本内容的信息)的数据库。另外,与唯一的文档源ID(Identification)对应地存储各种内容的信息。

新闻/博客表150b是通过关键字以及发布(或生成)新闻和博客的日期时间对新闻和博客(或BBS)的信息进行分类(分类化)的表。图4是示出新闻/博客表150b的数据结构的一例的图。如该图所示,新闻/博客表150b由关键字、日期时间、文档源ID、新闻(博客)内容构成。其中,日期时间表示发布(或生成)新闻或博客的日期时间。另外,这里示出新闻/博客表150b存储新闻和博客的信息的情况,但是,也可以包含并存储其他信息(例如BBS、其他内容)。

检索词表150c是存储检索记录信息所包含的关键字的各种信息的表。图5是示出检索词表150c的数据结构的一例的图。如该图所示,该检索词表150c由关键字、日期时间、检索数量、出现件数、平均检索数量、Burst值构成。

其中,检索数量表示由用户检索该关键字的次数。例如,在图5的第1段中,示出株式会社A这样的关键字的检索次数为111。

出现件数表示通过规定的检索引擎检索关键字时所命中的件数。例如,在图5的第1段中,示出作为关键字的“株式会社A”的命中件数为“1200000”。

平均检索数量表示根据过去检索到的关键字的检索数量而计算出的每单位时间的平均检索数量。例如,在图5的第1段中,示出作为关键字的“株式会社A”的平均检索数量为“9.0”。

Burst值表示对内容进行访问时所利用(由用户输入到检索引擎等中)的关键字的每单位时间的增加量(根据时间经过而变化的检索关键字的微分值)。通过后述的Burst计算部160b来计算该Burst值。

返回图3的说明,用户辞典表150d是存储对新闻和博客进行形式要素分析时所使用的形式要素的信息的表。图6是示出用户辞典表150d的数据结构的一例的图。如该图所示,该用户辞典表150d由形式要素、读音、词类、其他信息构成。

形式要素分析结果管理表150e是作为从新闻和博客中提取的形式要素的关键字的各种分析结果的表。图7是示出形式要素分析结果管理表150e的数据结构的一例的图。如该图所示,该形式要素分析结果管理表150e由关键字、日期时间、文档源ID、场所、标题、增强、链接、内容构成。

其中,文档源ID表示包含有相应的关键字的文档的识别编号。例如,在图7中示出包含“株式会社A”这样的关键字的文档的识别编号(文档源ID)为“CN001、CN002、CN003”。

场所表示该关键字在文档内的位置。例如示出“株式会社A”这样的关键字在文档源ID“CN001”的文档内位于第1个、第15个、第50个。

标题表示文档的标题所包含的关键字的数量。例如示出在文档源ID“CN001”的文档的标题内包含一个“株式会社A”这样的关键字。

增强表示该关键字在文档中被修饰的数量(表示该关键字在文档中利用Bold等增强的数量,例如,当增强关键字“株式会社A”时,成为“株式会社A”)。链接表示在文档中关键字展开了链接的数量。内容表示文档中所包含的关键字的数量。

Burst计算参数表150f是存储进行形式要素分析的结果、即与从新闻或博客中提取的各形式要素的Burst值相关联的信息的表。图8是示出Burst计算参数表150f的数据结构的一例的图。如该图所示,该Burst计算参数表150f由关键字、日期时间、标题、增强、链接、内容、平均、Burst值构成。

其中,标题、增强、链接、内容分别对应于在图7中说明的标题、增强、链接、内容。平均和Burst值对应于在图5中说明的平均检索数量和Burst值。另外,图7的平均和Burst值以新闻和博客中的关键字为对象(图5的平均检索数量和Burst值以检索记录信息中的关键字为对象)。

综合Burst存储表150g是存储与各关键字对应的综合突发值的表。图9是示出综合Burst存储表150g的数据结构的一例的图。如该图所示,该综合Burst存储表150g由关键字、日期时间、SB(kwi)、CB(kwi)、α(kwi)、TB(kwi)构成。

其中,SB(kwi)表示检索记录信息所包含的关键字的Burst值。根据存储在检索词表150c中的各信息来计算该SB(kwi)。CB(kwi)表示新闻或博客所包含的关键字的Burst值。根据存储在Burst计算参数表150f中的各信息来计算该CB(kwi)。

α(kwi)是计算综合Burst值时所利用的系数。TB(kwi)表示与关键字对应的综合Burst值。通过后述的综合Burst计算部160e来计算该综合Burst值。综合Burst存储表150g存储各个时刻的关键字的SB(kwi)、CB(kwi)、α(kwi)、TB(kwi)。

主题类型管理表150h是将关键字分类为预先准备的多个主题类型的表。图10是示出主题类型管理表150h的数据结构的一例的图。如该图所示,该主题类型管理表150h由关键字、日期、主题类型构成。

其中,主题类型表示由用户检索的关键字的时间变化的特征。例如,在主题类型为“反复型”的情况下,表示关键字的检索数量反复增加减少。除此之外,主题类型还存在“递增型”和“突发型”等。“递增型”表示关键字的检索数量随着时间经过平稳增加,“突发型”表示关键字的检索数量在规定时间内急剧增加。

相关关键字表150i是将关键字和与该关键字相关的关键字(相关关键字)对应起来进行存储的表。图11是示出关联关键字表150i的数据结构的一例的图。如该图所示,该相关关键字表150i由关键字和相关关键字构成,且分别对应起来。例如,在图11的第1段中,作为关键字的株式会社A与作为相关关键字的服务A和个人计算机B对应。

共现关键字表150j是将关键字和与该关键字具有共现关系的关键字(在文档中与关键字一起出现的关键字,以下为共现关键字)对应起来进行存储的表。图12是示出共现关键字表150j的数据结构的一例的图。如该图所示,该共现关键字表150j由关键字和共现关键字构成,且分别对应起来。例如,在图12的第1段中,作为关键字的株式会社A与作为共现关键字的研究所和开发对应。

最终结果存储表150k是存储输出到用户终端20的信息的表。图13是示出最终结果存储表150k的数据结构的一例的图。如该图所示,该最终结果存储表150k由关键字、日期时间、TB(kwi)、SUB(kwi)、主题类型构成。其中,SUB(kwi)表示与关键字一起输出到用户终端20的相关关键字或共现关键字。另外,最终结果存储表150k按照综合Burst值TB(kwi)的大小顺序存储关键字。

返回图3的说明,控制部160具有用于存储规定了各种处理步骤的程序和控制数据的内部存储器,是通过这些程序和数据来执行各种处理的控制单元,特别地,作为与本发明密切相关联的部分,如图3所示,控制部160具有:数据管理部160a、Burst计算部160b、用户辞典登记部160c、形式要素分析部160d、综合Burst计算部160e、主题类型判定部160f、相关关键字检测部160g、共现关键字检测部160h、输出关键字判定处理部160i。

其中,数据管理部160a是如下的单元:从服务器40取得检索记录信息,将其存储在Web内容数据库150a中,并且,从各种内容存储装置30取得各种内容的信息,将其存储在Web内容数据库150a中。另外,数据管理部160a在收集保证了发布日期时间的各种内容的情况下,利用现有技术(日本特开2006-236262)所公开的技术即可。

并且,数据管理部160a进行存储在Web内容数据库150a中的新闻和博客的索引化,生成新闻/博客表150b(参照图4)。另外,在进行索引化的情况下,关于从新闻/博客中选择的关键字,只要能够通过日期时间和所选择的关键字唯一确定该新闻或博客,则可以选择任意的关键字。

进而,数据管理部160a根据存储在Web内容数据库150a中的检索记录信息,生成检索词表150c(参照图5)。在生成检索词表的情况下,数据管理部160a根据检索记录信息所包含的过去的关键字的检索数量,计算平均检索数量,将计算出的平均检索数量存储在检索词表150c中。

Burst计算部160b是根据检索词表150c或Burst计算参数表150f来计算Burst值的单元。首先,说明Burst计算部160b根据检索词表150c计算Burst值的情况。如上所述,该Burst值是表示由用户检索的关键字的每单位时间的增加量的值。Burst值如何计算都可以,例如能够通过下式计算。

>ATt(Wi)1=UUt(Wi)×(UUt(Wi)-Ct1t-1Σk=1t-1UUk(Wi))Ct1t-1Σk=1t-1UUk(Wi)···(1)>

这里,说明式(1)的各项目。UUt(Wi)表示时刻t时的关键字(wi)的用户数量,Ct1表示UUt(Wi)的校正值。使用式(1),能够计算时刻t时的Burst值ATt(Wi)1。另外,式(1)的分母对应于检索词表的平均检索数量,式(1)的UUt(Wi)对应于检索词表150c的检索数量。Burst计算部160b与关键字对应地将Burst值ATt(Wi)1存储在检索词表150c的Burst值域中。

接着,说明Burst计算部160b根据Burst计算参数表150f计算Burst值的情况。此时的Burst值例如能够通过下式计算。

>ATt(Wi)2=Ft(Wi)×(Ft(Wi)-Ct2t-1Σk=1t-1Fk(Wi))Ct2t-1Σk=1t-1Fk(Wi)···(2)>

这里,说明式(2)的各项目。Ft(Wi)表示时刻t发布的内容所包含的关键字的频度,Ct2表示Ft(Wi)的校正值。使用式(2),能够计算时刻t的Burst值ATt(Wi)2。另外,式(2)的分母对应于Burst计算参数表150f的平均,式(2)的Ft(Wi)对应于Burst计算参数表150f的内容。Burst计算部160b与关键字对应地将Burst值ATt(Wi)2存储在Burst计算参数表150f的Burst值域中。

用户辞典登记部160c是如下的单元:根据存储在检索词表150c中的信息,检索存储在Burst值域中的Burst值为阈值以上的关键字,将检索到的关键字存储在用户辞典表150d(参照图6)中。

形式要素分析部160d是如下的单元:使用用户辞典表150d的形式要素域所记载的各关键字,执行新闻/博客表150b的新闻(博客)内容域所记载的文本内容或Web内容数据库150a所记载的信息的形式要素分析。形式要素分析部160d将形式要素分析结果存储在形式要素分析结果管理表150e中。

形式要素分析部160d根据新闻/博客表150b的新闻(博客)内容域所记载的文本内容或Web内容数据库150a所记载的信息,使用由形式要素分析结果得到的形式要素(关键字),对标题所包含的关键字的数量、被增强的关键字的数量、关键字展开链接的数量、以及新闻和博客所包含的关键字的数量进行计数。

形式要素分析部160d将所计数的数量与关键字对应起来存储在形式要素分析结果表150e的标题域、增强域、链接域、内容域中。并且,形式要素分析部160d也将文档源ID、场所的信息存储在形式要素分析结果表150e中。

进而,形式要素分析部160d根据由形式要素分析结果得到的形式要素(关键字)和存储在Web内容数据库150a或新闻/博客表150b中的信息,生成Burst计算参数表150f(参照图8)。形式要素分析部160d根据存储在Web内容数据库150a或新闻/博客表150b中的信息所包含的关键字的检索数量,计算每单位时间检索关键字的平均检索数量。将计算出的平均检索数量存储在Burst计算参数表150f的平均域中。

综合Burst计算部160e是计算与关键字对应的综合Burst值的单元。具体而言,说明综合Burst计算部160e进行的处理时,能够通过TB(kwi)=SB(kwi)×CB(kwi)+α(kwi),来计算与关键字对应的综合Burst值TB(kwi)。这里,说明各项目时,SB(kwi)表示存储在检索词表150c的Burst值域中(与该关键字对应)的Burst值。并且,CB(kwi)表示存储在Burst计算参数表150f的Burst值域中(与该关键字对应)的Burst值。

α(kwi)是通过表示存储在Burst计算参数表150f的标题域中的关键字的数量的T(kwi)、表示存储在增强域中的关键字的数量的L(kwi)、和表示存储在链接域中的关键字的数量的E(kwi)计算出的值,具体而言,通过α(kwi)=β×(T(kwi)+L(kwi)+E(kwi))来计算。上述式中的β是用于取得综合Burst值的平衡的系数。

综合Burst计算部160e将计算出的综合Burst值(TB(kwi))与关键字对应起来存储在综合Burst存储表150g(参照图9)中。另外,综合Burst计算部160e根据Burst计算参数表150f,预先登记与综合Burst存储表150g的各关键字对应的SB(kwi)、CB(kwi)、α(kwi)的值。另外,综合Burst计算部160e在SB(kwi)的值为0的情况下,代替0而登记1。同样,综合Burst计算部160e在CB(kwi)的值为0的情况下,代替0而登记1。

主题类型判定部160f是如下的单元:判定与关键字对应的主题类型(反复型、递增型或突发型),按照每个关键字将判定结果存储在主题类型管理表中。具体而言,主题类型判定部160f检测存储在综合Burst存储表150g的TB(kwi)域中的综合Burst值为阈值以上的关键字。

而且,主题类型判定部160f计算与检测到的关键字对应的综合Burst值在过去一定期间内的时间序列推移,在多个时刻计算从过去的t-1到t(在t中代入与每天的时刻对应的数值)的微分值,根据各时刻的微分值来判定主题类型。另外,能够根据过去一定期间内的综合Burst值和日期时间之间的关系,通过近似式来确定过去一定期间内的综合Burst值的时间序列推移。

在各时刻的微分值反复加减n次以上的情况下,主题类型判定部160f将对应的关键字的主题类型判定为“反复型”。并且,在各时刻的微分值在规定期间以上的期间连续增加m次以上的情况下,主题类型判定部160f将对应的关键字的主题类型判定为“递增型”。并且,在各时刻的微分值在小于规定期间的期间连续增加m次的情况下,主题类型判定部160f将对应的关键字的主题类型判定为“突发型”。

相关关键字检测部160g是利用综合Burst值为阈值以上的关键字来检测相关系数为规定值以上的关键字组的单元。具体而言,该相关关键字检测部160g根据综合Burst存储表150g,取出综合Burst值TB(kwi)为阈值T以上的关键字。

而且,相关关键字检测部160g利用所取出的各关键字的综合Burst值TB(kwi),计算相关系数。相关系数如何计算都可以,例如能够通过下式计算。

>Σi=1n(xi-x)(yi-y)Σi=1n(xi-x)2Σi=1n(yi-y)2···(3)>

这里,说明式(3)的各项目,xi对应于关键字的综合Burst值TB(kwi),yi对应于作为相关系数的比较对象的关键字的综合Burst值(kwj)。

相关关键字检测部160g使用式(3)取出与关键字的相关系数为规定值以上的关键字组,将取出的关键字组作为相关关键字CO(kwi)存储在相关关键字表中。由存储在图11的第1段中的结果可知,关键字“株式会社A”的综合Burst值TB(kwi)和相关关键字“服务A”的综合Burst值TB(kwj)之间的相关系数为规定值以上。同样,可知关键字“株式会社A”的综合Burst值TB(kwi)和相关关键字“个人计算机B”的综合Burst值TB(kwi)之间的相关系数为规定值以上。

共现关键字检测部160h是如下的单元:利用综合Burst值为阈值以上的关键字,取出在文档中与该关键字一起出现(共现)的关键字,作为共现关键字。

具体而言,共现关键字检测部160h根据综合Burst存储表150g,取出综合Burst值TB(kwi)为阈值T以上的关键字。然后,共现关键字检测部160h根据所取出的关键字和形式要素分析结果表150e,确定该关键字的场所(文档上的位置)。

共现关键字检测部160h根据所确定的场所和Web内容数据库150a或新闻/博客表150b,取出场所值前后的m个词(关键字)作为共现关键字RK(kwi),将所取出的共现关键字与对应的关键字对应起来存储在共现关键字表150j中。共现关键字检测部160h还针对其他文档源ID执行该处理。

另外,共现关键字检测部160h在将共现关键字存储在共现关键字表150j中的情况下,按照文档上的共现关键字的频度的大小顺序进行存储。在图12的第1段所示的例子中,按照研究所、开发、...的顺序存储共现关键字,所以,关于与关键字“株式会社A”一起出现在文档上的频度,共现关键字“研究所”的频度比“开发”的频度大。

输出关键字判定处理部160i是如下的单元:生成输出到用户终端20的关键字组(存储在最终结果存储表150k中的信息),将所生成的关键字组输出到用户终端20。具体而言,输出关键字判定处理部160i通过关键字(kwi)&相关关键字CO(kwi) & RK(kwi)&日期时间这样的检索条件来检索新闻/博客表150b。

输出关键字判定处理部160i在命中该检索条件的件数为1以上的情况下,将与检索条件对应的关键字、日期时间、综合Burst值TB(kwi)、SUB(kwi)以及关键字的主题类型存储在最终结果存储表150k中。另外,在SUB(kwi)中存储检索条件所包含的相关关键字CO(kwi)和共现关键字RK(kwi)。输出关键字判定处理部160i根据主题类型管理表150h,将关键字的主题类型存储在最终结果存储表中。输出关键字判定处理部160i按照综合Burst值的大小顺序对存储在最终结果存储表150k中的关键字进行存储。

在上述检索结果的出现数量为0的情况下,从检索条件中排除频度低的相关关键字CO(kwi)或共现关键字RK(kwi),再次检索新闻/博客表150b。输出关键字判定处理部160i进行检索条件的再次设定(从检索条件中排除频度低的相关关键字CO(kwi)或共现关键字RK(kwi)的设定)并反复进行检索,直到检索结果的出现数量为1以上。

另外,输出关键字判定处理部160i参照最终结果存储表150k的主题类型域,取出突发型的关键字。然后,输出关键字判定处理部160j通过所取出的关键字(kwi) & CO(kwi) & RK(kwi)这样的从检索条件中排除日期时间后的新的检索条件,检索新闻/博客表150b,判定出现件数是否大于1。在输出关键字判定处理部160i判定为出现件数大于1的情况下,删除对应的关键字的主题类型“突发型”。在除此之外的情况下,保留主题类型。

接着,说明本实施例的网络话题积累装置100的处理。图14是示出本实施例的网络话题积累装置100的处理步骤的流程图。如该图所示,在网络话题积累装置100中,数据数据管理部160a从各种内容存储装置30和服务器40取得新闻、博客、检索记录的信息,将其存储在Web内容数据库150a中(步骤S101)。

数据管理部160a进行存储在Web内容数据库150a中的数据的索引化,生成新闻/博客表150b和检索词表150c(步骤S102),Burst计算部160b计算检索词表150c所包含的关键字的Burst值(步骤S103)。

接着,用户辞典登记部160c将Burst值为阈值以上的关键字登记在用户辞典表150d中(步骤S104),形式要素分析部160d根据登记在用户辞典表150d中的数据,对新闻/博客的文本内容执行形式要素分析(步骤S105)。Burst计算部160b计算执行形式要素分析的结果得到的关键字的Burst值,将其存储在Burst计算参数表150f中(步骤S106)。

然后,形式要素分析部160d对标题所包含的关键字的数量进行计数(步骤S107),对针对关键字展开链接的数量进行计数(步骤S108),对通过Bold等增强了关键字的数量进行计数(步骤S109)。

综合Burst计算部160e根据Burst计算参数表150f计算综合Burst值,将其存储在综合Burst存储表150g中(步骤S110)。主题类型判定部160f根据过去的综合Burst值的时间序列推移来判定主题类型,将其存储在主题类型管理表150h中(步骤S111)。

接着,相关关键字检测部160g检测与过去的综合Burst值的时间序列推移高度相关(相关系数为阈值以上)的关键字组CO,将其存储在相关关键字表150i中(步骤S112)。共现关键字检测部160h在新闻和博客的内容中检测与综合Burst值高(阈值以上)的关键字一起出现的关键字组RK,将其存储在共现关键字表150j中(步骤S113)。

然后,输出关键字判定处理部150i根据综合Burst值的排名(综合Burst值的大小顺序),通过关键字(kwi)&相关关键字CO(kwi)&共现关键字RK(kwi)&日期时间(Date)的检索条件来检索新闻/博客表150b(步骤S114),根据综合Burst值的排名,以关键字(kwi)+相关关键字CO(kwi)+共现关键字RW(kwi)+主题类型的形式,向用户终端20输出主题(步骤S115)。

这样,输出关键字判定处理部以关键字(kwi)+相关关键字CO(kwi)+共现关键字RW(kwi)+主题类型的形式,向用户终端20输出主题,所以,用户能够获得话题的主题,并且,能够容易地掌握主题成为话题的理由。

如上所述,在本实施例的关键字管理系统中,网络话题积累装置100计算表示关键字的每单位时间的增加值的Burst值,根据计算出的Burst值和与该Burst值对应的关键字在内容中的特征(标题中包含关键字的数量、展开链接的数量、被增强的数量),计算综合Burst值。然后,网络话题积累装置100根据综合Burst值的时间序列推移,从内容中提取与对应于综合Burst值的关键字的关联关键字(相关关键字和共现关键字),将把关键字和关联关键字对应起来的信息作为主题,输出到用户终端20,所以,明确主题为什么成为话题,并能够向用户通知成为话题的主题的信息。

并且,本实施例的网络话题积累装置100在主题的信息中包含主题类型并将其输出到用户终端,所以,用户能够容易地理解通过怎样的经过成为话题的主题。

并且,在本实施例的网络话题积累装置100中,形式要素分析部160d利用存储在用户辞典表150d中的形式要素,执行新闻或博客的形式要素分析,所以,能够更准确地执行未知词等的切出。

但是,在本实施例中说明的各处理中,能够手动进行作为自动进行的处理而说明的处理的全部或一部分,或者,能够利用公知的方法自动进行作为手动进行的处理而说明的处理的全部或一部分。除此之外,针对上述文档中和附图中所示的处理步骤、控制步骤、具体名称、包含各种数据和参数在内的信息,除了特意标记的情况以外,能够任意变更。

并且,图2所示的关键字管理系统的结构和图3所示的网络话题积累装置100的各结构要素是功能上的概念,在物理上不一定如图所示那样构成。即,各装置的分散/统合的具体形式不限于图示的形式,能够构成为根据各种负荷或使用状况等,以任意单位在功能上或物理上对其全部或一部分进行分散/统合。进而,在各装置中进行的各处理功能的全部或任意一部分利用CPU和在该CPU中执行分析的程序来实现,或者,也能够作为基于布线逻辑的硬件来实现。

图15是示出构成图3所示的网络话题积累装置100的计算机的硬件结构的图。该计算机50构成为,利用总线59来连接接收来自用户的数据输入的输入装置51、监视器52、RAM(Random Access Memory)53、ROM(Read Only Memory)54、从记录了各种程序的记录介质中读取程序的介质读取装置55、经由网络在与其他计算机之间进行数据收发的网络接口56、CPU(Central Processing Unit)57、以及HDD(Hard Disk Drive)58。

而且,在HDD 58中存储有发挥与上述网络话题积累装置100的功能相同的功能的话题关键字提供程序58b。而且,CPU 57从HDD 58中读出并执行话题关键字提供程序58b,由此,实现上述网络话题积累装置100的功能部的功能的话题关键字提供处理57a起动。该话题关键字提供处理57a对应于图3所示的数据管理部160a、Burst计算部160b、用户辞典登记部160c、形式要素分析部160d、综合Burst计算部160e、主题类型判定部160f、相关关键字检测部160g、共现关键字检测部160h、输出关键字判定处理部160i。

并且,在HDD 58中存储有与存储在上述网络话题积累装置100的存储部150中的数据对应的各种数据58a。该各种数据58a对应于图3所示的Web内容数据库150a、新闻/博客表150b、检索词表150c、用户辞典表150d、形式要素分析结果管理表150e、Burst计算参数表150f、综合Burst存储表150g、主题类型管理表150h、相关关键字表150i、共现关键字表150j、最终结果存储表150k。

CPU 57在HDD 58中存储各种数据58a,并且,从HDD 58中读出各种数据58a并将其存储在RAM 53中,利用存储在RAM 53中的各种数据53a,将成为话题的主题的信息与关联关键字对应起来输出到用户终端20。

产业上的可利用性

如上所述,本发明的关键字管理系统在进行向用户终端提供主题的服务的系统中是有用的,特别适合于需要提供主题以使用户能够舒适地检索成为话题的主题的情况。特别地,考虑对利用时间序列整理成为话题的主题并对用户感兴趣的主题进行引用,或附加注释来收集具有相同嗜好的用户的小区服务的应用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号