首页> 中国专利> 见解抽出装置、见解更新装置及程序

见解抽出装置、见解更新装置及程序

摘要

本发明提供一种在未与见解信息抽出对象建立关联的状态下从随时发布的电子文档抽出与该见解抽出对象有关的见解信息的见解抽出装置及程序。实施方式的见解抽出装置具备:信息接收部,接收电子文档;见解抽出部,根据抽出见解信息的对象词和抽出见解信息的线索词而从电子文档抽出概念,并制作使所抽出的该概念和对象词建立了关联而得到的见解信息;存储部,存储所抽出的见解信息;以及信息分析部,在存储了见解信息后,根据存储部内的见解信息来分析电子文档。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-05-03

    授权

    授权

  • 2014-03-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120531

    实质审查的生效

  • 2014-02-12

    公开

    公开

说明书

技术领域

本发明的实施方式见解抽出装置、见解更新装置及程序。

背景技术

有为了有效活用由因特网等提供的大量数据,而使用与某个概念有关 的同义词、定义了概念间的关联的词典(thesaurus)等,从大量的数据中选 择与用户需要的信息相关联的信息、或者组合所选择的信息而提供见解信 息的技术。

例如,在股票交易中,迅速取得并判断成为股票变动的时机那样的见 解信息并反映到交易内容是有效的。例如,在与通常不同的时期流行了新 型的流行性感冒的情况下,容易预计制造预防感染所使用的口罩的企业、 制造消毒药的企业的需求会增加,相关企业的股价会上升。进行股票交易 的用户根据“流行性感冒的与通常不同的时期的流行”的信息推测需求增 加的品种(日文:銘柄)、并反映到交易中是有效的。

据此,以往有与证券信息一起提供新闻(news)的技术、根据用户的 检索要求抽出关联新闻并作为见解信息而提供的技术。

作为上述那样的技术,例如,有在同一画面上显示股价行情图和关联 新闻的技术(第一技术),将注目的品种的关联品种(同行业其它公司、 客户、主要融资银行、有资本关系等预先设定的品种)中与注目的品种同 时期地发生了同样的股价变动的品种作为关联品种而存储的技术(第二技 术)。

此外,有以用户的要求作为触发、根据存储装置所保持的新闻中的“~ 关联股票”“~特需”等线索词,进行用于注目品种检索的关键词抽出和品 种建立关联并提示给用户的技术,在一般的词典构筑等领域中根据与发生 的多个句法解析结果中的出现数相应的确信度来管理并更新单词的互相关 联的技术(第三技术)。此外,还有从文件组取得与企业名共同出现的关 联词并保持在表中、并且将该共同出现对影响股价变动的程度保持在预测 系数表中,分别管理并更新关联词的评价值和预测系数,来进行股价预测 的技术(第四技术)。

但是,在将股价行情图和新闻在同一画面上提示给用户的第一技术中, 有必须使预先抽出品种等见解信息的对象的词(以下称为见解信息抽出对 象词)与新闻建立关联的问题。

此外,在将与注目的品种同时期地发生了同样的股价变动的品种作为 关联品种而存储的第二技术中,有未发生同样的变动的品种不建立关联的 问题。此外,预先设定与注目的品种具有同行业等明示性的关联的品种, 因此会限定将品种分组的范围。

第三技术中,根据存储装置中所保持的新闻来执行关键词抽出以及品 种关联建立,但并未公开其活用方法、更新方法。

此外,第三技术中,评价单词的互相关联的确信度,并根据以后取得 的新语料库来更新确信度,但信息源是单独的(同种的信息)。

在第四技术中,取得并管理企业名的关联词,还管理并更新其对股价 变动的影响,但根据股价变动更新的对象仅为预测系数。

现有技术文献

专利文献

专利文献1:日本特开2003-108785号公报

专利文献2:日本特开2003-162639号公报

专利文献3:日本特开平9-160915号公报

专利文献4:日本特开2011-141833号公报

发明内容

发明要解决的课题

本发明要解决的课题在于提供一种见解抽出装置、见解更新装置及程 序,在未与见解信息抽出对象建立关联的状态下,从随时发布的电子文档 抽出与该见解抽出对象词有关的见解信息。

用于解决课题的手段

实施方式的见解抽出装置,从电子文档抽出见解信息,该见解抽出装 置具备:信息接收部,接收电子文档;见解抽出部,根据抽出见解信息的 对象词和抽出见解信息的线索词而从电子文档抽出概念,制作使所抽出的 该概念和对象词建立了关联而得到的见解信息;存储部,存储所抽出的见 解信息;以及信息分析部,在存储了见解信息后,根据存储部内的见解信 息来分析电子文档。

附图说明

图1是表示第一实施方式中的见解抽出装置的构成例的图。

图2是表示第一实施方式中的第一线索词辞典的例子的图。

图3是表示第一实施方式中的见解抽出对象词辞典的例子的图。

图4是表示第一实施方式中的第二线索词辞典的例子的图。

图5是表示第一实施方式中的电子文档的例子的图。

图6是表示第一实施方式中的电子文档的例子的图。

图7是表示按照第一实施方式的用户终端装置的构成例的图。

图8是详细表示第一实施方式中的见解抽出部的处理动作的图。

图9是用于说明第一实施方式中的见解抽出部的处理动作的一例的流 程图。

图10是表示第一实施方式中的处理动作的顺序的概略的图。

图11是表示第一实施方式中的来自分析对象的电子文档的第一概念名 即组名、品种、股票交易素材的抽出结果的一例的图。

图12是表示第一实施方式中的见解信息的一例的图。

图13是详细表示第一实施方式中的信息分析部的处理动作的图。

图14是用于说明第一实施方式中的信息分析部的处理动作的一例的流 程图。

图15是用于说明第一实施方式中的信息分析部的处理动作的一例的流 程图。

图16是表示第二实施方式中的第二线索词辞典的例子的图。

图17是表示第二实施方式中的电子文档的例子的图。

图18是表示第二实施方式中的见解信息的例子的图。

图19是用于说明第三实施方式中的见解抽出部的处理动作的一例的流 程图。

图20是表示第三实施方式中的见解抽出部的处理结果的一例的图。

图21是表示第四实施方式中的见解抽出装置的构成例的图。

图22是表示第四实施方式中的见解信息的一例的图。

图23是表示第四实施方式中的见解评价更新装置的处理动作的一例的 图。

图24是用于说明第四实施方式中的见解评价更新装置的处理动作的一 例的流程图。

图25是用于说明第四实施方式中的见解评价更新装置的处理动作的一 例的流程图。

图26是表示第四实施方式中的见解评价更新装置的评价信息的一例的 图。

图27是表示第四实施方式中的见解评价更新装置的确信度更新规则的 一例的图。

图28是表示第四实施方式中的见解评价更新装置的确信度更新处理的 一例的图。

图29是表示第四实施方式中的见解评价更新装置的确信度更新处理的 一例的图。

图30是表示第四实施方式中的见解评价更新装置的确信度更新的效果 的一例的图。

图31是表示第五实施方式中的分析对象的新闻信息的例子的图。

图32是表示第五实施方式中的关联词信息的例子的图。

图33是表示第五实施方式中的见解抽出装置的构成例的图。

图34是表示第六实施方式中的见解抽出装置的构成例的框图。

图35是表示第六实施方式中的见解抽出装置的第一线索词辞典的例子 的模式图。

图36是表示第六实施方式中的见解抽出装置的见解抽出对象词辞典的 例子的模式图。

图37是表示第六实施方式中的见解抽出装置的第二线索词辞典的例子 的模式图。

图38是表示第六实施方式中的见解抽出装置的电子文档的例子的模式 图。

图39是详细表示第六实施方式中的见解抽出部的处理动作的模式图。

图40是详细表示第六实施方式中的信息分析部的处理动作的模式图。

图41是表示第六实施方式中的见解抽出部的处理结果的一例的模式 图。

图42是表示第六实施方式中的见解评价更新装置的处理结果的一例的 模式图。

具体实施方式

以下,使用附图对各实施方式的见解抽出装置进行说明。另外,以下 的各装置,按每个装置,通过硬件构成或硬件资源和软件的组合构成的任 一种都能够实施。作为组合构成的软件,使用预先从网络或存储介质安装 到对应的装置的计算机上的用于实现对应的装置的功能的程序。

(第一实施方式)

图1是表示第一实施方式涉及的见解抽出装置的构成例的框图。本实施 方式的见解抽出装置1能够用于向进行股票交易的用户、进行股票交易判断 的算法交易引擎等系统(复合事件处理引擎,包括组入了CEP等的引擎)的 证券市场开盘时间中的信息提供,从例如由因特网等发布的新闻信息等电 子文档抽出与股票交易有关的见解信息。抽出结果的见解信息能够用于信 息提供等。

具体地,该见解抽出装置1在接收到新闻信息中的经济新闻时,例如, 获得与关键词“流行性感冒”相关联的品种分组的知识、根据“流行性感 冒”关联品种而成为股价变动的素材的“集体感染”“禽流感”的知识, 并将这些知识作为见解信息而保持。此外,见解抽出装置1在接收到包括经 济新闻的因特网发布新闻、企业信息时,参照所保持的见解信息,对新闻 信息赋予“流行性感冒”等的组、属于相关组的品种、相关组的股价变动 素材的有无的信息,并能够向算法交易引擎等系统或者进行股票交易的用 户的用户终端装置提供。即,见解抽出装置1抽出包括用于进行品种等见解 抽出对象词的分组的信息即概念(第一概念)、与第一概念建立建立关联 的信息(第二概念)的见解信息。

例如,在抽出与股票交易有关的见解信息的情况下,使见解抽出装置1 存储股票的品种所属的业界(例:金融、金属、广告等)成为第一概念那 样的线索词(第一线索词)。对于第一线索词,将在后面描述。第二概念 是与第一概念不同的概念,根据后述的第二线索词来抽出。

此外,见解抽出装置1也可以称为见解抽出系统1。

具体地,见解抽出装置1具备进行装置整体的控制的控制部10、存储部 11、信息接收部12、信息选择部13、见解抽出部14、信息分析部15及输入 输出接口16,各部分11~16经由总线17而被连接。

存储部11由例如硬盘驱动器、非易失性存储器装置等硬件构成。存储 部11除了存储控制部10的执行对象的程序以外,还保持由见解抽出部14抽 出的见解信息、接收并进行了分析的电子文档等。此外,存储部11还保持 后述的第一线索词辞典111、见解抽出对象词辞典112、第二线索词辞典113 及处理中途的数据等。

第一线索词辞典111,如图2中表示的一例那样地,将识别第一线索词 的代码和成为将见解信息抽出对象分组的第一概念的线索的第一线索词建 立关联地进行记述。即,本实施方式的电子文档根据预先存储的第一线索 词而赋予第一概念名(组名)。本实施方式的第一线索词辞典可以称为组 定义词辞典111。

见解抽出对象词辞典112,如图3中表示一例那样地,在本实施方式中 将识别从电子文档抽出见解信息的对象词(见解抽出对象词)即品种的证 券代码、品种的企业名、表示品种的行业的大分类的东证行业1、表示东证 行业1内的小分类的东证行业2、及表示品种的企业名的企业名表述建立关 联地进行记述。作为企业名表述,能够使用企业名的正式名称、简称、通 称、俗称、昵称等各种名称。另外,企业名表述并不限于名称,也可以使 用各企业的证券代码。即,在本实施方式中,可以将见解抽出对象词辞典 称为品种辞典112。

第二线索词辞典113,如图4中表示一例那样地,将识别第二线索词(素 材表述线索词)的代码和相对后述的见解抽出判定词的表述的线索词建立 关联地进行记述。即,在本实施方式,可以将第二线索词辞典113称为素材 表述线索词辞典113。

信息接收部12接收由因特网发布的新闻信息。图5及图6是由因特网发 布的新闻信息的例子。新闻信息的接收,可以是与发布业者订立合同并接 受发布的方式,也可以发现并取得通过一般被称为检索机器人或爬虫的因 特网检索程序而新发布的新闻信息的方式。在本实施方式中,利用由因特 网发布的新闻信息的构成要素中、图5及图6所示的“时间戳”“新闻 源”“种类”“新闻标题”“新闻正文”这五个项目、及信息接收部12赋 予的“新闻ID”。“时间戳”是赋予所发布的新闻信息的发布日期时间信 息。“新闻源”是提供了该信息的事业者的名称。“种类”是表示赋予新 闻信息的“经济”“社会”“体育”等种类(领域)的标签信息。“种类” 也可以在新闻接收时未赋予。“新闻标题”是所发布的新闻信息的标题部 分的日语字符串,“新闻正文”是除了所发布的新闻信息的标题以外的正 文部分的日语字符串。

信息选择部13从信息接收部12所接收的新闻信息、在此处选择经济新 闻(包括经济术语的新闻信息)。是经济新闻的判断是如下进行的,例如, 对所接收的新闻信息赋予了“种类”的情况下,“种类”是“经济”“行 情”等经济和包括其近义词中的任一个术语的表述。在对所接收的新闻信 息未赋予“种类”的情况下,例如,通过在新闻标题或者新闻正文中包括 “东证”“大证”“日经平均”“股价”“股票市场”“当天最高 价”“收盘价”“成交额”等经济术语、尤其与股票交易有关的术语的任 一个来进行判断。即,信息选择部13选择与见解抽出对象词关联性高的电 子文档。

见解抽出部14用于从由信息输入部13选择的新闻信息抽出见解信息, 例如,通过后述的见解抽出判定词检查部141、第一线索词检查部142、第 一概念抽出部143、见解抽出对象词抽出部144、第二概念抽出部145、组合 制作部146及第一概念检查部147,使用存储部11内的各辞典111~113,从见 解信息抽出对象的经济新闻中抽出将见解抽出对象即品种分组的第一概念 名、属于组的品种、成为股价变动的主要原因的素材表述,并作为品种分 组、素材(事件)的见解信息而写入存储部11。此处,作为见解信息,例 如,能够使用包括第一概念名、品种及股价变动素材的信息、或包括由第 一概念名及品种构成的第一信息和由股价变动素材构成的第二信息的信 息,但并非限定于这些组合。另外,见解抽出部14还能够取代由信息选择 部13选择的信息而从存储部11中存储的电子文档抽出见解信息。

另外,见解抽出部14并不限于使用这些各部分141~147及各辞典 111~113的方法,例如,也可以通过使用句法解析、含义解析、上下文解析 将品种分组的方法,来抽出见解信息。在后者的方法中,例如“受到流行 性感冒的流行,而将XX公司进入排名(日文:ランクイン)”那样地,从 不包括图2所示的组定义词的新闻信息也能够抽出见解信息。

信息分析部15,在将见解信息存储到存储部11后,根据存储部11内的 见解信息来分析信息接收部12中(新)接收的全部新闻信息,例如,具备 后述的见解抽出对象词·第一概念·第二概念抽出部151、电子文档分配部 152及按见解抽出对象判定部153。此外,信息分析部15,在新接收的新闻 信息中存在与分组、素材(事件)的见解信息相关的信息的情况下,也可 以对该新闻信息赋予该见解信息。信息分析部15也可以进一步,将包括新 接收的新闻信息在内的在一定时间处理的新闻信息分为组、品种,根据各 个组、品种进行统计处理,并赋予统计信息。

在一系列的处理结束后,信息分析部15的输出作为新闻信息的分析结 果而通过输入输出接口16提示给用户终端装置。

输入输出接口16能够经由电缆与未图示的外部存储装置连接,并在与 该外部存储装置之间输入输出存储部11中存储的见解信息、分析结果保存 数据库(未图示)的数据。

图7是表示与以上那样的见解抽出装置1连接的用户终端装置的构成例 的框图。用户终端装置2是利用见解抽出装置1的用户操作的终端装置。用 户终端装置2具备进行装置整体的处理的终端控制部21、终端存储部22、显 示部23、输入部24及通信接口25,并分别经由总线26而相互连接。

终端存储部22是例如由硬盘驱动器、非易失性存储器装置等硬件构成 的存储装置。终端存储部22存储控制用的程序。此外,终端存储部22还作 为终端控制部21的各种处理的工作存储器起作用。

显示部23例如是液晶显示器,将信息分析部15的输出向用户输出。例 如,将新接收的新闻信息的发布时刻(时间戳)、新闻源、在新闻信息中 作为话题的企业名·第一概念名、新闻信息所包含的股票交易素材(自公司 股票回购、经营恶化、流行性感冒的集体感染等)以表形式提示给用户。

输入部24例如是键盘、鼠标,受理见解抽出、信息分析及系统设定所 需的操作。

通信接口25经由电缆与见解抽出装置1连接,在用户终端装置2中进行 用户指定的条件、见解抽出装置1的处理结果等的交换。此外,通信接口25 能够经由电缆与外部存储装置连接,还可以在与该外部存储装置之间输入 输出存储部11中存储的品种分组、素材(事件)的见解信息、分析结果。

接着,对以上那样构成的见解抽出装置1的动作进行说明。图8是表示 见解抽出部14的处理动作的详细的模式图,图9是用于说明见解抽出部的处 理动作的一例的流程图。

另外,在以下的说明中,每当接收新闻信息都进行见解抽出部14的处 理,但该处理也可以在夜间等不进行信息分析处理的时间段、对已接收的 新闻信息汇总实施。

信息接收部12通过接受来自新闻发布位置的发布、或访问新闻发布位 置,来接收新的新闻信息。例如,接收图5及图6中与图5所示的新闻ID“1” 相关的新闻信息。

信息选择部13从信息接收部12接收的电子文档即新闻信息、选择经济 新闻作为抽出见解信息的电子文档(步骤S1)。是经济新闻的判断是如下 进行的,例如,对接收的新闻信息赋予了“种类”的情况下,“种类”是 “经济”“行情”等经济和包括其近义词中的任一个的表述。

在对所接收的新闻信息未赋予“种类”的情况下,例如,通过在新闻 标题或者新闻正文中包括“东证”“大证”“日经平均”“股价”“股票 市场”“当天最高价”“收盘价”“成交额”等经济术语、尤其与股票交 易有关的术语的任一个来进行判断。所选择的新闻信息从信息选择部13被 送出到见解抽出部14。

在见解抽出部14中,见解抽出判定词检查部141判定是否包括判定信息 选择部13所选择的新闻信息是否为有抽出见解信息的可能性的电子文档的 见解抽出判定词(步骤S2)。

在本实施方式中,设见解抽出判定词为评价股价变动的股价变动评价 词。即,在本实施方式中,可以将见解抽出判定词检查部141称为股价变动 评价词检查部141。

例如,见解抽出判定词检查部141判定所接收的新闻信息的新闻标题或 者新闻正文是否包含“当天最高价更新”“剧烈变动”“反弹”“暴 跌”“连续上涨”“进入排名”等股价变动评价词。

在新闻信息中包含股价变动评价词的情况下,见解抽出部14判定为该 新闻信息是包括见解信息的新闻信息,并将新闻信息发送给第一线索词检 查部142。

另外,“股价变动评价词”,如果是评价股价的变动的内容,则也可 以改说为“股价变动表述词”、“股价变动词”或“股价变动定义词”这 样的其它术语。

第一线索词检查部142,在步骤S2的判定的结果为新闻信息包括股价变 动评价词时,判定该新闻信息是否包含定义品种的第一概念名的第一线索 词(组定义词)(步骤S3)。即,本实施方式的第一线索词检查部142也可 以称为组定义词检查部142。

例如,第一线索词检查部142参照第一线索词辞典111,判定所接收的 新闻信息的新闻标题或者新闻正文是否包含组定义词的至少一个。例如图5 所示的新闻ID“1”的新闻包含组定义词“关联品种”。

在所接收的新闻信息不包含组定义词的情况下,省略第一概念抽出部 143的步骤S4的处理。

在所接收的新闻信息包含组定义词的情况下,第一线索词检查部142将 新闻信息发送给第一概念抽出部143。

第一概念抽出部143,在步骤S3的判定的结果为新闻信息包含组定义词 时,根据该组定义词从该新闻信息抽出第一概念名(步骤S4)。

例如,第一概念抽出部143,在接收到包含组定义词的新闻信息时,抽 出组定义词紧前的名词作为第一概念名。在所接收的新闻信息例如是图5所 示的新闻ID“1”的情况下,抽出组定义词“关联品种”的紧前的名词“流 行性感冒”作为第一概念名。

虽然使第一概念名为名词,但也可以不将“流行性感冒”那样的单词、 而将“新型流行性感冒”“季节性流行性感冒”那样的复合名词作为抽出 对象。此外,在虽然包含组定义词但紧前不是名词的情况下,判断为不包 含第一概念名。

见解抽出对象词抽出部144,在见解抽出判定词检查部141的步骤S2的 判定的结果为新闻信息包含股价变动评价词时,从该新闻信息抽出包含企 业名及证券代码的品种。

具体地,见解抽出对象词抽出部144,对于例如在步骤S3或S4之后省略 第一概念抽出部143的处理而发送的新闻信息,参照见解抽出对象词辞典 112,判定新闻标题或者新闻正文是否包含见解抽出对象名表述(步骤S5), 在包含见解抽出对象名表述的情况下,抽出与该见解抽出对象名表述对应 的见解抽出对象词即品种(步骤S6)。即,本实施方式的见解抽出对象词 抽出部144也可以称为品种抽出部144。

在新闻标题或新闻正文具有见解抽出对象词辞典112的“见解抽出对 象名表述”列中的表述的情况下,判断为包含该行的“证券代码”“企业 名”中记载的见解抽出对象词即品种。

见解抽出对象词辞典112可以对一个证券代码包括多行的定义。此外, 可以从1件新闻信息抽出多个见解抽出对象名表述。

例如在图5的新闻ID“1”的新闻信息的情况下,包含见解抽出对象名 表述“RR某”“yy某HD”“某药品”,因此品种“证券代码1031企业名 RR某(株)”“证券代码1033企业名yy某控股(株)”“证券代码1041企 业名某药品(株)”被抽出。

在见解抽出对象词辞典112中,使见解抽出对象名表述为企业名称或者 企业名的简称,但也可以使各企业的证券代码为见解抽出对象名表述的一 例。本实施方式的见解抽出对象词辞典112中的见解抽出对象名表述可以称 为企业名表述。

另外,见解抽出对象词抽出部144,如图10所示,在步骤S2的结果为包 含股价变动评价词的情况下,只要抽出品种即可,因此并不限于步骤S3、 S4之后,在从步骤S2之后到步骤S9之前的期间的任意的时刻都能够抽出品 种。

第二概念抽出部145为,在见解抽出判定词检查部141的判定的结果为 新闻信息包含作为见解抽出判定词的股价变动评价词时,从该新闻信息抽 出股价变动素材作为第二概念。具体地,第二概念抽出部145判定包含股价 变动评价词的新闻信息的新闻标题或者新闻正文中是否包含第二线索词辞 典113内的第二线索词中的一个以上(步骤S7)。

在图9的流程图中,使步骤S7及步骤S8的处理在步骤S6之后,但也可以 在步骤S3的处理之前、或者与步骤S3到步骤S6的处理并列实施。

第二概念抽出部145,在所接收的新闻信息的新闻标题或者新闻正文中 包含第二线索词辞典113内的第二线索词的情况下,抽出与该第二线索词互 相关联的名词词组作为第二概念名(步骤S8)。在本实施方式中,第二概 念名可以称为股价变动素材表述。即,在本实施方式中,第二概念抽出部 145可以称为素材抽出部145。

例如,在图5所示的新闻ID“1”的新闻正文中,在第二句“○县公布 了在×市内的学生宿舍中发生了新型流行性感冒的集体感染,这似乎成了 线索素材。”中包含第二线索词“线索素材”。

与第二线索词“线索素材”互相关联的名词词组是“公布了发生了新 型流行性感冒的集体感染”。该名词词组“公布了发生了新型流行性感冒 的集体感染”作为股价变动素材(事件)表述而被抽出。

股价变动素材(事件)表述,也可以分析所抽出的名词词组、并将“发 生了新型流行性感冒的集体感染”或者“新型流行性感冒的集体感染”作 为抽出对象。

此外,也可以消去包含步骤S6、步骤S7中抽出的第一概念名“流行性 感冒”的“新型流行性感冒”和其附属词并以“集体感染”为抽出对象。

进一步,在相关的新闻正文如“○县公布了在×市内的学生宿舍中发 生了新型流行性感冒的集体感染。这似乎成了线索素材。”那样被分为两 个句子的情况下,也可以在抽出了与线索词“线索素材”互相关联的代名 词“这”之后,通过上下文解析,将“这”替换为上文的“○县公布了在 ×市内的学生宿舍中发生了新型流行性感冒的集体感染”,并根据替换后 的“○县公布了在×市内的学生宿舍中发生了新型流行性感冒的集体感 染”或者其分析结果,将“发生了新型流行性感冒的集体感染”、“新型 流行性感冒的集体感染”、或者“集体感染”作为抽出对象。

在从步骤S3到步骤S8的处理结束后,组合制作部146将从处理中的新闻 信息抽出的第一概念名、见解抽出对象词即品种及股价变动素材(第二概 念名或者事件)组合来制作见解信息,并将该见解信息写入存储部(步骤 S9)。

在从新闻信息抽出的第一概念名为一个的情况下,对该第一概念名分 配所抽出的全部品种(见解抽出对象词)、及所抽出的全部股价变动素材 (第二概念名)。即,允许对一个第一概念名分别分配一个或多个见解抽 出对象词即品种和第二概念即股价变动素材。

在分析对象的新闻信息为图6的新闻ID“3”的情况下,如图11所示, 从新闻正文抽出多个6件第一概念名、8件品种、3件股价变动素材。

在这样抽出的第一概念名为多个的情况下,也可以使用上下文解析等 高度的自然语言处理,来组合第一概念名、与第一概念名互相关联的品种、 与第一概念名互相关联或者与该第一概念名互相关联的品种互相关联的股 价变动素材。

此外,为了简便,也可以将新闻正文分成句子,并按每个句子组合第 一概念名、品种、股价变动素材。进一步,也可以将新闻正文一句句地取 出,在第一概念名与品种都收集齐时,将到此为止抽出的第一概念名、品 种、股价变动素材组合并输出,根据下一句重新组合第一概念名、品种、 股价变动素材。使见解信息针对第一概念名分配品种和股价变动素材,但 也可以制作没有品种或者股价变动素材的组合。

通过这样的处理,在本实施方式中,作为成为第一概念名、品种(企 业名表述)、股价变动素材的集合的见解信息,抽出以下的六个集合。

(1)第一概念名:石油  品种:○×△石〈1001〉,石油VV〈1002〉, 素材:报道了2010年4~12月期间综合经常利润2000亿日元以上。

(2)第一概念名:商社  品种:HH商〈1080〉。

(3)第一概念名:非铁金属  品种:SS矿〈1050〉。

(4)第一概念名:纤维  品种:纤维JJ〈1030〉。

(5)第一概念名:银行  品种:HH银〈1082〉。

(6)第一概念名:科技  品种:科技BB〈1060〉,QQ存储器〈1063〉, 素材:D证(D证券)提高投资判断。

使组合为使第一概念名、品种、股价变动素材成为集合,但也可以使 组合仅为第一概念名和品种,将股价变动素材单独作为见解信息来保持。 或者,也可以将股价变动素材不与第一概念名而是与品种成为集合而作为 见解信息来保持。

在组合制作部146的处理后,如图12中表示一例那样地,所抽出的见解 信息被写入存储部11(步骤S9)。另外,如图12所示,作为本实施方式中 的第一概念的例子,有“流行性感冒”、“石油”、“商社”、“非铁金 属”、“纤维”、“金属”、“科技”等。

在步骤S2中判定为没有股价变动评价词的经济新闻,通过第一概念检 查部147,来判定在新闻标题或者新闻正文中是否包含已写入存储部11中的 见解信息的第一概念名(现有第一概念名)(步骤S11)。在本实施方式中, 第一概念名为组名,因此第一概念检查部147可以称为组名检查部。

在包含现有第一概念名的情况下,见解抽出对象词抽出部144使用见解 抽出对象词辞典112,来判定在新闻标题和新闻正文中是否包含见解抽出对 象名表述(步骤S12)。

在包含见解抽出对象名表述的情况下,例如在有“加入”“新事业” 等表述的情况下,组合制作部146制作用于将与所抽出的见解抽出对象名表 述对应的品种追加到现有组中的处理的组合。

在有“撤退”等表述的情况下,组合制作部146制作用于对现有第一概 念除去与所抽出的见解抽出对象名表述对应的品种的处理的组合(步骤 S13)。

在步骤S13中制作了现有第一概念和品种的追加或者删除处理的组合 的情况下,对存储部11执行该处理(步骤S9)。

接着,根据图13、图14及图15说明信息分析部15的动作。

首先,信息接收部12通过接受来自新闻发布位置的发布、或访问新闻 发布位置,来接收新的新闻信息。例如,接收与图5的新闻ID2相关的新闻 信息(步骤S21)。所接收的新闻信息被发送给见解抽出对象词·第一概念· 第二概念抽出部151。

见解抽出对象词·第一概念·第二概念抽出部151,首先参照存储部11所 存储的见解抽出对象词辞典112,判定所接收的新闻信息的新闻标题或者新 闻正文中是否有见解抽出对象名表述(步骤S22)。

在有见解抽出对象名表述的情况下,见解抽出对象词·第一概念·第二 概念抽出部151抽出与所抽出的见解抽出对象名表述对应的企业名·证券代 码。此外,见解抽出对象词·第一概念·第二概念抽出部151,参照图12所示 的见解信息,抽出全部被分配了所抽出的企业名·证券代码的第一概念名 (步骤S23)。见解抽出对象词·第一概念·第二概念抽出部151及电子文档 分配部(新闻分配部)152,按每个从新闻标题和新闻正文抽出的企业名, 对该企业所属的各组进行步骤S24·步骤S25的处理。

首先,见解抽出对象词·第一概念·第二概念抽出部151,参照图12所示 的见解信息,抽出对在该时刻为处理中的企业名·该企业所属的第一概念名 分配的第二概念(股价变动素材),判定新闻标题·新闻正文中是否有相关 的股价变动素材(表述)(步骤S24)。

在有相关的股价变动素材(表述)的情况下,判断为处理中的接收新 闻信息中有与该组有关的信息,电子文档分配部152将处理中的新闻信息分 配给通过图12所示的见解信息而与该第一概念名建立了对应的企业(步骤 S25)。

见解抽出对象词·第一概念·第二概念抽出部151,在步骤S22到步骤S25 的处理之后、之前、或并列地,判定所接收的新闻信息的新闻标题或者新 闻正文是否包含图12所示的见解信息内的第一概念名(步骤S26)。

例如,在图6所示的新闻ID“2”的新闻信息中,正文包含第一概念名 “流行性感冒”。

在包含第一概念名的情况下,见解抽出对象词·第一概念·第二概念抽 出部151从正文或见解信息抽出该第一概念名并送出到电子文档分配部152。

在抽出了第一概念名的情况下,电子文档分配部152取出通过图12所示 的见解信息而与该第一概念名建立了对应的见解抽出对象词即品种,并将 处理中的电子文档分配给全部相关见解抽出对象词(步骤S27)。

通过到步骤S27为止的处理,按每个分配了新闻信息的见解抽出对象 词,按见解抽出对象判定部153进行以下记载的步骤S28到步骤S34的处理。

在步骤S28中,参照步骤S24的第二概念、即股价变动素材(表述)抽 出结果,判定是否抽出了当前处理中的见解抽出对象词即品种所属的第一 概念所特有的第二概念。

在处理中的见解抽出对象词中,在与该见解抽出对象词所属的第一概 念建立关联并抽出了第二概念的情况下,判断为与该见解抽出对象词有关 的信息有可能变动,将该见解抽出对象词和第二概念名的集合追加到警报 中(步骤S29)。

如果具体地记载,则在处理中的品种中,在抽出了与该品种的所属组 建立了对应的股价变动素材的情况下,判断为该品种的股价有可能变动, 将该品种和股价变动素材的集合追加到股价变动素材警报中。

在存储部11所保持的见解信息被分为“第一概念名·见解抽出对象 词”和第二概念名的情况下,步骤S28判定是否与当前处理中的见解抽出对 象词是否属于无关地针对存储部11所保持的全部第二概念进行了抽出。

在这种情况下,在步骤S29中,将见解抽出对象词即品种和步骤S28中 所抽出的第二概念即股价变动素材的集合追加到第二概念警报中。

在对见解抽出对象词即品种分配了新闻信息后,参照分配给处理中的 品种的,存储到存储部11的过去一定期间例如3天内的新闻标题·新闻正文, 来判定是否有急上升词(步骤S30),在相关品种的新闻信息中存在急上升 词的情况下,将品种和急上升词的集合追加到急上升警报中(步骤S31)。

急上升词是近年来由检索位置等而公开的,判定出现单词的新旧度、 急上升的技术已成为公知的。

进一步,同样地参照分配给处理中的品种、并存储到存储部11的过去 一定期间、例如1小时的新闻信息的新闻标题·新闻正文,来判定处理中的 接收新闻信息与过去一定期间的新闻信息是否类似·一致(步骤S32),在 有类似新闻信息或者一致的新闻信息的情况下,求出该新闻信息对的类似 度,并追加多重发布警报(步骤S33)。

通过以上的处理而输出的第二概念警报、急上升警报及多重发布警报 从信息分析部15输出,并被提供给算法交易引擎等系统或者进行股票交易 的用户终端装置2(步骤S34)。

在提供目的地为算法交易引擎等系统的情况下,算法交易引擎等系统, 除从见解抽出装置1提供的新闻信息和赋予新闻信息的信息以外,还将例如 相关品种的当前的股价、购买情况等作为输入信息,并经由进行股票交易 的用户终端装置2向用户提示当前时刻应采取的交易策略。

如上述那样,根据本实施方式,通过从所接收的新闻信息选择包含经 济术语的新闻信息、从该所选择的新闻信息抽出见解信息、存储该抽出的 见解信息的构成,从而在未与品种建立关联的状态下从随时发布的新闻信 息随时抽出品种分组、股价变动素材的见解信息,由此可以使见解信息为 最新的状态。

此外,在包含股价变动评价词的新闻信息包含定义品种的第一概念名 的组定义词时,通过根据该组定义词从该新闻信息抽出第一概念名、从包 含股价变动评价词的新闻信息抽出包含企业名及证券代码的品种、从包含 股价变动评价词的新闻信息抽出股价变动素材、将该抽出的第一概念名、 品种及股价变动素材组合来制作见解信息、并将该制作的见解信息写入存 储部11的构成,可以活用并非证券市场所使用的固定行业的分组的见解信 息,因此可以有效支援股价变动预测。

进一步,在存储了见解信息后,通过根据存储部11内的见解信息来分 析新接收的全部新闻信息的构成,将分析结果立即提供给算法交易引擎等 系统或者进行股票交易的用户,由此可以有效支援最近的股票交易。

此外,在提供目的地为算法交易引擎等系统的情况下,与仅参照当前 的股价、购买情况等数值信息的情况相比较,能够进行基于丰富的信息的 判定。

此外,本实施方式及以下的各实施方式,不将对象限定于因特网发布 新闻。例如,还能够以由因特网发布的其它信息(博客、迷你博客、微博、 企业发布信息)、存在于因特网外的电子文档为对象。进一步,还能够使 对象为新闻信息、博客等多种信息的组合。

另外,在步骤S32的类似新闻信息或者一致的新闻信息的判定中,例如, 也可以使用本申请的申请时未公开的在先申请(日本特愿2010-247518)的 说明书中记载的处理[1]~[3]。以下的处理[1]~[3]中,“题目”这一词也可以 改称“新闻正文”。此外,“带ID新闻信息”这一词也可以改称“新闻信 息”。此外,处理[1]~[3]的主体,与上述的步骤S32配合而改写为“按见解 抽出对象判定部153”。

[1]存储部11预先存储单词解析辞典及同一性判定基准等。

同一性判定基准表示了判定发送的新闻信息中的任意的2件新闻信息 是否为同一新闻的基准,包括:该2件新闻信息中包含的新闻源名相互一致、 该2件新闻信息中包含的表示发布日期时间的差分的发布时间差比基准值 (最大的发布时间差)小、根据该2件新闻信息中的2件题目的词素解析结 果算出的类似度比规定值高、及该类似度在通过四舍五入将上述数值信息 的有效数字的位数加在一起后被算出。

另外,类似度为,例如相对于2件题目的词素解析结果中包含的独立词 的集合整体中的该独立词及数值信息的个数,该2件题目的词素解析结果的 双方所包含的独立词及数值信息的个数所占的比例。此外,类似度(0以上 1以下)的规定值优选0.9程度的高的值。此外,也可以不是“根据2件题目 的词素解析结果算出的类似度比规定值高”,而是“从2件题目的词素解析 结果抽出的独立词相互一致”。此外,同一性判定基准也可以改称同一性 判定规则。

[2]按见解抽出对象判定部153,使用存储部11内的单词解析辞典,进行 带ID新闻信息的单词解析处理。单词解析处理,例如作为一例而使用词素 解析技术(公知的技术)。换言之,按见解抽出对象判定部153具有、对存 储部11内的带ID新闻信息中包含的题目进行词素解析、将所得到的词素解 析结果附加到该带ID新闻信息的新闻ID及题目上、将所得到的解析结果信 息写入存储部11中的词素解析功能。

另外,以下将词素解析技术作为一例进行说明,但按见解抽出对象判 定部153的处理也可以使用不使用单词解析辞典的非N元模型等词素解析的 解析处理,而分解为单词。即,本实施方式为,通过不限定为词素解析的 方法将新闻信息分割为单词,通过单词的比较来判断类似度。

但是,例如在以字符为单位的N元模型的情况下,不能够进行是否为带 词类、独立词的判定。因而,在通过词素解析的其它手段进行单词解析处 理时,能够不以“独立词”、而以“单词”为处理对象。

[3]按见解抽出对象判定部153,根据是否满足存储部11内的同一性判定 基准,来判定存储部11内的最新的带ID新闻信息和过去写入的带ID新闻信 息是否为同一新闻。

例如,按见解抽出对象判定部153算出类似度,该类似度表示从最新的 带ID新闻信息中的题目的词素解析结果抽出的独立词及数值信息、与从过 去写入的带ID新闻信息中的题目的词素解析结果抽出的独立词及数值信息 一致的比例。但是,在算出类似度前,预先通过四舍五入将数值信息的有 效数字的位数加在一起。在该类似度比规定值(例0.9)高的情况下,同一 性判定部15,如果带ID新闻信息内的新闻源名一致、并且各新闻的发布时 刻的差在基准值(例,5分钟)以内,则判定为同一新闻。另外,类似度高 的确认、新闻源名的一致确认、及发布时刻的差的确认,能够以任意的顺 序执行。此外,也可以不进行类似度高的确认,而确认独立词完全一致。

接着,对于同一性判定的处理[3],例举新闻ID“38”的新闻信息和同 一性判定对象的新闻ID“3”的新闻信息进行描述。

从相对于包含新闻ID“38”的最新的带ID新闻信息的词素解析结果, 抽出数值信息“减少15.8%”1种、独立词“美〈名词-固有名词-国〉”“商 品销售〈名词-一般〉”“A公司〈名词-固有名词-组织〉”“1月〈名词-可 作副词〉”“检索率〈名词-サ变连接〉”“问题〈名词-ナイ形容词词 干〉”“响〈动词-独立〉”7种。

从相对于包含同一性判定对象的新闻ID“3”的过去的带ID新闻信息 的词素解析结果,抽出数值信息“减少15%〈数值信息〉”1种、独立词“A 公司〈名词-固有名词-组织〉”“1月〈名词-可作副词〉”“美〈名词-固有 名词-国〉”“商品销售〈名词-一般〉”4种。

此处,与新闻ID“38”和新闻ID“3”对应的数值信息分别为“减少 15.8%”和“减少15%”,值不一致。

对于独立词,从2件词素解析结果抽出的全部独立词有7种,相对于此, 从2件词素解析结果的双方抽出的独立词为4种。

在这种情况下,数值信息1种和独立词7种的合计8种的信息中一致的为 4种,据此,算出一致度为50%、类似度为0.5。

类似度的算出,也可以进一步采用“包含数值信息,不一致的情况下 使类似度为0”或“将数值信息的一致度和独立词的一致度的平均作为类 似度”等而执行。

另外,按见解抽出对象判定部153的独立词比较,直接比较了词素解析 结果,但并非限定于此,还可以变形为加上将词素解析结果中的动词·形容 词·形容动词变换为原形来比较的处理、在后接否定助动词的情况下返回原 形时成为否定形的终止形的处理、等处理。

(第二实施方式)

接着,对第二实施方式进行说明。另外,第二实施方式是与抽出与股 票交易有关的见解信息的第一实施方式的见解抽出装置1有关的变形例。

股价变动的方向,未必与新得到的信息为积极或消极一致。有如下倾 向:与进行股票交易的用户们事先预测的内容相比较而言的改善方向或改 坏方向决定股价变动的方向。

因而,在第一实施方式中,在信息分析部15的处理中,仅将股价变动 素材的有无和其表述作为向CEP(Complex Event Processing:复合事件处理) 或者用户提供的提供内容。但是,一部分的股价变动素材有对股价变动赋 予一定的方向性的倾向。

因此,在第二实施方式中,在第二线索词中方向性明显的线索词中, 见解抽出部14内的素材抽出部145成为赋予方向(积极或者消极)和其强度 的方式。该强度例如预先设定在整数-5~5的范围内。

随之,第二概念抽出部145成为取代图4所示的第二线索词辞典113而使 用图16所示的第二线索词辞典113a的方式。

具体地,第二概念抽出部145,除了在见解抽出判定词检查部141的判 定的结果为电子文档即新闻信息包含股价变动评价词时、从该新闻信息抽 出股价变动素材的上述的功能以外,进一步具备根据该抽出的股价变动素 材来检索存储部11内的第二线索词辞典113a、将表示该检索的股价变动的 方向及强度的各信息赋予该股价变动素材的功能。

另外,第二线索词辞典113a,将识别线索词的代码、相对于股价变动 素材的表述的线索词、表示股价变动的方向的信息、及表示股价变动的强 度的信息建立关联地进行记述。

接着说明以上那样构成的见解抽出装置1的动作。另外,对与第一实施 方式的见解抽出装置1同样的构成·动作,省略说明。步骤S1~S6的动作与上 述同样地执行。

第二概念抽出部(以下记载为素材抽出部)145,在见解抽出判定词检 查部(以下记载为股价变动评价词检查部)141的判定的结果为新闻信息包 含股价变动评价词时,从该新闻信息抽出股价变动素材。具体地,第二概 念抽出部(以下记载为素材抽出部)145判定在包含股价变动评价词的新闻 信息的新闻标题或者新闻正文中是否包含第二线索词辞典(以下记载为素 材表述线索词辞典)113a内的线索词的一个以上(步骤S7)。

在图9的流程图中,使步骤S7及步骤S8的处理在步骤S6之后,但也可以 在步骤S3的处理之前、或者与步骤S3到步骤S6的处理并列实施。

素材抽出部145,在所接收的新闻信息的新闻标题或者新闻正文中包含 素材表述线索词辞典113a内的线索词的情况下,抽出与线索词互相关联的 名词词组作为股价变动素材(步骤S8)。

例如在来自图17所示的新闻ID“4”的见解抽出处理中,抽出素材表述 线索词辞典113a中所登记的线索词“悲观”,对由与线索词“悲观”互相 关联的名词词组“业绩向下修正”构成的股价变动素材赋予与线索词“悲 观”建立了对应的方向及强度,得到股价变动素材“素材:业绩向下修正 方向:消极强度:2”。

组合制作部146与上述同样地制作见解信息,并将该见解信息写入存储 部11中(步骤S9)。图18是该见解信息的一例。此处,见解信息包含有赋 予了方向及强度的股价变动素材“素材:业绩向下修正  方向:消极  强 度:2”。与第一实施方式同样地,见解信息使组合为使第一概念名、品 种、股价变动素材成为集合,但也可以使组合仅为第一概念名和品种,将 股价变动素材单独作为见解信息来保持。或者,也可以将股价变动素材不 与第一概念名而是与品种成为集合而作为见解信息来保持。

此后,在接收到图17所示的新闻ID“5”时,信息分析部15在从新闻正 文抽出了股价变动素材“业绩向下修正”时,将“方向:消极强度:2” 的信息加上品种“1152:AA制铁(株)”素材“业绩向下修正”并提供给 算法交易引擎等系统或者进行股票交易的用户终端装置2。

如上述那样,根据本实施方式,通过根据由抽出与股票交易有关的见 解信息的见解抽出装置1抽出的股价变动素材、检索第二线索词辞典并将表 示该检索的股价变动的方向及强度的各信息赋予该股价变动素材的构成, 除了第一实施方式的效果以外,通过提供对股价变动素材赋予了方向和强 度的信息,可以进一步强力辅助算法交易引擎等系统或者进行股票交易的 用户的快速的判断。

(第三实施方式)

接着,对第三实施方式进行说明。

第三实施方式是抽出与股票交易有关的见解信息的第一实施方式的见 解抽出装置1的变形例,使见解抽出部14抽出的见解信息为与某个对象有关 的素材(事件)和其时间戳。

随之,信息接收部12,除了接收新闻信息的上述的功能以外,进一步 具备在接收新闻信息时对该新闻信息附加时间戳的功能。

见解抽出部14,在从信息选择部13所选择的新闻信息抽出见解信息的 上述的功能中,具有如下功能:从该选择的新闻信息抽出包含表示规定的 对象的表述的事件信息,并且从抽出了该事件信息的新闻信息进行抽出, 将该抽出的事件信息及时间戳作为见解信息写入存储部11中的功能。

此处,表示规定的对象的表述是,例如表示品种的企业名的企业名表 述、或表示定义品种的第一概念名的组定义词的紧前的名词的表述。另外, “表示品种的企业名的企业名表述”记述在见解抽出对象词辞典(以下记 载为品种辞典)112中。“定义品种的第一概念名的组定义词”记述在第一 线索词辞典(以下记载为组定义后辞典)111中。

接着说明以上那样构成的见解抽出装置1的动作。图19是表示见解抽出 部14的处理动作的一例的流程图。

当信息接收部12接收新闻信息时(步骤S41),见解抽出部14参照组定 义词辞典111及品种辞典112等,判定是否包含表示由用户选择的对象(将 企业建立了关联的第一概念)的表述(步骤S42)。

在包含表示由用户选择的对象的表述的情况下,见解抽出部14抽出包 含表示该对象的表述的名词词组、作为第二概念(事件)(步骤S43)。

见解抽出部14将所抽出的第二概念与对象名、接收信息的时间戳一起 追加写入存储部11中(步骤S44)。

以下,信息分析部15与上述同样地执行步骤S21~S34的动作。

图20是表示见解信息的一例的图。是根据图5所示的新闻ID“1”、 “2”对第一概念名“流行性感冒”进行了处理的例子。

使抽出的知识(第二概念)为包含由用户选择的对象表述的名词词组, 但也可以从该名词词组中选择复合名词、选择固有名词(地名等)、或选 择急上升词作为第二概念,使第二线索词为“○县”“集体感染”“△ 市”或其组合。

也可以是,将根据第一概念“流行性感冒”抽出的第二概念、如图12 所示那样按照在第一实施方式中取得的见解信息来扩展到企业,并结合根 据图20所示的见解信息将“对象”从“流行性感冒”替换成了“1033:yy 某控股(株)”的信息而作为见解信息写入。

进一步,如图20所示,也可以将类似度高的新闻信息的发布数作为“类 似信息数”一并作为见解信息。

如上述那样,根据本实施方式,通过在接收新闻信息时、对新闻信息 附加时间戳、从所选择的新闻信息抽出包含表示规定的对象的表述的事件 信息、并且将该抽出的事件信息及时间戳作为见解信息写入存储部11中的 构成,除了第一实施方式的效果以外,通过以时间戳信息的某个时序而抽 出并保持与某个对象(第一概念)有关的第二概念,在发生了同样的现象 时,可以保持对近的将来的预测有效的见解信息并向用户终端装置2提示。

另外,第三实施方式还能够通过使接收的信息为电子邮件、使对象为 计划,而抽出表示与企业活动中的计划有关的风险的见解信息。进一步, 还能够通过使接收的信息为信息设备的系统记录、使对象为计算机网络系 统,而进行与计算机网络系统的故障检测有关的见解信息的抽出。

(第四实施方式)

接着对第四实施方式进行说明。

参照图21对第四实施方式的见解抽出装置100的构成进行说明。另外, 省略第一实施方式至第三实施方式所记载的构成。

如图21所示,本实施方式的见解抽出装置100具备存储部11的评价信息 114和确信度更新规则115、以及见解评价更新装置18。对于评价信息114和 确信度更新规则115、以及确信度,将在后面描述。

见解评价更新装置18具备上位概念检查部181、下位概念抽出部181、 评价部183、确信度更新部184及见解更新部185。

上位概念检查部181,按见解信息中包含的每个组名,在预先设定的期 间新登记到存储部11中的新闻信息中,检查记载有该组名的新闻的有无和 发布数。即,本实施方式的见解信息为层级结构的信息,使组名为上位概 念,使品种为下位概念。

下位概念抽出部182抽出作为由上位概念检查部182检查的组名的下位 概念的、见解信息中包含的全部品种。此外,下位概念抽出部182根据上位 概念检查部181检查的新闻信息、来检查记载有该品种的新闻的有无和发布 数。

评价部183根据存储部11所存储的评价信息114,对下位概念抽出部182 抽出的每个品种算出评价值。评价信息114例如是股价信息、新闻、股票的 成交额、公司的业绩、员工数等。

确信度更新部184根据评价部183算出的评价值和确信度更新规则15, 更新后述的确信度。

见解更新部185根据确信度更新部184的更新结果,更新存储部11所存 储的见解信息。

此处,股价变动受到各品种所关联的新闻的发生的影响,这一点如上 述那样,但影响的大小根据品种、组名(关键词)而不同。因而,除了组 名和品种的组合以外,还一并保持该品种在相关组名的新闻发生时受到的 影响的强弱、即该品种属于相关组的确信度的信息是有效的。

因而,在第四实施方式中,取代图12所示的见解信息,而是如图22所 示那样,成为保持加上了包含确信度和确信度更新历史的确信度信息的见 解信息的方式。即,本发明的确信度是指,表示下位概念归属(关联)上 位概念的程度的数值,与背景技术所记载的第三技术中的确信度不同。可 以判定为,是见解信息中的确信度越高、下位概念归属上位概念的程度越 高、即关联性越强的信息。

另外,在图22中,省略了图12的股价变动素材的信息,但也可以是加 上了股价变动素材的构成。或者,也可以是在与图22的见解信息不同的表 中管理组名和股价变动素材的组合的构成。进一步,除了股价变动素材以 外,如第二实施方式及图18所示那样,也可以加上方向、强度来进行管理。 此外,确信度信息中包含的信息也可以仅为确信度。

在图22的见解信息中,与第一实施方式、第二实施方式及第三实施方 式中使用的图12的见解信息同样地,保持组名、品种这两种信息。进一步, 使加上了该品种属于相关组的确信度的信息的三种信息是必须的。除此以 外,还可以一并保持将组名细分的下位组名、由相关企业发布的预定进入 相关事业(组)的时期即事业进入时期、由相关企业发布的预定从相关事 业撤退的时期即退出经营时期、到过去一定次数为止的确信度更新历史、 记录新抽出该组名和品种的关系时的组定义词的组定义词等信息。在本实 施方式中,将确信度更新历史保持到两次前的历史为止。

接着说明具备保持并更新图22的见解信息的确信度的见解评价更新装 置18的见解抽出装置100的动作。图23是表示见解评价更新装置18的处理动 作(以下称为见解评价更新处理)的详细的模式图,图24及图25是用于说 明见解评价更新处理的一例的流程图。

以下,在本实施方式的见解抽出装置100中,对进行与图22的第四行的 见解信息有关的处理的情况进行说明。图22的第四行的见解信息为,“第 一概念名:流行性感冒,下位组名:流行性感冒药,品种:ff医药〈1042〉, 确信度:1,事业进入时期:2007年10月19日,确信度更新历史1(上次的 确信度更新历史):2008年9月10日+1,组定义后:关联”。

第一概念名(以下记载为组名)、品种(企业名表述)、股价变动素 材的集合的抽出,与第一实施例同样地执行。在新抽出了组名和品种的组 合时,作为确信度的初始值,例如赋予1.0。此外,使本实施方式的确信度 的最小值为0,通过后述的确信度更新处理,在成为确信度低于0的结果的 情况下修正为0。此外,使本实施方式的确信度的最大值为5.0。通过确信度 更新处理,也可以在成为确信度超过5.0的结果的情况下,通过例外处理, 调整为不会大大超过5.0。例外处理进行如下处理,例如在前一天的确信度 比5.0大、并且在本次的更新中确信度还增加的情况时,使确信度仅增加 0.05,在前一天的确信度低于4.95、并且在本次的更新中确信度超过5.0的情 况下,使更新后的确信度为5.0。

另外,在以下的说明中,使见解评价更新处理在证券市场结束后的傍 晚或夜间执行一次,但该处理并非一天一次,也可以分别在证券市场的早 盘和午盘的结束时实施。

当见解评价更新处理起动时,上位概念检查部181从图22的见解信息选 择一个组名(步骤S51)。此处,选择组名“流行性感冒”。接着,上位概 念检查部181确认这一天新登记到存储部11的新闻中、记载有在步骤S51中 选择的组名的新闻的有无(步骤S52)。

另外,在本实施方式中,新闻件数的总计,例如在每个营业日的15: 00等规定的时刻进行。节假日所发布的新闻,也可以加在下一营业日的新 闻中。此外,在步骤S52中,也可以确认记载有组名和下位组名的双方的新 闻的有无。

在没有记载有选择中的组名的新闻的情况下(步骤S52中“否”),省 略步骤S53~步骤S63的处理,进入步骤S64。对于步骤S64,将在后面描述。

在有记载有选择中的组名的新闻的情况下(步骤S52中“是”),下位 概念抽出部182抽出图22的见解信息中的、组名与选择中的组名相同的见解 信息中包含的品种(步骤S53)。评价部183从由下位概念抽出部182选择的 品种选择一个(步骤S54)。此处,选择品种“ff医药〈1042〉”。

接着,评价部183判定是否有同时包含由下位概念抽出部182选择的品 种和与该品种对应的组名、并且没有与退出经营相关联的预先确定的词 (“撤退”“出售”等)的新闻(步骤S55)。

在没有同时包含由下位概念抽出部182选择的品种和与该品种对应的 组名、并且没有与退出经营相关联的词的新闻的情况下(步骤S55中“否”), 省略步骤S56、S57的处理,进入步骤S58。

在有同时包含由下位概念抽出部182选择的品种和与该品种对应的组 名、并且没有与退出经营相关联的词的新闻的情况下(步骤S55中“是”), 评价部183确认包含该组名的新闻件数是否为规定数以上(步骤S56)。在 本实施方式中,使步骤S56的规定数为3。

在包含该组名的新闻件数为规定数以上的情况下(步骤S56中“是”), 评价部183算出该品种的“成交额变化率”作为评价值,并确认所算出的成 交额变化率是否与后述的确信度的更新条件一致(步骤S57)。

在这种情况下,在本实施方式的评价信息114中包含与股票的品种有关 的每天的成交额。图26表示品种为ff医药〈1042〉的成交额的一例。

在步骤S57中,评价部158使用该评价信息114,根据以下的式算出“成 交额变化率”。

(1)成交额变化率=(当天的成交额)/(最近5营业日的成交额的平均)

在上述式(1)中使用了最近5营业日的平均,但当然不限于5营业日。

另外,步骤S57中的更新条件例如为“如果是预先设定的阈值以上则更 新”。此外,也可以使更新条件根据该见解抽出装置100中包含的存储部11 中包含的信息而动态变化。更新条件的动态变化是指,例如在使用新闻信 息作为评价信息114的情况下,在新闻信息中包含的该品种的关联新闻的件 数比规定的数多的情况下,考虑以规定的单位使更新条件所包含的阈值上 升。

在本实施方式中,使更新条件为“是否符合成交额变化率>1.1或者成 交额变化率<1.0”。

步骤S55~步骤S57的判定是用于判定是否更新确信度的处理的一例,也 考虑进一步详细分开判定、作为判定基准使用其它指标。

在包含该组名的新闻件数低于规定数的情况下(步骤S56中“否”)、 或者评价部183算出的评价值与确信度的更新条件不一致的情况下(步骤 S57中“否”),省略步骤S58~步骤S62的处理,进入步骤S63的处理。

在评价部183算出的评价值与确信度的更新条件一致的情况下(步骤 S57中“是”),确信度更新部184更新与该品种建立对应地存储到存储部 11中的确信度(步骤S58)。另外,确信度更新部184的确信度的更新为, 在存储部11中预先设定确信度更新规则115,并按照该规则更新。

图27表示本实施方式中的确信度更新规则115的一例。图27所示的确信 度更新规则115存放在存储部11中。

图27的确信度更新规则115为,“在步骤S55的判定为“是”、并且成 交额变化率≤1.1的情况下,对确信度加上0.05”、“在步骤S55的判定为 “是”、并且成交额变化率>1.1的情况下,对确信度加上(成交额变化率 -1.0)×0.5”、“在步骤S56中为“是”、并且成交额变化率>1.1的情况下, 从确信度减去(新闻变化率-成交额变化率)×0.5”、“在步骤S56中为“是”、 并且成交额变化率<1.0的情况下,对确信度加上(新闻件数变化率-成交额 变化率)×0.5”。

新闻件数变化率根据以下的式算出。

(2)新闻件数变化率=(包含当天的相关组名的新闻件数乘上当天的 确信度)/(包含最近5营业日的相关组名的新闻件数乘上相关日的确信度后 的平均)

此外,图28表示按天表示包含本实施方式中的流行性感冒的新闻的件 数的曲线图。

在本实施方式中,在从步骤S55的“是”进入了步骤S58的情况下、从 步骤S57的“是”进入了步骤S58的情况下,更新规则不同。此外,例如也 可以是“在成交额变化率<1.0的情况下,从前一营业日的确信度减去(1- 成交额变化率)×0.5”那样的更新规则。另外,确信度的前一天的值例如根 据图22的见解信息中包含的确信度更新历史算出。或者,也可以将确信度 本身作为历史保持。

图29表示与本实施方式的确信度有关的曲线图的一例。

接着,见解更新部185更新图22的见解信息。具体地,见解更新部185 判定更新后的确信度是否满足将包含该品种的见解信息从存储部11删除的 条件(以下称为删除条件)(步骤S59)。在本实施方式中,例如,在确信 度成为了0.3以下的情况下,见解更新部185判定为满足删除条件。另外,该 判定也可以是,并非根据最新的确信度的数值来判定,而是根据更新历史 例如在减少连续了五次的情况下设为满足删除条件。

在更新后的确信度比0.3大的情况下(步骤S59中“否”),即在不满足 来自组的删除条件的情况下,见解更新部185省略步骤S61~步骤S62的处理, 进入步骤S63。

在更新后的确信度为0.3以下的情况下(步骤S59为“是”),即满足来 自组的删除条件的情况下,见解更新部185将警报提示给用户(步骤S60)。 该警报用于由用户确认是否从选择中的组删除选择中的品种,并显示在例 如输入输出接口16上。

当用户参照所显示的警报、使用输入输出接口来输入是否删除该见解 信息时,见解更新部185判定所输入的信息是否为指示删除的信息(步骤 S61)。

在未指示删除的情况下(步骤S61为“否”),见解更新部185省略步 骤S62的处理,进入步骤S63的处理。

在指示了删除的情况下(步骤S61为“是”),见解更新部185将所选 择的品种从组删除(步骤S62)。即,将与选择中的组和选择中的品种的组 合相关的见解信息从存储部删除。另外,品种从组的删除,并非仅通过该 一系列的处理来进行,也可以按照图22的见解信息所记载的退出经营时期 的信息,另行进行将到达了撤退时期的品种删除的处理。

接着,见解更新部185判定选择中的组是否有未处理的品种(步骤S63)。 在有未处理的品种的情况下(步骤S63为“是”),返回步骤S54而对未处 理的品种中的一个进行同样的处理。

在选择中的组中未处理的品种没有了的情况下(步骤S63为“否”)、 或者步骤S52为“否”的情况下,见解更新部185判定见解信息所保持的组 中是否有未处理的组(步骤S64)。

在有未处理的组的情况下(步骤S64为“是”),返回步骤S51而对未 处理的组中的一个进行同样的处理。在没有未处理的组的情况下(步骤S64 为“否”),结束处理。

如上述那样,根据本实施方式,通过根据抽出了见解的信息源以外的 信息(股价变动、成交额等)来评价并更新见解的有效性的构成,除了第 一实施方式的效果以外,还可以根据多个信息源将见解的准确度维持得较 高。

另外,在第四实施方式中,图24、图25的处理的判定基准并非限定于 上述。例如,步骤S52的是否有包含选择中的组名的新闻的判定,也可以替 换为包含选择中的组名的新闻数是否为前一天以上的判定、或者替换为选 择中的组名是否与急上升词相关的判定。

此外,步骤S57中的选择中的品种的成交额变化率是否满足更新条件的 判定,也可以替换为与选择中的品种的股价变动、交易额、日经平均等表 示股票市场整体的倾向的指标进行了比较的股价变动倾向的判定。

例如,在步骤S57中使用股价变动进行判定的情况下,评价部183作为 评价值而求出该品种的紧前的营业日的股价变动、例如进一步求出从之前 的营业日开始的股价变动的比例。评价部183在此时,例如,如果股价变动 为5%以上的上涨,则判定为选择中的品种归属选择中的组是恰当的。此外, 评价部183,在股价变动为不足5%的下跌或者不足5%的上涨的情况下,保 留品种的组归属的恰当判断。此外,评价部183,在股价变动为5%以上的下 跌的情况下,判定为选择中的品种归属选择中的组是不恰当的。该股价变 动的判定,如第二实施方式及图18所示那样,也可以在把新闻中记载的素 材表述和其方向也考虑在内,决定上涨(积极)和下跌(消极)的哪个归 属组的判断是恰当的之后进行。

此外,使与各品种有关的处理为对每个所属的组来实施的方式,但在 某个品种在同一天在多个组中成为处理对象的情况下,也可以实施例外的 处理。例外的处理是指,例如[4]或者[5]的处理。

[4]在同一天在多个组中成为处理对象的品种,不实施确信度更新。

[5]在同一天在多个组中成为处理对象的品种,按照每个所属的组,参 照其它所属品种的变动。在产生了与其它品种相同方向·相同程度的数值变 动的情况下,实施该组中的确信度更新处理。

此外,在本实施方式中,将确信度的评价更新的对象作为组名和品种 的关系,但确信度也可以用于图22的见解信息中保持的组定义词的评价。 即,也可以是,按照每个组定义词来整理与见解信息中保持的组定义词对 应的确信度的信息,将确信度的平均、最大值低于规定值的组定义词判定 为并非有效而从图2的组定义词辞典(第一线索词辞典)删除。

此外,确信度的信息也可以是,并非用于见解信息或者组定义词的评 价更新,而是在数一般新闻中包含的组名时用于加权。即,也可以是,例 如在包含组名“流行性感冒”的新闻有50件的情况下,以确信度为1.0的品 种有50件的新闻发布、确信度为0.8的品种有40件的新闻发布、来分配件数。

图30是表示本实施例的效果的一例的图。在图30中表示了,关于某个 东证一部上市品种,对于包含其品种名的新闻件数(仅品种名)、包含品 种名或者该品种所属的组名(在图30的例子中,设为有约200组)的至少一 个的新闻件数(品种名OR组名(无确信度))、将包含组名的新闻件数用 该组名的确信度补正了的件数与包含品种名的新闻件数的合计(品种名OR 组名(无确信度补正)),求出了新闻件数与相关品种的成交额的相关系 数。

相关系数是指表示两个随机变量之间的相关、即类似度的程度的统计 学指标,取-1~+1之间的实数值。在接近1时,称为两个随机变量具有正的 相关,如果接近-1,则称为具有负的相关。在接近0时,原来的随机变量的 相关弱。相关系数和相关关系为,例如,如果相关系数为“0.0~±0.2”则相 关关系视为“几乎不相关”,如果相关系数为“±0.2~±0.4”则相关关系视 为“稍相关”,如果相关系数为“±0.4~±0.7”则相关关系视为“相关”, 如果相关系数为“±0.7~±0.9”则相关关系视为“强相关”,如果相关系数 为“±0.9~±1.0”则相关关系视为“极强相关”。

图30所示的应用了本实施方式的见解评价更新处理的“品种名或组名 (有确信度补正)”的相关系数,成为比仅品种名、及品种名或组名(无 确信度)的相关系数高的值,可以说能够得到具有更强相关的见解信息。

另外,在本实施方式的见解评价更新装置18中,还能够评价·更新与股 票交易有关的见解信息以外的见解信息,例如能够进行与商品有关的见解 信息(以下称为商品见解信息)的见解评价更新处理。

在这种情况下,商品见解信息从企业的通报、博客、微博等由因特网 发布的信息抽出。此外,此时,将商品见解信息中包含的下位概念的信息 作为商品名,将上位概念的信息作为组名,进一步将商品见解信息的评价 值作为商品的销售额信息的变化率。通过根据该销售额信息的变化率来评 价·更新商品见解信息,也能够抽出商品的组名与销售额的相关更强的见解 信息。

(第五实施方式)

接着对第五实施方式进行说明。

在第一实施方式至第四实施方式中,在判定新闻信息中是否有组的信 息时,成为应仅抽出组名的表述。但是,在一般新闻中,有时记载并非经 济新闻中使用的组名的关联词。例如,从图31所示那样的经济新闻,能够 抽出组名“防卫(关联)”、品种“aa重工〈7191〉”、“bb重工业〈7192〉”、 “cc工业〈7193〉”的组合。另外,公司名的旁边所示的各数字是虚构的证 券代码。

在上述的情况下,组名为“防卫”,但一般新闻中报道的内容是,图 31的各经济新闻的前半部分的“政府坚定了推进自卫队飞机的民间转用的 方针”、“朝鲜半岛局势紧张”,很有可能不记载组名“防卫”。

因此,在第五实施方式中,除了图12的见解信息,还使用图32所示的 关联词信息116。如图32所示,本实施方式的关联词信息116作为将见解“否”. 和组名(第一概念名)和关联词建立了对应的表而保持在存储部11中。另 外,关联词可以预先由用户登记,也可以将新闻信息中与组名同时出现的 单词作为关联词而抽出并登记。

此处,参照图33对第五实施方式的见解抽出装置101的构成进行说明。 赋予了与第一实施方式至第四实施方式相同的附图标记的各构成,进行与 第一实施方式至第四实施方式相同的动作。

如图33所示,第五实施方式的见解抽出装置101,除第四实施方式的见 解抽出装置100外,还在存储部11中保持关联词信息116。另外,本实施方 式的见解抽出装置101也可以构成为在第一至第三实施方式的见解抽出装 置1中加上关联词信息116。

参照图14、图24及图25对本实施方式的见解抽出装置101的处理的一例 进行说明。

本实施方式的见解抽出装置101,在图14或图24及图25所示的处理中, 在判定新闻信息中包含的组名的有无时(图14的步骤S24或图24的步骤 S52),使图32所示的关联词信息116中包含的关联词为与组名同等的表述 并加到检查对象上。即,本实施方式的见解抽出装置101,检索与步骤S51 中选择的组名相同的组名是否被保持在关联词信息116中,在保持着的情况 下,判定该组名或者与该组名对应的关联词是否包含在新闻信息中。

此时,在一个新闻中记载有组名和关联词的情况下,计数为相当于记 载有组名的1件新闻。关联词也可以从第一实施方式中说明的股价变动素材 选择在其它组中未登记的表述。此外,也可以在包含组名的新闻群和其它 新闻群中,抽出出现频度具有有意差的名词词组。进一步,图12的见解信 息、图22的见解信息和图32的关联词信息116,在可以根据组名结合的范围 内,也可以以其它分割方式来保持。

根据本实施方式,通过除在一般新闻中记载的少的组名外、还将关联 词作为抽出对象,可以进一步恰当地评价对一般新闻的品种的影响。

(第六实施方式)

接着,对第六实施方式中的见解抽出装置进行说明。第六实施方式中 的见解抽出装置,与第三实施方式同样,进一步具备在接收电子文档时对 该电子文档附加时间戳的功能,将见解抽出部14抽出的见解信息作为与某 个对象有关的素材(事件)和其时间戳。

参照图34对第六实施方式的见解抽出装置102的构成进行说明。另外, 省略上述的实施方式所记载的构成。

如图34所示,本实施方式的见解抽出装置102具备见解评价更新装置 19。

见解评价更新装置19具备电子文档检索部186来代替图21所示的见解 抽出装置100的见解评价更新装置18中的上位概念检查部181,并具备见解 登记概念抽出部187来代替下位概念抽出部182。

电子文档检索部186检查在见解信息中包含的第一概念名中、在预先设 定的期间新登记在存储部11中的电子文档中记载有该第一概念名的电子文 档的有无和发布数。

见解登记概念抽出部187抽出与由电子文档检索部186检查的第一概念 名建立了关联的、见解信息中包含的全部见解抽出对象词。此外,见解登 记概念抽出部187根据电子文档检索部186检查的电子文档、检查记载有该 见解抽出对象词的电子文档的有无和发布数。

在第六实施方式中,使电子文档为由因特网发布的微博(迷你博客, 也称为牢骚博客,以Twitter(注册商标)为代表例)的记事,使第一概念 为电视节目,使见解抽出对象词为电视节目或者电视节目的出场人物或者 电视节目中的一角或者电视节目中被提及的商品等节目中出现的内容,使 第二概念为对电视节目或者见解抽出对象词的评价表述。即,在本实施方 式中,对见解抽出装置102进行说明,并非如图21所示的第四实施方式中的 见解抽出装置100那样从新闻信息抽出与股票交易有关的见解信息,而是在 接收了电子文档即微博的记事中、电视节目中提及的内容时,获得例如将 与电视剧A相关联的见解抽出对象词(出场人物、被提及的物体、情节展开、 工作人员等)分组的知识、电视剧A或者对其见解抽出对象词经常使用的评 价表述“呵呵(日文:ワロタ)”“哭了(日文:泣けた)”“不一般(日 文:ぱねえ)”的知识,并抽出这些知识作为见解信息。

另外,“呵呵”是指被用作“笑了”或者“能笑”的含义的词,“不 一般”是指被用作“绝对不一般”的含义的词。此外,见解抽出装置102, 在接收了包含微博的因特网发布的电子文档例如新闻、一般博客、电视台 发布信息时,参照所保持的见解信息,对电子文档赋予“电视剧A”等节目 名、属于相关节目的见解抽出对象词、相关节目或者见解抽出对象词的评 价表述的有无的信息,并能够提供给节目制作者等用户的终端装置。

即,本实施方式的见解抽出装置102是第四实施方式所示的见解抽出装 置101的变形例。

图35表示本实施方式中的第一线索词辞典111的一例。如图35所示,将 识别第一线索词的代码、与定义第一概念名、本实施方式中定义节目名的 第一线索词建立关联而记述。

第一线索词辞典111,在本实施方式中,如图35中表示一例那样地,将 识别第一线索词的代码、与定义第一概念名、本实施方式中定义节目名的 第一线索词建立关联而记述。具体地,设定义节目名等记事内容的第一线 索词为记事内容的起始字符的“#”。

本实施方式中的见解抽出对象词辞典112,如图36中表示一例那样地, 对于见解抽出对象词、本实施方式中出现在电视节目中的内容,将识别见 解抽出对象词的代码、将见解抽出对象词建立了关联的节目名、以及在见 解抽出对象词的微博记事中出现的其它记载即见解抽出对象词表述建立关 联而记述。作为见解抽出对象词表述,能够使用见解抽出对象词名的正式 名称、简称、通称、俗称、昵称等各种名称。见解抽出对象词辞典112也可 以首先根据电视台的公开信息进行构筑。此时也可以是,关于在其它节目 中也出场的演员、不特定节目名,而对于节目固有的角色名等记载节目名。 进一步,见解抽出对象词辞典也可以是,在抽出见解信息时,将记载有第 一概念的微博记事中出现的其它名词或者复合名词作为见解抽出对象词候 补来记录,在在用户确认后追加登记为见解抽出对象词。

第二线索词辞典113a,如图37中表示一例那样地,将识别第二线索词 的代码、与相对第二概念即本实施方式中见解抽出对象词表述的第二线索 词建立关联而记述。在本实施方式中,使第二线索词为作为情绪表述的表 情文字及与其类似的表述。第二线索词辞典113a,与第二实施方式同样地, 为赋予了情绪的方向、该情绪的强度的方式。另外,强度以情绪越强烈则 越大的值来表示。

图38表示在本实施方式中信息接收部12接收的电子文档即微博的记事 的一例。如图38所示,在本实施方式中,利用由因特网发布的微博记事的 构成要素中图38所示的“时间戳”“用户”“引用信息”“正文”这四个 项目、和信息接收部12赋予的“记事ID”。

“时间戳”是赋予所发布的微博记事的发信日期时间信息。“用户” 是发信了该信息的用户的识别名称。“引用信息”是直接引用其它用户发 信的微博记事并再发信时等所赋予的、原来的记事的发信用户的识别名称。 “记事正文”是所发布的微博记事的正文的字符串。

信息选择部13从信息接收部12接收的微博的记事、选择作为见解抽出 对象的电子文档即在本实施方式中与电视节目有关的微博记事。是与电视 节目有关的微博的判断,例如是通过在微博的记事内容的起始、接着第一 线索词“#”记载有电视节目名或者电视台名来进行的。在没有第一线索词 的微博记事的情况下,通过在正文中包含电视节目名、电视台名或者图36 的见解抽出对象词辞典112中记载的见解抽出对象词的任一个来进行判断。

接着,对以上那样构成的见解抽出装置102的动作进行说明。图39是表 示见解抽出装置102中的见解抽出部14的处理动作的详细的模式图。见解抽 出部的处理动作,与第一实施方式同样地,依据图9的流程图。

另外,在以下的说明中,每当接收电子文档都进行见解抽出部14的处 理,但该处理也可以在夜间等不进行信息分析处理的时间段、对已接收的 微博的记事汇总实施。

信息接收部12通过接受来自微博登载的位置的发布、或访问微博登载 的位置,来接收新的微博。例如,接收与图38所示的记事ID“3”相关的微 博。

信息选择部13从信息接收部12接收的微博的记事、选择与电视节目有 关的微博记事(步骤S1)。是与电视节目有关的微博的判断,例如是通过 接着记事内容的起始字符“#”记载有电视节目名或者电视台名来进行的。 在没有记事内容的起始字符“#”的微博记事的情况下,通过在正文中包含 电视节目名、电视台名或者图36的见解抽出对象词辞典中记载的见解抽出 对象词的任一个来进行判断。所选择的微博记事从信息选择部13送出到见 解抽出部14。

在见解抽出部14中,见解抽出判定词检查部141判定信息选择部13所选 择的微博记事是否包含见解抽出判定词(步骤S2)。在本实施方式的情况 下,也可以使步骤S1的处理和步骤S2的处理的判断基准相同,仅实施任一 个处理步骤。

在包含见解抽出判定词的情况下,作为包含见解信息的微博记事,将 微博记事发送给第一线索词检查部142。

第一线索词检查部142,在步骤S2的判定的结果为微博记事包含见解抽 出判定词时,判定该微博记事是否包含第一概念名、即本实施方式中定义 节目名的第一线索词(步骤S3)。

例如,第一线索词检查部142参照第一线索词辞典111,判定所接收的 微博记事的正文中是否包含第一线索词的至少一个。例如图38所示的记事 ID“3”的新闻包含第一线索词“#”。

在所接收的微博记事中不包含第一线索词的情况下,省略第一概念抽 出部143的步骤S4的处理。

在所接收的微博记事中包含第一线索词的情况下,第一线索词检查部 142将微博记事发送给第一概念抽出部143。

第一概念抽出部143,在步骤S3的判定的结果为微博记事包含第一线索 词时,根据该第一线索词从该微博记事抽出节目名(步骤S4)。

例如,第一概念抽出部143,当接收包含第一线索词的微博的记事时, 抽出第一线索词紧后的名词或者复合名词作为节目名。在所接收的微博的 记事为例如图38所示的新闻ID“3”的情况下,抽出第一线索词“#”的紧 后的复合名词“电视剧A”作为节目名。

在本实施方式的情况下,例如也可以是,在作为节目名而抽出了线索 词紧后的名词或者复合名词之后,与现有的节目名的一览(未图示)相比 较,仅在所抽出的名词或者复合名词是节目名的正式名称或者简称的情况 下,作为节目名而采用,在其以外的情况下,判断为不包含节目名。

另一方面,见解抽出对象词抽出部144,在见解抽出判定词检查部141 的判定的结果为微博的记事包含见解抽出判定词时,从该微博记事抽出见 解抽出对象词名。

具体地,见解抽出对象词抽出部144,例如在步骤S3或S4之后,对省略 第一概念抽出部143的处理而发送的微博记事,参照见解抽出对象词辞典 112来判定微博记事正文中是否包含见解抽出对象词表述(步骤S5),在包 含见解抽出对象词表述的情况下,抽出与该见解抽出对象词表述对应的见 解抽出对象词(步骤S6)。

在微博记事正文中有见解抽出对象词辞典112的“见解抽出对象词表 述”列的表述的情况下,判断为包含记载在该行的“见解抽出对象词名” 中的见解抽出对象词。

见解抽出对象词辞典112可以相对一个见解抽出对象词而在多行的定 义或者见解抽出对象词表述列中包含多个表述。此外,可以从1件微博记事 抽出多个见解抽出对象词表述。

例如在图38的记事ID“3”的微博记事的情况下,包含见解抽出对象词 表述“m先生”,因此能够抽出见解抽出对象词“代码B001见解抽出对象 词名角色名M”。

第二概念抽出部145,在见解抽出判定词检查部141的判定的结果为微 博记事包含见解抽出判定词时,从该微博记事抽出第二概念、即本实施方 式中评价表述。具体地,第二概念抽出部145判定在包含见解抽出判定词的 微博记事正文中是否包含第二线索词辞典113a内的线索词的一个以上(步 骤S7)。

在图9的流程图中,使步骤S7及步骤S8的处理在步骤S6之后,但也可以 与第一实施方式同样地,在步骤S3的处理之前、或者与步骤S3到步骤S6的 处理并列实施。

第二概念抽出部145,在所接收的微博记事的标题或者正文中包含第二 线索词辞典113a内的第二线索词的情况下,抽出与该线索词共同出现的词 作为评价表述(步骤S8)。

例如,在图38所示的记事ID“3”的正文中,“m先生非常全才,呵呵 ww#电视剧A”中包含第二线索词“ww”。

与第二线索词“ww”共同出现的词、例如放置在紧前的词是“呵呵” (一般辞典中没有的未知词)。该未知词“呵呵”作为评价表述被抽出。

评价表述也可以是,在处理中的1件记事中不作为线索词紧前的词,而 从包含相同的第二线索词的大量微博记事抽出全部单词,与不包含相关的 第二线索词的记事的集合相比较、并将统计上共同出现的概率高的词作为 评价表述。例如图38的记事ID7和记事ID8,不同的第二线索词“ww”及 “(;_;)”的紧前的词为“太强了”,是一致的,与哪个第二线索词 共同出现的概率都相同,因此不作为评价表述。

对所抽出的评价表述“呵呵”赋予与第二线索词辞典113a中登记的第 二线索词“ww”建立了对应的方向及强度,能够得到评价表述“评价表 述:呵呵  方向:笑强度:1”。

在从步骤S3到步骤S8的处理结束后,组合制作部146将从处理中的微博 记事抽出的节目名、见解抽出对象词及评价表述组合来制作见解信息,将 该见解信息写入存储部(步骤S9)。此处,见解信息包含赋予了方向及强 度的评价表述“评价表述:呵呵  方向:笑  强度:1”。评价表述也可以 与第一实施方式同样地,选择未赋予方向、强度的形式。

在从微博记事抽出的节目名为一个的情况下,对该节目名分配所抽出 的全部见解抽出对象词、所抽出的全部评价表述。即,允许对一个节目名 分别分配一个或多个见解抽出对象词和评价表述。在所抽出的节目名为多 个的情况下,与第一实施方式同样地,也可以通过上下文解析、简单的判 别处理,来判别并组合节目名、与节目名互相关联的见解抽出对象词、与 节目名或者与该节目名互相关联的见解抽出对象词即品种互相关联的评价 表述。进一步,使见解信息相对节目名分配见解抽出对象词和评价表述, 但也可以制作没有见解抽出对象词或者评价表述的组合。

通过这样的处理,作为节目名、见解抽出对象词名、评价表述的集合, 抽出以下的见解,并写入存储部11中。

节目名:电视剧A

属于节目的见解抽出对象词:角色名M

评价表述:呵呵  方向:笑  强度:1

使组合为使节目名、见解抽出对象词、评价表述成为集合,但也可以 与第一实施方式同样地,使组合仅为节目名和见解抽出对象词,将评价表 述单独作为见解信息来保持。或者,也可以将评价表述不与节目名而与见 解抽出对象词成为集合并作为见解信息来保持。

在步骤S2中判断为没有见解抽出判定词的微博正文,通过第一概念检 查部147判定在微博记事正文中是否包含存储部11中写入的见解信息的节 目名(步骤S11)。

在包含节目名的情况下,见解抽出对象词抽出部144使用见解抽出对象 词辞典112,判定微博正文中是否包含见解抽出对象词表述(步骤S12)。

在包含见解抽出对象词表述的情况下,例如在有“采用”“出场”等 表述的情况下,组合制作部146制作用于将与所抽出的见解抽出对象词表述 对应的见解抽出对象词追加到节目中的处理的组合。

在有“演员换下”等表述的情况下,组合制作部146制作用于对节目 除去与所抽出的见解抽出对象词表述对应的见解抽出对象词的处理的组合 (步骤S13)。

在步骤S13中制作了节目和见解抽出对象词的追加或者删除处理的组 合的情况下,对存储部11执行该处理(步骤S9)。

另外,见解抽出对象词的抽出,也可以不使用见解抽出对象词辞典112, 而从包含节目名的微博记事正文抽出名词词组并作为见解抽出对象词。在 这种情况下,所抽出的名词词组也可以重新作为见解抽出对象词追加到见 解抽出对象词辞典112中。进一步,从步骤S11到S13的处理的判断,也可以 不仅通过1件微博来进行,而例如仅在有超过某个规定的数的发信的情况 下,作为相对存储部11的执行对象。或者,从步骤S11到S13的处理也可以 是,并非对微博正文进行,而仅对由电视台、新闻发布业者发布的电子文 档来执行。

接着,根据图39、图14及图15说明信息分析部15的动作。

首先,信息接收部12通过接受来自微博登载的位置的发布、或访问微 博登载的位置,来接收新的微博记事。例如,接收与图38的记事ID6相关的 微博记事(步骤S21)。所接收的微博记事被发送给见解抽出对象词·第一 概念·第二概念抽出部151。

见解抽出对象词·第一概念·第二概念抽出部151,首先参照存储部11所 存储的见解抽出对象词辞典112,来判定所接收的微博记事中是否有见解抽 出对象词表述(步骤S22)。

在有见解抽出对象词表述的情况下,见解抽出对象词·第一概念·第二 概念抽出部151抽出与所抽出的见解抽出对象词表述对应的见解抽出对象 词名·代码。此外,见解抽出对象词·第一概念·第二概念抽出部151,参照 图36所示的见解抽出对象词辞典112作为见解信息,来抽出被分配了所抽出 的见解抽出对象词名的第一概念、即本实施方式中的全部节目名(步骤S23)。 见解抽出对象词·第一概念·第二概念抽出部151及电子文档分配部152按从 微博记事正文抽出的见解抽出对象词名,对该见解抽出对象词所属的各节 目,进行步骤S24·步骤S25的处理。

首先,见解抽出对象词·第一概念·第二概念抽出部151,参照由在此之 前的处理所抽出的图40中所示的见解信息,抽出在该时刻分配给处理中的 见解抽出对象词名·该见解抽出对象词所属的节目名的第二概念、即本实施 方式中的评价表述,并判定微博正文中是否有相关的评价表述(步骤S24)。

在有相关的评价表述的情况下,判断为在处理中的接收微博记事中有 与该节目有关的信息和评价,电子文档分配部152将处理中的微博记事分配 给见解抽出对象词及节目(步骤S25)。在本实施方式中,与第一实施方式 不同,也可以不进行向属于节目名的全部见解抽出对象词的扩展。

见解抽出对象词·第一概念·第二概念抽出部151,在从步骤S22到步骤 S25的处理之后、之前、或并列地判定所接收的微博记事正文中是否包含图 12所示的见解信息内的第一概念名(步骤S26)。

例如,在图38所示的记事ID“6”的微博记事中,在正文中未包含节目 名。在这种情况下,见解抽出对象词·第一概念·第二概念抽出部151,抽出 在图36的见解抽出对象词辞典12中所抽出的见解抽出对象词“角色名M” 建立了关联的节目名“电视剧A”、并送出到电子文档分配部152中。

在抽出了第一概念名的情况下,电子文档分配部152还可以取出在图12 所示的见解信息中与该节目名建立了对应的见解抽出对象词,并将处理中 的微博记事分配给全部相关品种(步骤S27)。在本实施方式中省略该处理, 微博记事仅分配给从正文抽出的见解抽出对象词。

通过到步骤S27为止的处理,按每个分配了微博记事的见解抽出对象 词,按见解抽出对象判定部153进行以下记载的步骤S28到步骤S34的处理。

在步骤S28中,参照步骤S24的第二概念、即在本实施方式中的评价表 述抽出结果,判定是否抽出了当前处理中的见解抽出对象词所属的节目的 评价表述。

在处理中的见解抽出对象词中,在抽出了与处理中的所属节目建立了 对应的评价表述的情况下,判断为对该见解抽出对象词或者节目的反应有 可能变动,将该节目、见解抽出对象词和评价表述的集合追加到警报中(步 骤S29)。

在存储部11所保持的见解信息被分为“节目名·见解抽出对象词”和 评价表述的情况下,步骤S28判定是否无论当前处理中的见解抽出对象词、 节目属于其、都对存储部11所保持的全部评价表述进行了抽出。

在这种情况下,在步骤S29中,将见解抽出对象词和步骤S28中所抽出 的评价表述的集合追加到警报中。

在对见解抽出对象词分配了微博记事后,参照分配给处理中的见解抽 出对象词或者节目、并存储到存储部11的过去一定期间、例如3天内的微博 正文,来判定是否有急上升词(步骤S30),在处理中的见解抽出对象词或 者节目的微博记事中存在急上升词的情况下,将节目、见解抽出对象词和 急上升词的集合追加到急上升警报中(步骤S31)。

进一步,同样地参照分配给处理中的见解抽出对象词或者节目、并存 储到存储部11的过去一定期间、例如1小时的微博记事正文,来判定处理中 的接收微博记事与过去一定期间的微博记事是否类似·一致(步骤S32), 在有类似微博记事或者一致的微博记事的情况下,求出该微博记事对的类 似度,并追加多重发布警报(步骤S33)。

通过以上的处理而输出的警报、急上升警报、多重发布警报从信息分 析部15输出,并被提供给用户终端装置2(步骤S34)。

如上述那样,根据本实施方式,通过从所接收的微博记事抽出并保持 电视节目、见解抽出对象词(节目中提及的内容等)、评价表述的见解, 还可以将一般辞典中没有的表述作为见解来活用。

进一步,在存储了见解信息后,通过根据存储部11内的见解信息来分 析新接收的全部微博记事的构成,将分析结果立即提供给用户,由此可以 有效支援观众的反应的掌握。

进一步,见解抽出部14,在从由信息选择部13选择的微博记事抽出见 解信息的上述的功能中,与第三实施方式同样地,具有如下功能,从该选 择的微博记事抽出包含表示规定的对象的表述的事件信息,并且从抽出了 该事件信息的微博记事进行抽出,将该抽出的事件信息及时间戳作为见解 信息写入存储部11的功能。

此处,表示规定的对象的表述是,例如见解抽出对象词、即本实施方 式中见解抽出对象词辞典112所记述的见解抽出对象词表述、或表示第一概 念、即本实施方式中的节目名的表述。另外,“定义见解抽出对象词的节 目名的第一线索词”记述在第一线索词辞典111中。

见解抽出部14的处理,与第三实施方式同样地,依据图18的流程图。

当信息接收部12接收微博记事时(步骤S41),见解抽出部14参照第一 线索词辞典111及见解抽出对象词辞典112等,来判定是否包含表示由用户 选择的对象(见解抽出对象词、节目名等)的表述(步骤S42)。

在包含表示由用户选择的对象的表述的情况下,见解抽出部14抽出包 含表示该对象的表述的名词词组、作为素材(事件)(步骤S43)。

见解抽出部14将所抽出的素材(事件)与对象名、接收信息的时间戳 一起追加写入存储部11(步骤S44)。

以下,信息分析部15与上述同样地执行步骤S21~S34的动作。

图41是表示见解信息的一例的图。是根据图38所示的新闻ID“3”、 “6”对见解抽出对象词名“角色名M”进行了处理的例子。

使抽出的知识为包含由用户选择的对象表述的名词词组,但也可以从 该名词词组中选择复合名词、选择固有名词、或选择急上升词作为素材(事 件)。

也可以是,将根据见解抽出对象词名“角色名M”抽出的素材(事件)、 按照图36的见解抽出对象词辞典112而分配给节目,并结合根据图41所示的 见解信息将“对象”从“角色名M”替换为“电视剧A”的信息而作为见 解信息写入。

进一步,如图41所示,也可以将类似度高的微博记事的发布数合成“类 似信息数”并作为见解信息。

如上述那样,根据本实施方式,通过在接收微博记事时、对微博记事 附加时间戳、从所选择的微博记事抽出包含表示规定的对象的表述的事件 信息、并且从抽出了该事件信息的微博记事进行抽出、将该抽出的事件信 息及时间戳作为见解信息写入存储部11的构成,与第三实施方式同样地, 通过以时间戳信息的某个时序而抽出并保持与某个对象有关的素材(事 件),在发生了同样的现象时,可以保持对近的将来的预测有效的见解信 息并向用户终端装置2提示。

接着,对见解评价更新装置19的处理进行说明。

在节目为喜剧表演的情况下,“笑”的评价可以被认为是积极的,而 在节目为严肃的电视剧的情况下,“笑”为失笑,能够推测是低评价。因 而,按照每个节目将评价表述和节目的评价的高度、本实施方式中的确信 度的信息合起来保持是有效的。

因而,在本实施方式中,如图42所示,成为保持加上了包含确信度和 确信度更新历史的确信度信息的见解信息的方式。即,本实施方式的确信 度是指,表示第二概念和第一概念关联的程度的数值。

另外,在图42中,保持着第一概念即节目名、第二概念即评价表述、 见解抽出对象词的信息,但也可以不保持节目名或者见解抽出对象词的任 一个信息。

见解评价更新装置19的处理,可以按照本申请的申请时未公开的特愿 2012-15700的处理来进行。在本实施方式的情况下,作为数值信息,例如可 以使用节目的收视率。见解评价更新处理可以在微博记事的发布少的时间 段以一天一次的频度实施,也可以在从作为分析对象的节目结束起经过了 一定时间后分别实施。

根据本实施方式,通过根据抽出了见解的信息源以外的信息(收视率 等)、评价并更新第一概念和第二概念的组合的有效性的构成,根据多个 信息源将对见解的准确度、第一概念或者见解抽出对象词的影响度维持得 较高。

确信度的信息,并非用于见解信息或第一线索词或第二线索词的关联 性的评价更新,也可以用于在计算包括微博记事在内的电子文档中包含的 节目名或者见解抽出对象词时进行加权。即,例如在包含属于节目名“电 视剧A”的见解抽出对象词“出场人物X”的微博记事有50件的情况下,也 可以根据在确信度为1.0的情况下有50件、在确信度为0.8的情况下有40件微 博记事发布、来分配件数。或者,在确信度低的评价表述的数变多了的情 况下,也可以作为判断为来自观众的评价下降的见解。

根据以上说明的至少一个实施方式的见解抽出装置,在未与见解抽出 对象词建立关联的状态下,能够从随时发布的电子文档随时抽出与见解抽 出对象词有关的见解信息。此外,上述实施方式的至少一个见解抽出装置 可以使见解信息成为最新的状态。

另外,上述的各实施方式所记载的方法,作为可以使计算机执行的程 序,还可以存放在磁盘(软(floppy)(注册商标)盘、硬盘等)、光盘(CD-ROM、 DVD等)、光磁盘(MO)、半导体存储器等存储介质中来颁布。

此外,作为该存储介质,只要是能够存储程序并且计算机可读取的存 储介质,其存储格式为任何格式都可以。

此外,根据从存储介质安装到计算机的程序的指示,在计算机上运行 的OS(操作系统)、数据库管理软件、网络软件等MW(中间件)等也可 以执行用于实现上述实施方式的各处理的一部分。

进一步,各实施方式中的存储介质并不限于与计算机独立的介质,还 包括下载通过LAN、因特网等传输的程序并存储或临时存储的存储介质。

此外,存储介质并不限于一个,由多个介质执行上述的各实施方式中 的处理的情况也包含于本发明中的存储介质,介质构成为任何构成都可以。

另外,各实施方式中的计算机,根据存储介质中所存储的程序来执行 上述的各实施方式中的各处理,也可以是由一台个人计算机等构成的装置、 网络连接了多个装置的系统等任何构成。

此外,各实施方式中的计算机,并不限于个人计算机,还包括信息处 理设备中包含的运算处理装置、微型机等,总称为能够通过程序实现本发 明的功能的设备、装置。

另外,虽然说明了本发明的某些实施方式,但是,这些实施方式是作 为例子而提出的,而并非试图限定发明的范围。这些新的实施方式能够以 其它各种方式来实施,且可以在不脱离发明主旨的范围内进行各种省略、 置换和变更。这些实施方式和其变形包含在发明的范围或主旨内,并且同 样包含在权利要求书所记载的发明和与其等同的范围内。

符号说明

1、100、101、102…见解抽出装置,2…用户终端装置,10…控制部, 11…存储部,12…信息接收部,13…信息选择部,14…见解抽出部,15… 信息分析部,16…输入输出接口,17、26…总线,21…终端控制部,22… 终端存储部,23…显示部,24…输入部,25…通信接口,111…第一线索词 辞典,112…见解抽出对象词辞典,113、113a…第二线索词辞典,141…见 解抽出判定词检查部,142…第一线索词检查部,143…第一概念抽出部, 144…见解抽出对象词抽出部,145…第二概念抽出部,146…组合制作部, 147…第一概念检查部,151…见解抽出对象词·第一概念·第二概念抽出部, 152…电子文档分配部,153…按见解抽出对象判定部,18,19…见解评价 更新装置,181…电子文档检索部,182…见解登记概念抽出部,183…评价 部,184…确信度更新部,185…见解更新部

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号