首页> 中国专利> 分类规则生成装置、分类规则生成方法、分类规则生成程序以及记录介质

分类规则生成装置、分类规则生成方法、分类规则生成程序以及记录介质

摘要

在文档分类装置(100)中,样本文档抽出条件储存部(160)存储从通过文档输入部(110)输入的输入文档(301)针对每个分类类型抽出部分文本的抽出条件、并且针对多个分类类型的每一个设定的抽出条件即样本文档抽出条件(160-1)。文档对照部(120)对照样本文档抽出条件(160-1)和输入文档(301)。文档抽出部(130)根据文档对照部(120)的对照结果,从输入文档(301)针对每个分类类型抽出部分文本。学习部(140)将由文档抽出部(120)抽出的部分文本作为样本文档,进行规定的机械学习,从而生成分类规则(150-1)。

著录项

  • 公开/公告号CN103299304A

    专利类型发明专利

  • 公开/公告日2013-09-11

    原文格式PDF

  • 申请/专利权人 三菱电机株式会社;

    申请/专利号CN201180064827.3

  • 发明设计人 柴田秀哉;加藤守;郡光则;

    申请日2011-01-13

  • 分类号G06F17/30(20060101);

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人崔成哲

  • 地址 日本东京

  • 入库时间 2024-02-19 21:31:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-12-23

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2011800648273 申请日:20110113 授权公告日:20160928

    专利权的终止

  • 2016-09-28

    授权

    授权

  • 2013-10-16

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110113

    实质审查的生效

  • 2013-09-11

    公开

    公开

说明书

技术领域

本发明涉及制作用于将文档分类为多个类型中的某一个类型的 分类规则的分类规则生成装置、分类规则生成方法、分类规则生成程 序等。

背景技术

作为将文档自动地分类为多个类型中的某一个类型的方式之一, 有利用机械学习的自动分类。在使用了机械学习的文档自动分类中, 文档分类装置使用预先分成多个分类类型的学习样本文档来学习每个 分类类型的特征,根据学习结果,进行分类对象文档的分类。

因此,利用机械学习的文档分类装置的分类的精度依赖于学习样 本文档。但是,由于通过人工大量地收集被正确地分类的学习样本文 档比较麻烦,所以是实用化中的课题。针对该课题,在专利文献1中, 公开了通过对未分类的样本文档实施使用了字符串对照的基于规则的 过滤,制作被分类为各类型的学习样本文档的技术。

专利文献1:日本特开2010-72779号公报

发明内容

但是,在所输入的未知文档的大小大的情况、在未知文档内混合 存在多个话题的情况下,在专利文献1的方法中,即使未知文档被判 定为某分类类型的样本文档,实际上包括与该分类类型无关的话题的 可能性高。例如,在输入文档是Web页面、且记述了个人的日记的情 况下,根据日记的日期,所处理的话题经常完全不同。另外,作为其 他例子,在输入文档是电子邮件、且附加了多个文件的情况下,附加 文件的内容针对每个文件可能完全不同。这样的无关的话题是为了生 成向该分类类型的文档分类条件(分类规则)而不需要的信息,成为 使分类精度降低的主要原因。

另外,如果将未知文档整体作为样本而用于学习,则成为学习对 象的文本大小变得庞大,还成为学习速度降低、所制作的分类规则的 大小变得庞大等导致系统的处理性能降低的主要原因。

本发明针对所属类型未知的输入文档,实施字符串对照那样的基 于规则的过滤。并且,之后,根据字符串的命中位置等通过过滤的执 行得到的信息,从输入文档抽出作为输入文档的一部分的部分文本, 用作用于生成分类规则的学习样本。由此,本发明的目的在于提供一 种可进行不包括不需要的信息的学习样本收集的分类规则生成装置。

本发明的分类规则生成装置的特征在于,具备:

输入部,输入文档而作为样本对象文档;

储存部,存储从所述样本对象文档针对每个分类类型抽出形成所 述样本对象文档的部分、并且用于将分类对象的分类对象文档分类为 多个所述分类类型中的某一个的分类规则的制作中使用的部分文本的 抽出条件,其中,针对所述多个分类类型的每一个设定了所述抽出条 件;

对照部,对照所述储存部中储存的所述抽出条件、和输入到所述 输入部的所述样本对象文档;

抽出部,根据由所述对照部得到的对照结果,尝试从所述样本对 象文档针对每个所述分类类型抽出所述部分文本的部分文本抽出;以 及

学习部,在通过所述抽出部的所述部分文本抽出抽出了与所述分 类类型对应的所述部分文本的情况下,进行使用了所抽出的所述部分 文本的规定的机械学习,从而生成所述分类规则。

根据本发明的分类规则生成装置,能够提供收集不包括不需要的 信息的学习样本的分类规则生成装置。

附图说明

图1是实施方式1中的网络监视系统的结构图。

图2是实施方式1中的网络监视装置300的结构图。

图3是示出实施方式1中的样本文档抽出条件160-1的图。

图4是说明实施方式1中的部分文本的抽出的图。

图5是示出实施方式1中的文档分类装置100的动作概要的流程 图。

图6是示出实施方式1中的文档分类装置100的学习处理S100 的详细动作的流程图。

图7是示出实施方式1中的关键字检索条件161的图。

图8是示出实施方式1中的将2个部分文本集中为一个情况的图。

图9是示出实施方式1中的类别ID的设定的图。

图10是说明实施方式1中的关键字去除条件162的图。

图11是说明实施方式1中的在某分类类型中仅设定了关键字去 除条件162的情况的图。

图12是说明实施方式1中的关键字检索条件161与关键字去除 条件162的并用的图。

图13是示出实施方式1中的分类处理S200的详细动作的流程 图。

图14是示出实施方式1中的文档分类装置100的外观的一个例 子的图。

图15是示出实施方式1中的文档分类装置100的硬件结构的图。

(符号说明)

100:文档分类装置;110:文档输入部;120:文档对照部;130: 部分文本抽出部;140:学习部;150:分类规则储存部;150-1:分 类规则;160:样本文档抽出条件储存部;160-1:样本文档抽出条件; 161:关键字检索条件;162:关键字去除条件;163:邮件地址检索条 件;164:URL检索条件;210:分类对象文档输入部;220:分类对 象文档分割部;230:分类部;240:分类结果判定部;301:输入文档; 302:分类结果;300:网络监视装置;400:组织。

具体实施方式

实施方式1.

在以下的说明中,举出将文档分类装置100(分类规则生成装置 的一个例子)应用于监视网络500中流过的文本数据的系统(以下, 网络监视系统)的例子。但是,不限于向网络监视系统的应用,文档 分类装置100能够应用于一般的文档分类系统。

图1是将文档分类装置100应用于网络监视系统的情况的结构 图。如图1所示,网络监视装置300配置于组织400内的组织内网络 上。组织400通过网络500而与因特网510连接。

组织400包括用户终端装置401、402、403、访问各用户终端装 置的用户411、412、413、用于管理网络监视装置300的管理用终端 装置404、以及可访问管理用终端装置404的管理者414。管理者414 通过管理用终端装置404,进行网络监视装置300的管理、设定等。 另外,关于用户数、服务器结构,图1是一个例子。能够针对任意的 用户数、任意的服务器结构,应用文档分类装置100。

网络监视装置300通过取得组织400的各用户向网络500发送的 信息,监视组织400的各用户是否适当地利用了网络。网络监视装置 300取得的信息是向Web的写入文本、电子邮件、所发送的文件等。 另外,作为网络监视装置300实施的监视处理,是发送信息的汇集处 理、用于防止信息泄漏的文本监视处理。为了通过网络监视装置300 实现文本监视处理,应用本实施方式1的文档分类装置100。管理者 414确认网络监视装置300实施的监视处理的结果,在存在涉嫌不适 当地利用了网络的用户的情况下,能够采取输出警告等行动。

图2是网络监视装置300的结构图。接下来,参照图2来说明网 络监视装置300的结构。文档分类装置100被用作网络监视装置300 的一部分的装置。文档分类装置100具备文档输入部110(输入部)、 文档对照部120(对照部)、部分文本抽出部130(抽出部)、学习部 140、分类规则储存部150、每个分类类型的样本文档抽出条件储存部 160、分类对象文档输入部210、分类对象文档分割部220(分割部)、 分类部230、以及分类结果判定部240。

图3是示出样本文档抽出条件储存部160中储存的样本文档抽出 条件160-1的例子的图。如图3所示,作为样本文档抽出条件160- 1,包括关键字检索条件161、关键字去除条件162、邮件地址检索条 件163、URL检索条件164等。关于它们将后述。

图4是说明文档分类装置100的特征的图。文档分类装置100的 特征主要在于部分文本抽出部130。参照图4,说明文档分类装置100 的特征的概要。部分文本抽出部130根据由文档对照部120得到的对 照结果,尝试从输入文档301针对每个分类类型抽出部分文本的部分 文本抽出。即,如图4所示,将同一输入文档301作为对象,部分文 本抽出部130针对分类类型1、分类类型2的每一个,尝试规定的抽 出准则(后述的文字数、文章数、段落数等)部分文本的抽出。图4 示出部分文本抽出部130针对分类类型1抽出了部分文本11、12,针 对分类类型2抽出了部分文本21、22、23的情况。即,图4示出作为 样本文档抽出条件160-1使用了关键字检索条件161的情况。通过文 档对照部120,针对各分类类型的每一个,关键字命中。在图4中, 分类类型1的关键字是黑圈,分类类型2的关键字是白圈。部分文本 抽出部130将包括命中了的关键字的周边抽出为部分文本。

对于分类类型数无特别的限制,能够设定1以上的任意的自然数。 每个分类类型的样本文档抽出条件160-1由管理者404等设定。

以下,说明各构成要素的功能。

(文档输入部110)

文档输入部110将网络监视装置300从传输线路取得的输入文档 301作为用于学习的样本对象文档输入。样本对象文档是部分文本的 抽出的对象。

(文档对照部120)

文档对照部120如图4所述,将文档输入部110取得的输入文档 301作为对象,实施使用了针对每个分类类型设定的样本文档抽出条 件160-1(抽出条件)的对照处理。样本文档抽出条件160-1是检 索预先设定的关键字的字符串对照型的条件。另外,作为样本文档抽 出条件160-1,能够包括利用正规表现的检索式。通过设为正规表现, 除了单纯的关键字以外,还能够检索更复杂的模式,所以能够提高样 本文档抽出条件160-1的灵活性。

(命中位置取得部121)

文档对照部120具备命中位置取得部121(位置确定部)。命中 位置取得部121取得利用样本文档抽出条件160-1的对照的结果得到 的关键字的命中位置、命中数等信息。

(部分文本抽出部130)

部分文本抽出部130根据由文档对照部120得到的对照结果,从 输入文档301,抽出用于用作各分类类型的学习用样本的部分文本。 “部分文本”是指构成输入文档301的一部分的文档。另外,“部分文本” 被用于制作用于将分类对象的文档分类为多个分类类型中的某一个的 分类规则150-1。关于部分文本,也可以如图4所示,针对不同的分 类类型抽出相同的部分文本(例如,部分文本11=部分文本21)。另 外,也可以存在不用作任何分类类型的样本那样的部分文本。作为极 端的例子,部分文本抽出部130也可以针对某分类类型,不从输入文 档301抽出部分文本。

(学习部140)

学习部140从部分文本抽出部130接收部分文本抽出部130从输 入文档301针对每个分类类型抽出的部分文本,作为各个分类类型的 样本文档。然后,学习部140生成在分类部230中使用的分类规则150 -1。另外,在“生成”中还包括“更新”分类规则的情况。

学习部140以及分类部230能够利用使用了一般已知的任意的机 械学习的文档分类方法。另外,还能够使用在以下所示的“参考文献” 中公开那样的、使用了多个机械学习的文档分类方法。

<参考文献>WO2009/087757、“信息过滤系统、信息过滤方法以 及信息过滤程序”

(分类对象文档输入部210)

分类对象文档输入部210输入网络监视装置300从传输线路取得 的输入文档301,作为用于分类为多个分类类型中的某一个分类类型 的分类对象文档。

(分类对象文档分割部220)

分类对象文档分割部220将分类对象文档输入部210取得的输入 文档301,从文档的开头依次划分为各适当的大小,分割为多个文档。 例如,分类对象文档分割部220结合由部分文本抽出部130抽出的部 分文本的平均大小,分割作为分类对象文档的输入文档301。

(分类部230)

分类部230使用分类规则150-1,将由分类对象文档分割部220 分割的多个分割文档分类至分类类型。或者,如图2所示,分类部230 也可以不经由分类对象文档分割部220,而直接输入对分类对象文档 输入部210输入的输入文档301。

(分类结果判定部240)

分类结果判定部240合并由分类对象文档分割部220分割的各文 档、和分类部230输出的分类结果,输出针对输入文档301的分类结 果302。

(动作的说明)

接下来,说明文档分类装置100的动作。由文档分类装置100执 行的处理被大致分成学习处理S100和分类处理S200。文档分类装置 100使用通过学习处理S100生成的分类规则150-1,实施输入文档 301的分类处理S200。

图5是示出文档分类装置100的动作概要的流程图。参照图5, 根据学习处理S100和分类处理S200的点,说明文档分类装置100的 运用的流程。不限于图5的运用方式,文档分类装置100能够学习样 本文档,而应用于包括生成分类规则的过程的任意的运用方式。在文 档分类装置100刚刚运行之后,不通过学习部140生成分类规则150 -1。或者,即使生成分类规则150-1,学习量也不充分。因此,在 文档分类装置100刚刚运行之后,对输入文档301仅实施学习处理 S100,而不实施分类处理S200。将该运用方式称为初始学习运用S301。 在初始学习运用S301的期间中,无法通过分类部230进行利用使用了 分类规则150-1的机械学习的分类,但能够实现利用替代单元的分类 处理。

在S302中,每当新到达输入文档时,学习部140例如通过后述 方法判断是否充分地实施了学习。在S302中,判断为学习充分的情况 下,学习部140从初始学习运用S301转移到主运用S303。

在S302中,作为判断学习是否充分的方法,有使用通过学习处 理S100学习的文档件数的方法。在所有分类类型中学习的文档件数达 到了管理者414预先设定的件数时,学习部140判断为学习充分 (S302),判断为能够从S302转移到主运用S303。

在S302中,作为判断学习是否充分的其他方法,有使用文档分 类装置100的运行时间的方法。学习部140在达到了1星期等管理者 414预先设定的工作时间时,判断为能够从S302转移到主运用S303。

在主运用S303中,文档分类装置100对输入文档301实施分类 处理S200,输出分类结果302。文档分类装置100在分类处理S200 之后,对同一输入文档301实施学习处理S100,更新分类规则150-1。

在S304中,学习部140通过例如后述方法,判断是否再生成分 类规则150-1。在再生成分类规则150-1的情况下,进入S305,学 习部140丢弃分类规则150-1,处理转移到初始学习运用S301。在不 再生成分类规则150-1的情况下,继续主运用S303。

在S304中,作为判断是否再生成分类规则150-1的方法,有使 用文档分类装置100的运行时间的方法。学习部140在达到了1年等 管理者414预先设定的工作时间时,判断为在S304中丢弃分类规则 150-1(S305)。

图6是示出文档分类装置100的学习处理S100的详细动作的流 程图。接下来,参照图6,说明文档分类装置100中的学习处理S100 的详细动作。

图7是示出作为样本文档抽出条件160-1使用了关键字检索条 件161的情况的图。如图7所示,在样本文档抽出条件160-1中,针 对每个分类类型,包括适合于对应的分类类型的至少一个恰当的恰当 关键字。例如,关于图7的分类类型1,关键字1-1、1-2···、1 -i是适合于分类类型1的关键字(恰当关键字)。

(1)如果新文档到达网络监视装置300,则文档输入部110接收 新文档而作为输入文档301(S110)。

(2)文档对照部120使用针对每个分类类型设定的样本文档抽 出条件160-1,将输入文档301与样本文档抽出条件160-1进行对 照(S120)。在对照时,命中位置取得部121针对每个分类类型,取 得被设定为样本文档抽出条件160-1的关键字的命中位置、以及命中 数。

(3)部分文本抽出部130根据作为通过命中位置取得部121的 对照处理S120取得的对照结果的关键字的命中位置、命中数等信息, 从输入文档301,抽出0个以上的用作各分类类型的学习样本的部分 文本(S130)。即,部分文本抽出部130根据由文档对照部120得到 的对照结果,尝试从输入文档301针对每个分类类型抽出部分文本的 部分文本抽出。

(4)学习部140在通过部分文本抽出部130的抽出处理S130, 抽出了与某一个分类类型对应的部分文本的情况下,通过将所抽出的 部分文本作为样本文档进行规定的机械学习,生成(还包括更新)分 类规则150-1(S140)。

(关键字的使用)

作为在对照处理S120中使用的样本文档抽出条件160-1,如图 7所示,能够使用针对每个分类类型指定了多个关键字的关键字检索 条件161。在关键字检索条件161中,指定与相应的分类类型的相关 性高的关键字(恰当关键字)。在该情况下,在S130中,部分文本抽 出部130抽出通过关键字检索条件161得到的命中位置的周边,作为 相应的分类类型的部分文本(关于具体的抽出方法将后述)。由此, 能够仅抽出很可能与相应的分类类型的相关性高的部分文本,作为样 本文档。

(部分文本的抽出方法)

(1)作为抽出通过关键字检索条件161得到的命中位置周边的 文本而作为部分文本的方法,有使用文字数的方法。部分文本抽出部 130以各命中位置为基点,在命中位置的前后分别抽出规定的文字数 量的文本而作为部分文本。

(2)作为抽出通过关键字检索条件161得到的命中位置周边的 文本而作为部分文本的其他方法,有使用文章数的方法。部分文本抽 出部130以包括各命中位置的文章为基点,在命中位置的前后分别抽 出规定的文章数量的文本而作为部分文本。作为对文章数进行计数的 单元,例如在日语文档的情况下,可以举出对句号的数量进行计数的 方法。关于其他语言,也能够应用同样的方法。

(3)作为抽出关键字检索条件161的命中位置周边的文本而作 为部分文本的又一方法,有使用段落的方法。部分文本抽出部130抽 出包括各命中位置的段落而作为部分文本。例如,在HTML文档等嵌 入了标签的形式的文档中,通过使用标签的信息,能够容易地切出段 落。另外,还能够以包括各命中位置的段落为基点,在前后分别抽出 规定的段落数量的文本而作为部分文本。

(部分文本的合体)

根据关键字检索条件161由部分文本抽出部130抽出的部分文本 彼此有时具有共通部分。关于与某分类类型相关性高的关键字,有在 文档中的某个部位集中出现的倾向。因此,如果将具有共通部分的多 个部分文本抽出为个别的部分文本,则成为学习几个同样的样本文档 的结果的可能性高。因此,部分文本抽出部130在所抽出的多个部分 文本具有共通部分的情况下,将这些多个部分文本集中为一个部分文 本。由此,能够避免使学习部140学习相同的几个样本文档。

图8是示出将2个部分文本集中为一个的情况的图。图8示出作 为关键字检索条件161,指定了“公司外保密”、“开发计划书”、“执行 计划”的关键字的情况的、部分文本的抽出的状态。在图8中,示出利 用了文字数的部分文本抽出的状态。在图8中,示出了“公司外保密” 和“开发计划书”的命中位置周边的部分文本彼此具有共通部分,所以 将2个部分文本集中为一个,作为一个部分文本抽出的结果(S401)。

(命中关键字的个数)

在关于某个分类类型,使用了关键字检索条件161的关键字的命 中数小于规定的个数的情况下,部分文本抽出部130也可以从该分类 类型的部分文本抽出对象去除输入文档301整体。在命中数少的情况 下,输入文档301与该分类类型的关联性低的可能性高。因此,通过 设置基于命中数的阈值,能够避免学习部140的过量的学习。

(恰当关键字的类别ID)

图9是示出可对关键字设定的类别ID的图。能够对由关键字检 索条件161指定的各关键字,附加与关键字类别对应的类别ID(类别 信息的一个例子)。例如,设想以防止信息泄漏为目的,设定了由机 密信息构成的分类类型的情况。如图9所示,设为作为关键字,设定 了“公司外保密”、系统开发计划书”。将如“公司外保密”那样与机密等 级对应的类别ID设为“1”,将如“系统开发计划书”那样与机密文档名 有关的关键字的类别ID设为“2”等。也可以对不同的关键字设定同一 类别ID。例如,是对重要的多个关键字,全部设定类别ID“1”那样的 情况。

(类别ID的命中数)

此时,在某分类类型中,通过关键字检索条件161命中了的规定 的类别ID数小于规定的个数的情况下,部分文本抽出部130也可以 从该分类类型的部分文本抽出对象去除输入文档301整体。例如,在 对重要的多个关键字设定了类别ID“1”的情况下,是命中了的类别ID “1”小于规定的个数的情况。在命中了的规定的类别ID数少的情况下, 输入文档301与该分类类型的关联性低的可能性高。因此,通过对命 中了的类别ID数设置阈值,能够避免学习部140的过量的学习。

(类别ID的重要度)

另外,能够根据通过关键字检索条件161命中了的关键字的类别 ID,部分文本抽出部130变更从该关键字的命中位置周边抽出的部分 文本的大小。通过设定为针对与重要的关键字对应的类别ID,利用部 分文本抽出部130抽出大的大小的部分文本,能够重点地抽出重要的 关键字周边的部分文本。

(类别ID的重要度的决定方法)

作为决定关键字的重要度的方法之一,有利用关键字长的方法。 例如,在考虑了由机密信息构成的分类类型的情况下,在“计划书”和 “系统开发计划书”中,“系统开发计划书”的一方是更具体的关键字, 在其周边记载了机密信息的可能性高。另一方面,“计划书”接近一般 用语,所以在未意图的文档中也出现的可能性高。这是关键字长与关 键字的重要性直接相关的例子。因此,以针对长的关键字,抽出大的 大小的部分文本的方式,设定类别ID。在该情况下,需要根据关键字 长定义关键字的类别ID。例如,类别ID越小,重要度设为越高。对 长的关键字(重要的关键字),设定一位的类别ID,对短的关键字, 设定一位以外的类别ID。在部分文本抽出部130中,命中了的类别ID 越小,使所抽出的部分文本的大小越大。

(特定的类别ID的命中)

在关键字检索条件161中定义了类别ID的情况下,仅在输入文 档301命中具有特定的类别ID(例如类别ID“1”)的关键字时,部分 文本抽出部130能够将输入文档301作为部分文本的抽出对象。反过 来说,在未命中具有特定的类别ID的关键字的情况下,部分文本抽 出部130不将输入文档301作为部分文本的抽出对象。这样的类别ID 也可以存在多个。在该情况下,仅在与所设定的所有类别ID对应的 关键字命中了时,将输入文档301作为部分文本的抽出对象。

(关键字的命中位置的集中)

在关键字检索条件161下的命中位置在输入文档301的某个部位 集中出现的情况下,在该部位记述了与对应的分类类型相关性高的内 容的可能性高。相逆地,如果命中位置未集中出现,则这些关键字仅 是偶然在此处记述的可能性高。因此,仅将所设定的文字数范围内的 命中数是规定的数量以上那样的部位设定为部分文本的抽出对象。具 体而言,最初设定应作为部分文本的文本大小,在该大小中设定个数 以上的关键字命中了的情况下,抽出该文本大小而作为部分文本。仅 根据文本大小,应作为部分文本的范围未确定,所以将决定准则另外 预先设定。例如,考虑以命中了的多个关键字中的、开头的关键字为 基准而决定部分文本的范围的决定准则。

(关键字去除条件162)

作为在对照处理S120中使用的样本文档抽出条件160-1,也可 以使用指定了多个关键字(不恰当关键字)的关键字去除条件162。 对关键字去除条件162,指定不与相应的分类类型相应的不恰当的不 恰当关键字。关于各个分类类型,能够设定关键字检索条件161和关 键字去除条件162中的至少某一个。在该情况下,在抽出处理S130 中,部分文本抽出部130从对应的分类类型的部分文本抽出对象,去 除通过关键字去除条件162得到的不恰当关键字的命中位置的周边, 从剩余的部分,抽出用作样本文档的部分文本。由此,能够从样本文 档去除不与对应的分类类型相应的可能性高的部分文本,作为结果, 能够仅抽出与分类类型的相关性高的部分文本。

图10是对“正的类型”、“负的类型”分别设定关键字检索条件 161、和关键字去除条件162的例子。特别,如图10所示,在分类类 型是2个的2值分类的情况下,分类类型被定义为与某话题的相关性 高的文档的类型(正的类型)、和其以外的文档的类型(负的类型) 的情况较多。在该情况下,一般难以设定与“负的类型”的相关性高的 关键字(恰当关键字)。因此,在“负的类型”中,作为关键字去除条 件162,如图10所示,将与正的类型的相关性高关键字设定为不恰当 关键字。由此,在负的类型的部分文本的抽出中,能够从样本去除包 括与负的类型关联性低的关键字的文档。即,对“正的类型”,设定由 恰当关键字构成的关键字检索条件161,对“负的类型”,设定以“正的 类型”的关键字为不恰当关键字的关键字去除条件162。

在该情况下,关于与“负的类型”有关的关键字去除条件162,既 可以和与正的类型有关的关键字检索条件161相同,也可以不同。作 为设定不同的条件的情况的具体例,在与“负的类型”有关的关键字去 除条件162中,包括与正的类型有关的关键字检索条件161中设定的 所有关键字,设定更多的关键字。通过对关键字去除条件162,设定 更多的关键字,能够提高能够避免学习部140的过量的学习的可能性。

作为从部分文本抽出对象去除关键字去除条件162的命中位置周 边的文本的方法,有使用文字数、文章数、段落的方法。这些与通过 关键字检索条件161抽出部分文本的方法分别对应。

(不恰当关键字的命中数)

在某分类类型中,通过关键字去除条件162的命中数是规定的数 量以上(设定值以上)的情况下,能够从对应的分类类型的部分文本 抽出对象,去除输入文档301整体。即,在该情况下,部分文本抽出 部130从输入文档301,关于该分类类型,不抽出对应的部分文本。 在命中数多的情况下,输入文档301是与该分类类型关联性低的文档 的可能性高。因此,通过设置基于命中数的阈值,能够避免过量的学 习。

(不恰当关键字的类别ID)

在关键字去除条件162中指定的各关键字中,能够与关键字检索 条件161时同样地,定义类别ID(识别信息)。也可以与恰当关键字 的情况同样地,对不同的不恰当关键字设定同一类别ID。此时,在某 分类类型中,通过关键字去除条件162命中了的规定的类别ID数是 规定的数量以上(设定值以上)的情况下,能够从对应的分类类型的 部分文本抽出对象去除输入文档301整体。在命中了的类别ID数多 的情况下,输入文档301是与该分类类型关联性低的文档的可能性高。 因此,通过设置基于命中了的类别ID数的阈值,能够避免过量的学 习。

(类别ID和去除范围的大小)

另外,能够根据通过关键字去除条件162命中了的关键字的类别 ID,变更“从对应的命中位置周边去除的部分文本的大小”(去除范围 的大小)。其对应于利用关键字检索条件161的类别ID来变更所抽 出的部分文本大小。

(类别ID和输入文档301)

在对关键字去除条件162设定了类别ID的情况下,关于输入文 档301,仅在不命中具有规定的类别ID的关键字时,能够作为部分文 本的抽出对象。这样的类别ID也可以存在多个。在该情况下,仅在 与所设定的所有类别ID对应的关键字未命中时,将输入文档301作 为部分文本的抽出对象。

(基于不恰当关键字的部分文本的抽出)

图11是示出在某个分类类型中仅设定了关键字去除条件162的 情况的抽出处理S130的图。考虑如下情况:在某个分类类型中,作为 由文档对照部120执行的对照处理S120中使用的样本文档抽出条件 160-1,仅设定关键字去除条件162。需要从通过关键字去除条件162 去除的剩余的部分,抽出用作样本文档的部分文本的单元。使用图11 来说明该单元的一个例子。在图11中,作为关键字去除条件162,指 定了“公司外保密”、“开发计划书”、“执行计划”的不恰当关键字。首 先,部分文本抽出部130从部分文本抽出对象去除指定的不恰当关键 字的周边的文本(S501)。接下来,部分文本抽出部130直至文档的 末尾反复从剩余的文本的开头依次抽出规定的大小的部分文本并跳过 规定的大小的部分文本这样的处理(S502)。由此,部分文本抽出部 130能够不将通过关键字去除条件162命中了的不恰当关键字周边的 文本作为样本文档抽出,而从剩余的部分抽出部分文本。

(关键字检索条件161、关键字去除条件162的并用)

在某个分类类型中,作为在对照处理S120中使用的样本文档抽 出条件160-1,还能够设定关键字检索条件161和关键字去除条件162 这两方。在该情况下,部分文本抽出部130在通过关键字去除条件162 去除了文本之后,从仅包括关键字检索条件161的恰当关键字的剩余 的部分(区域)抽出部分文本。

作为设定关键字检索条件161和关键字去除条件162这两方是有 效的情况,有存在与不同的分类类型的相关性高的共通的关键字的情 况。

图12是示出关键字检索条件161、关键字去除条件162的并用的 情况的图。例如,如图12所示,将包括与项目A有关的机密信息的 分类类型(分类类型A)、和包括与项目B有关的机密信息的分类类 型(分类类型B)定义为各个分类类型。在该情况下,考虑为针对两 方的分类类型,作为关键字检索条件161设定“公司外保密”这样的关 键字是有效的。但是,仅在“公司外保密”这样的关键字下,无法区分 项目A和项目B。因此,作为针对分类类型A的关键字去除条件162, 设定关键字“项目B”。

由此,能够避免将与分类类型B的相关性高部分文本抽出为分类 类型A的样本。

(并用和类别ID)

也可以设定关键字检索条件161和关键字去除条件162这两方, 并且对两个条件设定类别ID。在该情况下,部分文本抽出部130仅在 输入文档301命中关键字检索条件161中的具有规定的类别ID的关 键字、并且不命中关键字去除条件162中的具有规定的类别ID的关 键字时,能够将输入文档301关于该分类类型作为部分文本的抽出对 象。这样的类别ID也可以存在多个。在该情况下,部分文本抽出部 130将与在关键字检索条件161中设定的所有类别ID对应的关键字命 中、并且与在关键字去除条件162中设定的所有类别ID对应的关键 字未命中的输入文档301,关于该分类类型,作为部分文本的抽出对 象。

(输入文档301是电子邮件的情况)

在输入文档301是电子邮件的情况下,作为由文档对照部120执 行的对照处理S120中使用的样本文档抽出条件160-1,也可以使用 检索特定的电子邮件头部中包含的邮件地址的邮件地址检索条件 163。邮件地址检索条件163与关键字检索条件161、关键字去除条件 162并用地使用。具体而言,部分文本抽出部130能够根据在邮件地 址检索条件163下得到的对照结果,变更在关键字检索条件161、关 键字去除条件162下抽出或者去除的部分文本的大小、或者变更基于 命中数的阈值的设定。这样,文档对照部120使用邮件地址检索条件 163(抽出条件)来对照输入文档301是否与邮件地址匹配。部分文本 抽出部130根据由文档对照部120得到的使用了邮件地址的对照结果, 控制部分文本抽出,使得部分文本的大小变更等。

例如,在将电子邮件的发送目的地组织设定为分类类型的情况 下,电子邮件头部中记载的邮件地址信息成为判断电子邮件与哪个分 类类型的相关性高的线索。假设,如果根据邮件地址信息,判断为与 作为对象的分类类型的关系性低,则部分文本抽出部130减小从该电 子邮件抽出的部分文本的个数、大小是妥当的。相反,如果根据邮件 地址信息,判断为与作为对象的分类类型的关系性高,则部分文本抽 出部130增大从该电子邮件抽出的部分文本的个数、大小是妥当的。 这样,通过使用邮件地址检索条件163,能够将邮件地址信息用作部 分文本抽出时的权重。

(输入文档301是Web页面(网页)的情况)

在输入文档301是Web页面的情况下,作为由文档对照部120 执行的对照处理S120中使用的样本文档抽出条件160-1,也可以使 用检索URL(Uniform Resource Locator,统一资源定位器)的URL 检索条件164。URL检索条件164与关键字检索条件161、关键字去 除条件162并用地使用。具体而言,部分文本抽出部130能够根据在 URL检索条件164下得到的对照结果,变更在关键字检索条件161、 关键字去除条件162中抽出或者去除的部分文本的大小、或者变更命 中数的阈值的设定。这样,文档对照部120使用URL检索条件164 (抽出条件)来对照输入文档301是否与URL匹配。部分文本抽出 部130根据由文档对照部120得到的使用了URL的对照结果,控制 部分文本抽出,使得部分文本的大小变更等。

例如,在考虑为在作为URL的域包括“go.jp”那样的Web页面中 记述了价值高的信息的情况下,通过URL检索条件164,从由文档对 照部120判定为在URL域中包括“go.jp”的Web页面,部分文本抽出 部130能够增大所抽出的部分文本的个数、大小。这样,通过使用URL 检索条件164,能够将URL信息用作部分文本抽出时的权重。

图13是示出分类处理S200的详细的动作的流程图。接下来,参 照图13,说明文档分类装置100中的分类处理S200的动作。

(1)分类对象文档输入部210接收新文档而作为输入文档301 (S210)。

(2)分类对象文档分割部220将输入文档301从开头等分割为 每个规定的大小(S220)。

(3)分类部230对在处理S220中分割的各文档,实施使用了分 类规则150-1的分类处理(S230)。

(4)分类结果判定部240合并通过S230输出的、被分割的各文 档的判定结果,作为输入文档301的综合判定结果,输出分类结果302 (S240)。

分类对象文档也有可能与样本对象文档的情况同样地,在一个文 档内记述了多个话题。在分割处理S220中,分类对象文档分割部220 通过将输入文档301从开头等分割为每个规定的大小,能够将多个话 题分割为其他文档的可能性提高。作为结果,能够提高能够正确地检 测多个话题的可能性。例如,分类对象文档分割部220结合由部分文 本抽出部130抽出的部分文本的平均大小分割分类对象文档。

另外,分类规则储存部150中储存的分类规则150-1是对经由 从样本对象文档的部分文本抽出而得到的样本文档进行学习来得到 的。因此,处理S220还承担对输入到机械学习算法的样本文档的大小、 和分类对象文档的大小进行匹配(matching)的作用。

在判定处理S240中,作为决定输入文档301的分类结果302的 方法,有利用多数决的决定方法。在该方法中,将在分类处理S230 中输出的、被分割了的各文档的判定结果中的、被判定为最多的分类 类型作为分类结果302。

作为决定分类结果302的其他方法,有在至少一个分割文档的判 定结果是某个分类类型的情况下,在分类结果302中包括该分类类型 的方法。在该方法中,有可能在分类结果302中包括多个分类类型。

例如,考虑输入文档301是电子邮件、且将电子邮件的发送目的 地组织设定为分类类型的情况。电子邮件的发送目的地一般存在多个, 所以还有电子邮件属于多个分类类型的可能性。在该情况下,在分类 结果302中包括多个分类类型是自然的。

如以上所述,在实施方式1的文档分类装置100中,对所输入的 输入文档301(样本对象文档),文档对照部120实施利用针对每个 分类类型预先设定的样本文档抽出条件160-1的对照。然后,部分文 本抽出部130根据命中位置、命中数等信息,从输入文档301抽出用 作样本文档的部分文本。通过这些处理,从包括多个话题的输入文档, 也能够仅抽出适当的话题而作为样本。另外,能够抑制样本文档(部 分文本)的大小,所以能够提高由学习部140进行的学习处理性能。 作为结果,根据文档分类装置100,无需人工的麻烦,能够实现不包 括不需要的信息的学习样本的自动收集。因此,能够提供能够容易地 制作分类规则,并且能够将分类对象文档高精度地分类为适当的分类 类型的文档分类装置。

实施方式2.

参照图14、图15,说明实施方式2。在实施方式2中,说明作为 计算机的文档分类装置100(分类规则生成装置)的硬件结构。

图14是示出文档分类装置100的外观的一个例子的图。图15是 示出文档分类装置100的硬件资源的一个例子的图。

在表示外观的图14中,文档分类装置100具备系统单元830、具 有CRT(Cathode Ray Tube,阴极射线管)、或LCD(液晶)的显 示画面的显示装置813、键盘814(Key Board:K/B)、鼠标815、 高密度盘装置818(CDD:Compact Disk Drive,高密度盘驱动器) 等硬件资源,它们通过线缆、信号线连接。系统单元830与网络连接。 进而,网络与因特网连接。

另外,在示出硬件资源的图15中,文档分类装置100具备执行 程序的CPU810(Central Processing Unit,中央处理单元)。CPU810 经由总线825而与ROM(Read Only Memory,只读存储器)811、 RAM(Random Access Memory,随机访问存储器)812、显示装置 813、键盘814、鼠标815、通信板816、CDD818、磁盘装置820连接。 CPU810控制这些硬件设备。也可以代替磁盘装置820,而具备光盘装 置、闪存存储器等存储装置。

RAM812是易失性存储器的一个例子。ROM811、CDD818、磁 盘装置820等存储介质是非易失性存储器的一个例子。它们是“存储装 置”或者存储部、储存部、缓冲器的一个例子。通信板816、键盘814 等是输入部、输入装置的一个例子。另外,通信板816、显示装置813 等是输出部、输出装置的一个例子。通信板816与网络连接。

在磁盘装置820中,存储了操作系统821(OS)、视窗系统822、 程序群823、文件群824。程序群823的程序由CPU810、操作系统821、 视窗系统822执行。

在上述程序群823中,存储了执行在以上的实施方式的说明中说 明为“~部”的功能的程序。程序由CPU810读出并执行。

在文件群824中,在以上的实施方式的说明中,说明为样本文档 抽出条件160-1、分类规则150-1的信息、说明为“~的判定结果”、 “~的计算结果”、“~的抽出结果”、“~的生成结果”、“~的处理结果”的 信息、数据、信号值、变量值、参数等被存储为“~文件”、“~数据库” 的各项目。“~文件”、“~数据库”存储于盘、存储器等记录介质。关于 盘、存储器等存储介质中存储的信息、数据、信号值、变量值、参数, 经由读写电路通过CPU810读出到主存储器、高速缓存存储器,用于 抽出、检索、参照、比较、运算、计算、处理、输出、打印、显示等 CPU的动作。在抽出、检索、参照、比较、运算、计算、处理、输出、 印刷、显示的CPU的动作的期间,信息、数据、信号值、变量值、参 数被临时存储于主存储器、高速缓存存储器、缓冲存储器。

另外,在以上叙述的实施方式的说明中,数据、信号值记录于 RAM812的存储器、CDD818的高密度盘、磁盘装置820的磁盘、其 他光盘、迷你盘、DVD(Digital Versatile Disk,数字通用盘)等记录 介质。另外,数据、信号通过总线825、信号线、线缆、其他传送介 质被在线传送。

另外,在以上的实施方式的说明中,说明为“~部”的部分也可以 是“~单元”,并且,也可以是“~步骤”、“~阶段”、“~处理”。即,说明 为“~部”的部分也可以仅通过软件、或者、通过软件和硬件的组合、进 而、通过与固件的组合来实施。固件和软件作为程序被存储于磁盘、 软盘、光盘、高密度盘、迷你盘、DVD等记录介质。程序由CPU810 读出并由CPU810执行。即,程序使计算机作为以上叙述的“~部”发挥 功能。或者,使计算机执行以上叙述的“~部”的阶段、方法。

在以上的实施方式中,说明了文档分类装置100(分类规则生成 装置),但还能够将文档分类装置100的各构成要素的动作掌握为分 类规则生成方法。或者,还能够将文档分类装置100的各构成要素的 动作掌握为分类规则生成程序。分类规则生成程序被记录于计算机可 读取的记录介质。

在以上的实施方式中,说明了以下的文档分类装置。

一种文档分类装置,将所输入的文档分类为多个分类类型,具有:

(1)文档输入部,输入多个样本文档;

(2)文档对照部,通过预先针对每个分类类型设定的样本文档 抽出条件,对照所输入的样本文档;

(3)部分文本抽出部,根据由文档对照部得到的对照结果,从 样本文档,针对每个分类类型,抽出学习中使用的0个以上的部分文 本;以及

(4)学习部,使用针对每个分类类型抽出的部分文本,进行利 用至少一个算法的机械学习,从而生成或者更新分类规则。

在以上的实施方式中,说明了以下的文档分类装置。

该文档分类装置还具有:

(5)分类文档输入部,输入一个以上的分类对象文档;

(6)分类对象文档分割部结合学习中使用的部分文本的平均大 小,从开头依次分割所输入的分类对象文档;

(7)分类部,通过使用与算法对应的分类规则的至少一个算法, 将所分割的各个文档分类为多个分类类型;以及

(8)分类结果判定部,合并被分割的各个文档的分类结果,判 定针对分类对象文档的综合分类结果。

在以上的实施方式中,说明了如下文档分类装置:

样本文档抽出条件针对每个分类类型,包括指定了多个关键字的 关键字检索条件,

文档对照部的命中位置取得部针对样本对象文档,取得基于每个 分类类型的关键字检索条件的字符串的命中位置和命中数,

部分文本抽出部130抽出基于关键字检索条件的命中位置周边的 部分文本。

在以上的实施方式中,说明了如下文档分类装置:

部分文本抽出部在基于关键字检索条件的命中数小于规定的数 量的情况下,使所抽出的部分文本成为0个。

在以上的实施方式中,说明了如下文档分类装置:

以关键字检索条件指定的关键字被设定了类别编号,

文档对照部120能够通过类别ID进行关键字种类的识别,

部分文本抽出部根据通过关键字检索条件命中了的关键字的种 类,变更所抽出的部分文本的大小。

在以上的实施方式中,说明了如下文档分类装置:

部分文本抽出部在通过关键字检索条件命中了的关键字种类(类 别ID)的数量小于规定的数量的情况下,使所抽出的部分文本成为0 个。

在以上的实施方式中,说明了如下文档分类装置:

部分文本抽出部仅将通过关键字检索条件命中了的关键字在规 定的范围内存在规定的数量以上的部位作为部分文本抽出的对象。

在以上的实施方式中,说明了如下文档分类装置:

在以关键字检索条件指定的关键字中,附有类别编号(类别ID), 并且在分类类型中,预定了由关键字检索条件中的类别编号构成的最 小类别集合,

文档对照部120能够通过类别编号进行关键字的种类的识别,

部分文本抽出部在通过关键字检索条件命中了的关键字的种类 的组合不包括最小类别集合的情况下,使所抽出的部分文本成为0个。

在以上的实施方式中,说明了如下文档分类装置:

作为每个分类类型的样本文档抽出条件,包括指定了多个关键字 的关键字去除条件,

命中位置取得部通过由文档对照部120进行的对照,针对样本对 象文档,取得基于每个分类类型的关键字去除条件的字符串的命中位 置和命中数,

部分文本抽出部从抽出对象去除基于关键字去除条件的命中位 置周边的部分文本,从剩余的部分抽出0个以上的部分文本。

在以上的实施方式中,说明了如下文档分类装置:

部分文本抽出部在基于关键字去除条件的命中数是规定的数量 以上的情况下,使所抽出的部分文本成为0个。

在以上的实施方式中,说明了如下文档分类装置:

在以关键字去除条件指定的关键字中,附有类别编号(类别ID),

文档对照部120能够通过类别编号进行关键字的种类的识别,

部分文本抽出部根据通过关键字去除条件命中了的关键字的种 类,变更从抽出对象去除的部分文本的大小。

在以上的实施方式中,说明了如下文档分类装置:

部分文本抽出部在通过关键字去除条件命中了的关键字的种类 的数量是规定的数量以上的情况下,使所抽出的部分文本成为0个。

在以上的实施方式中,说明了如下文档分类装置:

在以关键字去除条件指定的关键字中,附有类别编号(类别ID), 并且在分类类型中,预定了由关键字去除条件中的类别编号构成的最 小类别集合,

文档对照部120能够通过类别编号进行关键字的种类的识别,

部分文本抽出部在通过关键字去除条件命中了的关键字的种类 的组合包括最小类别集合的情况下,使所抽出的部分文本成为0个。

在以上的实施方式中,说明了如下文档分类装置:

作为每个分类类型的样本文档抽出条件,包括指定了多个关键字 的关键字检索条件和关键字去除条件,

在以关键字检索条件以及关键字去除条件指定的关键字中,附有 类别编号(类别ID),

在分类类型中,预定了由关键字检索条件和关键字去除条件中的 类别编号构成的类别集合,

文档对照部120能够通过类别编号进行关键字的种类的识别,

部分文本抽出部在通过关键字检索条件命中了的关键字、以及通 过关键字去除条件未命中的关键字的种类的组合不包括类别集合的情 况下,使所抽出的部分文本成为0个。

在以上的实施方式中,说明了如下文档分类装置:

作为样本对象文档,输入电子邮件,

每个分类类型的样本文档抽出条件包括检索特定的电子邮件头 部中包含的邮件地址的邮件地址检索条件,

部分文本抽出部根据基于邮件地址检索条件的对照结果,选择所 抽出的部分文本的数量、大小、条件。

在以上的实施方式中,说明了如下文档分类装置:

作为样本对象文档,输入Web页面,

每个分类类型的样本文档抽出条件包括检索URL的URL检索条 件,

部分文本抽出部根据基于URL检索条件的对照结果,选择所抽 出的部分文本的数量、大小、条件。

在以上的实施方式中,说明了如下文档分类方法。

一种文档分类方法,将所输入的分类对象文档分类为多个分类类 型中的某一个,

(1)输入输入多个样本文档的多个样本文档,

(2)通过预先针对每个分类类型设定的样本文档抽出条件,对 照所输入的样本文档,

(3)根据对照结果,从样本文档,针对每个分类类型,抽出学 习中使用的部分文本,

(4)使用针对每个分类类型抽出的部分文本,进行利用至少一 个算法的机械学习,从而生成或者更新分类规则。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号