首页> 中国专利> 非监督检测及在文本数据中字簇集的分类

非监督检测及在文本数据中字簇集的分类

摘要

一种从多个源获得的数据集分类的装置,包括:符号频率确定单元(24),其确定第一数据集集合中的符号的出现频率和第二数据集集合中的符号的出现频率;重要性确定单元(26),其基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最高有效符号;分组单元(28),其根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组,以及等级排列单元(30),其根据等级排列方案排列与符号组相关的数据集的等级。

著录项

  • 公开/公告号CN103946840A

    专利类型发明专利

  • 公开/公告日2014-07-23

    原文格式PDF

  • 申请/专利权人 凯洛斯未来集团公司;

    申请/专利号CN201280055869.5

  • 发明设计人 汤姆斯·拉尔森;麦斯·林格伦;

    申请日2012-11-09

  • 分类号G06F17/30;

  • 代理机构浙江杭州金通专利事务所有限公司;

  • 代理人刘晓春

  • 地址 瑞典斯德哥尔摩804邮政信箱

  • 入库时间 2023-12-17 01:44:27

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-01-14

    专利权的转移 IPC(主分类):G06F17/30 专利号:ZL2012800558695 登记生效日:20211231 变更事项:专利权人 变更前权利人:凯洛斯未来集团公司 变更后权利人:德茨富分析公司 变更事项:地址 变更前权利人:瑞典斯德哥尔摩804邮政信箱 变更后权利人:瑞典斯德哥尔摩

    专利申请权、专利权的转移

  • 2017-09-05

    授权

    授权

  • 2014-08-20

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121109

    实质审查的生效

  • 2014-07-23

    公开

    公开

说明书

技术领域

本发明涉及数据集的分类,特别是涉及一种从多个不同源获得的 数据集分类的方法、装置及计算机程序产品。

背景技术

数据集例如电子文件、电子论文、博客及线上讨论论坛中的数据 等可存在于各种不同计算机上。这些数据集通常更多的是由公开提供 的。随着因特网的引入,从任何一台电脑上获取此类数据集都将成为 可能。从而可能从广泛的数据源中获得这些数据集。因此,因特网上 存在数量庞大的信息。

该丰富的信息用于许多不同领域将会非常有趣,例如:用来确定 社会和消费者的不同需求。然而,信息量如此巨大以至于难以从其获 得任何综合及有用的知识。

因此,数据集的组织和分类受到广泛关注以致于高级信息分析可 以应用于数据集的处理。

数据集的组织、结构化以及搜索方面存在许多技术。

各种数据集分类的方法因此被提出。例如,US2010/0205525阐述 基于文本中品质特性的出现频率,如字符块的出现频率,将文本自动 分类。US2009/0094021阐述了从多个文件簇集来确定多个主题。 US6094653阐述了将字分类成字簇集。

也存在多种对文件分组的方法。例如EP2045739描述了在文件中 选择多个字作为关键字及根据关键字将文件簇集以产生簇集,其中每 一个簇集对应于一个主题。US6078913描述将所选文件簇集为层次状树 形结构。US7809718阐述了文件中元数据的发现,并且如果字存在于元 数据中,那么文件中的字的重要性将会着重提出。US6778995描述了从 文件提取多个字词及在文件集合上建立概念空间、识别文件之间相关 的字词及用具有归属于特定变异数的文件空间中的角与簇集角之间的 差的来填充簇集。US7720848阐述一种概率性簇集系统。

此外,在搜寻最佳化条件的领域已经作出贡献。例如,US7483892 阐述了从代表特别主题事件的文件中编译一个文字相乘的文本矩阵及 形成经加权的字词词典,该特定标的物表示每个文件每个字词的发生 频率。US5926812阐述了将字簇集分组以及组合相似的字簇集以便于形 成一个单独的字簇集。

在2010年瑞典隆德大学的工业管理与物流、生产管理系的硕士论 文“用于商业智能的文本数据挖掘”中,Andreas Ek阐述了如何使用 层次聚类、线性回归及基于概率的等级排序来获得信息。

然而,该领域中仍然存在改进的需要。

发明内容

因此,本发明目的在于提供一种数据集集合的改进分类。

本发明的一个目的在于提供一种将从多个源获得的数据集分类的 方法,该方法简化了数据集中有用信息的定位。

该目的根据通过从多个源获得的数据集分类的方法得到的本发明 的第一类变化形式,这些数据集由符号组成,该方法包括:

确定第一数据集集合中的符号的出现频率;

确定第二数据集集合中的符号的出现频率;

基于第一集合中的出现频率和第二集合中的出现频率确定第二集 合中的最重要的符号;

将在相同数据集中出现的最重要的符号分组成若干组,以及

使用等级排列方案排列与符号组相关的数据集的等级。

本发明的另一个目的在于提供一种将从多个源获得的数据集分类 的装置,该装置能够定位这些数据集中的有用信息。

该目的根据通过从多个源获得的数据集分类的装置得到的本发明 的第二类变化形式,这些数据集由若干符号组成,该装置包括:

符号频率确定单元,其配置为确定第一数据集集合中的符号的出 现频率和配置为确定第二数据集集合中的符号的出现频率;

重要性确定单元,其配置为基于第一数据集集合中符号的出现频 率和第二数据集集合中符号的出现频率确定第二数据集集合中最重要 的符号;

分组单元,其配置为将在相同数据集中出现的最重要的符号分组 成若干组,以及

等级排列单元,其配置为根据等级排列方案排列与符号组相关的 数据集的等级。

本发明的另一个目的在于提供一种从多个源获得的数据集分类的 计算机程序产品,该计算机程序产品简化了数据集中有用信息的定位。

该目的根据通过从多个源获得的数据集分类的计算机程序产品得 到的本发明的第三类变化形式,这些数据集由若干符号组成,该计算 机程序产品包括计算机可读存储介质和计算机程序代码,计算机程序 代码使计算机执行如下操作:

确定第一数据集集合中的符号的出现频率;

确定第二数据集集合中的符号的出现频率;

基于第一集合中符号的出现频率和第二集合中符号的出现频率确 定第二集合中的最重要的符号;

将在相同数据集中出现的最重要的符号分组成若干组,以及

使用等级排列方案排列与符号组相关的数据集的等级。

本发明具有许多优点。其能够定位数据集中的有用信息。尤其是, 其允许获得与第二次采集中数据集相关的各种符号组的信息,例如: 其可能是一种用于分析消费者或者社会的趋势的工具。以这样的方式, 本发明通过研究各组的数据集的等级排列来实现数据集各方面的分 析。

应该强调,术语“包括(comprises/comprising)”在本说明书中 时是被用以规定所描述的特征、整数、步骤或组件的存在,而不排除 一个或多个其他特征、整数、步骤或组件或其他组的存在或添加。

附图说明

本发明将详细描述发明附图,其中

图1示意性地表示数据集分类装置。该装置通过数据通信网络与 多个计算机相连;

图2示意性地表示数据集集合;

图3表示数据分类装置的方框示意图;

图4示意性地表示一张由装置执行的用于表征数据集的方法的流 程图;以及

图5示意性地表示以CD ROM的形式呈现的含有用于数据集分类的 计算机代码的计算机程序产品。

具体实施方式

在如下的描述中,出于解释而非限制,为了提供对本发明透彻的 理解,将阐述例如特殊构架、界面、技术等特定细节。然而,本领域 的技术人员将会清楚,可在脱离这些特定细节的其他实施例中实践本 发明。在其他示例中,省略众所周知的装置、电路及方法的详细说明 以便不因不必要的细节而使本发明的说明模糊。

图1示意性地表示经由计算机通信网络12连接到多个计算机14、 16、18及20的本发明中描述的用于将数据集分类的装置10。这里, 计算机14、16、18及20是提供有数据集的信息源。这里,计算机通 信网络12通常可以是因特网,其意味着提供数据集的各种源可以是免 费获得的源。因此,这些源可以是公开的并且可以由任何连接至因特 网的计算机获得。然而,应该认识到,本发明并不限于因特网,而是 与计算机通讯网络相关的都可以使用。装置10具有一个或多个计算机 或服务器能够连接到网络的优势。

图2示意性地表示多个数据集DS1、DS2、DS3、…、DSn。上文提 及的源可以各自具备一个或多个数据集。在该实施例中,数据集是包 括原始数据D及元数据MD的数据档案或文件。原始数据D由例如字的 符号构成因此可以是文本,并且元数据MD是与原始数据D相关联的数 据,例如分类CL。分类可以是文字类型或数据集主题的分类,并且可 以包括对作者的标识、文本简短的介绍。该元数据也可以包括指示数 据集的生成、上次更改或可用或公开时间信息T。因此,数据集的原始 数据D可由多个符号构成。这里第一数据集DS1表示为包括第一符号 S1的两个试样、第二符号S2的两个试样及第三符号S3的一个试样。 第二数据集DS2表示为包括第一符号S1的两个试样、第二符号S2的 一个试样、第三符号S3的一个试样及第m个符号的一个试样。第三数 据集DS3表示为包括第一符号S1的一个试样、第三符号S3的一个试 样及第m个符号Sm的一个试样。最后,第n个数据集DSn表示为包 括第m个符号Sm的一个项目。

这里,符号通常是若干字符例如字母数字字符,这些字符形成为 通过分离字符的特殊符号例如空格字符而与其他符号分开的实体。这 里已有意限制符号的数目以便提供对本发明更清楚的理解。通常,每 个一个数据集包括多个符号,通常是数千个符号。这里,所表示的数 据集包括所有所表示的数据集DS1、DS2、DS3及DSn的数据集集合C。 这些数据集进一步划分成多个部分,其中一个该分部或子集合SC被表 示为包括第一数据集DS1和第二数据集DS2。还应该认识到,子集合 SC或整个集合C的部分包括多个更多的数据集。

图3示意性地表示装置10的结构的方框示意图。装置10包括连 接到数据集数据库23的数据集收集单元22。还存在符号频率确定单元 24。符号频率确定单元24也连接到数据集数据库23和符号频率数据 库25。此外,存在重要性确定单元26。重要性确定单元26连接到符 号频率数据库25及重要性数据库27。还存在分组单元28,其连接到 数据集数据库23、重要性数据库27及组数据库29。还存在连接到数 据集数据库23和组数据库29的等级排列单元30。最后,存在连接到 数据集数据库23的位置识别符提供单元32。

所有单元存在以与程序记忆体相关的一个或多个处理器的形式的 优势,这些程序记忆体包括执行这些单元的功能性的计算机程序代码。 这里还应该提及,作为替代方案,可省略数据收集单元22及位置识别 符提供单元32。

现在将提供如下本发明的描述,本发明主要是由参考了之前阐述 的图1至图3以及图4的装置10组成,图4表示一张用来操作本发明 的方法的流程图。

当今在因特网上可以获取大量数目的数据集,例如电子文件、博 客、论文、聊天论坛等。通过这些数据集提供的信息是多种多样的, 并且可涵盖宽泛范围的主旨。

由于信息的易于获取,对其的分析将会变得很有兴趣,例如调查 各个领域中的趋势,如技术趋势及政治趋势。

然而,这在没有得到数据集的分类这一条件下无法实现,其中数 据集使分析能够实现。

本发明的目的是处理该情况,也就是,提供一种使得能够进行该 分析的用以将数据集结构化并且分类的方式。本发明的一个实施例是 针对于数据集集合结构化并且分类以使得能够对该集合的一部分进行 分析,例如集合的一部分针对于一个兴趣领域进行分析。

用于实现该过程的本发明的操作以数据集收集单元22从各种信息 源14、16、18及20收集数据集(步骤34)开始。这里,所收集数据 集构成至少一个数据集集合C,数据集集合C可以然后存储在数据集数 据库23中以供进一步分析。在本发明的一个变化形式中,采集了第一 数据集集合及第二数据集集合。

如上所述,数据集包括例如基于字母或文字数字符号的字符号。 这些符号也可以包括其他类型的字符例如记号,如井号,惊叹号等。 在本发明的某些变化形式中,这些符号可通过例如“空格”的分离字 符与其它符号分离的十六位数据字符的组合来形成。

为了实现数据集的分类,符号频率确定单元24存取数据集数据库 23并且调查所有的数据集。在该第一实施例中,其调查或确定整个集 合C中的符号的频率,这里,所有数据集从各种源收集(步骤36)。这 意味着确定并且登记每一个符号在整个集合C中存在的次数。此外, 可在不使用对数据集的任何先前分类的情况下执行该调查。因此,在 无数据集分级或分类的情况下确定频率。因此获得基于分类的符号频 率。然后,可将统计数据存储在符号频率数据库25中。如果图2中的 集合C用作实例,则这意味着对于第一符号S1而言存在对该符号在所 有数据集DS1至DSn中出现多少次的确定。

然而,这并不是所完成的所有操作。符号频率确定单元24也确定 数据集集合C中的一部分SC中的符号的出现频率(步骤38)。因此, 该部分是整个集合的子集合。这里,还可以在不使用子集合的数据集 的任何先前分类的情况下执行该调查。因此,可以在无数据集分级或 分类的情况下确定频率。因此可以获得与符号出现频率相关的分类。 这意味着可以确定符号在子集合中出现的次数。对于第一符号S1而言, 这意味着该符号在由第一数据集DS1和第二数据集DS2例示的子集合 SC中出现的次数可以确定,该次数在图2中的简化实例中为3次。

子集合SC可以是专用于特定信息区域的子集合,例如其中已书写 如技术、社会科学、运动、亲情或健康等主旨的大量文字的特定区域。 子集合SC也可以是这样一般领域一部分,如美国和瑞典的政治。子集 合也可以是根据数据集的类型的子集合,例如博客、聊天或电子文件。 作为另一种可能性,子集合SC可以基于时间,例如特定时间点如特定 一天或时间间隔例如一周、一月或一年。可通过数据集的元数据MD中 的分级设定CL来识别子集合,这里该元数据也可以包括与数据集相关 联的时间T设定的时间。还应该认识到,子集合SC可基于这些设定和 时间的组合,例如分级CL(如政治的分级)。

然后,还可以将子集合中的符号的频率存储于例如符号频率数据 库25的数据库中。

一旦完成此,则重要性确定单元26确定基于上文提及的频率的最 重要的符号成为可能,上文提及的频率是指整个集合的频率以及部分 集合的频率(步骤40)。在本发明的一个变化形式中,这可以如此完成: 由集合C的部分即子集合SC内的符号的频率在整个集合中通过相同符 号的频率加以区分。这里可能的是,最重要的符号是集合的部分中的 频率与整个集合中的频率之间的比率高于特定临界值所针对的那个符 号,其中低于该临界值的比率的符号被视为较不重要的。这里还可以 采用概率。给定整个集合中的符号的概率,确定子集合中的同一符号 的概率。以这样的方式,鉴于符号在整个集合中的发生,其在子集合 中比可能情况更频繁发生的符号被视为最高有效的。

这也可用以下的方式来数学地表达:

Wjsc∈Bin(nsc,p0j)

p1,jsc(k)=nsc!k!(nsc-k)!p0jk(1-p0j)(nsc-k)

其中

nsc是子集合中的所使用符号的数目,

wjsc是符号j已在子集合sc中使用的次数,

poj是从整个集合取出的特定符号也就是符号j的概率,

(1-p0j)是所讨论的符号不为符号j的概率,并且

p1,jsc(k)是在假定符号j发生的次数遵循给定参数的二项式 分布的情况下,符号j在子集合sc中出现k次的概率。

然后,在给定了整个集合中相同符号的概率的条件下,子集合sc 中的符号的概率确定为p1,jsc(wjsc)

此后,可将结果存储在重要性数据库27中。

作为替代方案,可能对第一集合及第二集合执行上文所述的活动, 其中第二集合可以是单独的集合。第二集合然后可以与第一集合相关。 例如如果第一集合与以第一时间间隔例如特定一年提供的数据集相 关,那么然后可能第二集合由以与该第一时间间隔具有一关系的第二 时间间隔提供的数据集,例如在下一年中收集的数据,构成。正如第 一实施例中一样,第二集合也可以被视为第一集合的子集合或子部分。

此后,步骤42中,分组单元根据最重要的符号在同一数据集中的 出现将它们分组成多个组G。这意味着符号的组或簇集的形成。可使用 多种不同类型的技术来形成这些组。例如,可能使用主成分分析、例 如沃德聚类分析法或多维尺度分析法。还可以通过这些技术中的两者 或两者以上的组合来形成这些组。然后,可将这些组存储在组数据库 29中。作为实例,通过第一符号S1和第二符号S2来形成一个这种组。

步骤44中,当以上都完成时,等级排列单元30根据等级排列方 案排列与符号组相关的数据集的等级。等级排列方案可基于数据集中 的组的符号的频率。在第一实施例中所使用的等级排列方案中,一组 的较多符号的数据集的等级高于同一组的较少符号的数据集的等级。 这意味着作为实例,第一数据集DS1经等级排列后高于第二数据集DS2, 这是因为其包括第一符号S1的两个试样及第二符号S2的两个试样且 总共四个这种试样,而第二数据集DS2包括第一符号S1的两个试样及 第二符号S2的一个试样。因此,符号的绝对频率在第一数据集DS1中 比在第二数据集DS2中高。在该等级排列方案的变化形式中,频率是 相对的并且与数据集的大小相关。因此,等级排列方案的该变化形式 采用绝对频率/符号。仅有一些等级排列方案的实例可以被采用。应该 知道,也可以采用其他类型的等级排列方案。

这里,这些排列以数据集的形式存储在数据库23中。

以这样的方式,感兴趣的使用者可能了解数据集集合C中的一部 分SC中的哪种数据集对于例如特定分级的特定主旨区域而言是最相关 的。

步骤46中,这里还可能是,位置识别符提供单元32为最高等级 的数据集提供位置识别符。这可以通过与子集合或整个数据集集合的 一部分相关的仅一个这种组或若干个组来完成。位置识别符可以是统 一的信息定位器(URL)或者指向提供数据集的计算机的指针。这些数 据以数据集的形式存储于数据集数据库23中。因此,可以提供期望获 取最高排列等级数据集的使用者以数据集的位置识别符。

如从先前说明可见,本发明提供非监督检测及包括符号的数据集 中字簇集的分类,其中这些符号可以以文本数据的方式提供。表达的 非监督检测的另一种分类方法是通过以非监督检测的方式进行分类。 本发明提供非监督检测在文本数据以及其上下文联系中突出概念。

通过本发明,可以得到哪种数据集与各种符号组相关,其中符号 组与数据集集合中某一特定部分相关,该发明可以作为例如分析社会 趋势的工具。因此,可能通过与各符号组相关数据集等级排列的研究 来分析特定分类的各个方面,这是在与一个或多个这样领域的信息定 位方面做出显著改进。

装置10可以如上所述使用计算机中的软件来实施。此外,该软件 可以以计算机程序产品的形式提供,例如,在装入至计算机中并且由 该计算机运行时作为数据载体载送用于实施分类装置10的单元的计算 机程序代码。在图5中大体勾画出CD ROM盘形式的、具有计算机程序 代码50的一个这种数据载体48的轮廓。CD ROM盘是数据载体的仅一 个实例。其他数据载体例如记忆棒以及硬盘是可行的。

尽管已经与当前被视为最实际及较佳的实施例一起阐述了本发 明,但是应该理解,本发明并不限于公开实施例,而是相反地,本发 明意在涵盖各种修改及等同配置。因此,本发明将仅由下面权利要求 限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号