首页> 中国专利> 汇总与聚合以将文件就概念分类

汇总与聚合以将文件就概念分类

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种用来使用网络爬行器来搜索包含文件的数据库(100)的计算机网络的方法。在搜索之前，向所述网络爬行器提供概念性指导。本发明汇总来源内容(300)，并且在汇总(304)上进行文本聚合(31)以产生分类(330)。使用基于所述概念性指导的种子进行所述文本聚合。然后，通过用户界面(510)向用户提供(34)所述分类以及查询输入，用来搜索所述分类，将所述用户引向所述分类的一个或更多个，以使所述用户被引向所述分类(以及到这些文件的链接)，并且不向该用户提供所述文件本身。

著录项

公开/公告号CN1539112A

专利类型发明专利
公开/公告日2004-10-20

原文格式PDF
申请/专利权人国际商业机器公司;
展开▼

申请/专利号CN02815560.2
发明设计人埃米·W·乔;迈克尔·J·丹克;朱莉·J·皮特尔扎克;拉里·L·普罗克特;爱德华·L·斯米尔查克;特里·K·图利斯;
展开▼

申请日2002-08-13
分类号G06F17/30;
代理机构11105 北京市柳沈律师事务所;
代理人郭定辉;黄小临
地址美国纽约州
入库时间 2023-12-17 15:34:51

法律信息

法律状态公告日

法律状态信息

法律状态
2011-10-26

未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20061206 终止日期:20100813 申请日:20020813

专利权的终止
2006-12-06

授权

授权
2004-12-29

实质审查的生效

实质审查的生效
2004-10-20

公开

公开

说明书

技术领域

一般地，本发明有关于用来提供信息的系统与方法，更具体地说，有关于一种根据先前分类的数据资源将链接分类的改进的索引。

背景技术

设计本发明是为了处理电子商务策略与设计咨询员在为其外部客户开发电子商务策略时在收集供评定与分析的信息中所具有的问题。例如，可能有很大一部分的工作时间被消耗在收集数据上，而不是评定与分析数据上。

一般地，收据数据的过程在本质上一直十分特别；咨询员会仔细查看万维网、专门的研究报告、内部数据库，并且利用个人联系来收集与其需要有关的可靠信息。迄今还没有一种方法或通用工具来作为到达这些资源的单一进入点，也还没有对收集这些数据的高效率的最优方法的清楚理解。另外，也不清楚可以把什么信息(当被发现时)应用到“可交付物”(deliverable)的领域。“可交付物”为客户所要求的最终文件或产品。因此咨询员找到自己的收集信息的方法，并且使用自己最喜爱的搜索工具与自己的组织能力来帮助把信息传递给项目组。

因此，需要一种系统与方法，用来组织电子商务策略与设计咨询员可用的资源，从而减少这些咨询员花费在收集信息上的时间，也提供一种系统，用来提供当前资源的最新形式。下面所述的发明处理该问题，并且提供了一种新型系统与方法，用来减少花费在收集信息上的时间。

发明内容

本发明具有几个目标，包括向用户提供对重要数据启动关键速度的工具，提供为电子商务战略工作收集信息的标准方法/处理，提供到相关的、最近的可靠文件与适用于电子商务战略工作的数据的单一进入点，通过将搜索标准组织在标准企业方法与客户可交付物周围，为研究收集处理增加价值，支咨询员用智能软件对准其搜索过程，并且向咨询团队提供网络化空间，以维护让人感兴趣的文件直至这些文件适用于其分析。

根据一个实施例，本发明包括一种使用网络爬行器来搜索包含文件的数据库计算机网络的方法。在搜索之前，向所述网络爬行器提供概念性指导。本发明汇总来源内容，并且在汇总上进行文本聚合以产生分类。使用基于所述概念性指导的种子进行所述文本聚合。然后，本发明通过用户界面向用户提供所述分类以及查询输入，用来搜索所述分类，并且(响应于该查询输入)将所述用户引向所述分类的一个或更多个，以使所述用户被引向所述分类(以及到这些文件的链接)，并且不向该用户提供所述文件本身。

替代提供所述文件，本发明超链接到所述文件。所述汇总基于与所述文件关联的可扩展标记语言。每一所述文件的链接可能出现在所述分类的至少两个类别中。本发明确定每个都对应于用户搜索的多个类别的交叉。这些交叉表示不同类别的发生，响应于所述用户搜索，这些类别分离地返回到单一文件的链接。所述概念性指导改进所述搜索与所述文本聚合，从而将所述分类引向特定结果。

在咨询员使用本发明(此处有时被称为“中心内容管理工具”、“HCMT”、或简称为“中心”)时还有其他好处，包括提供到当前若以个人身份购买还十分昂贵的专有研究资源的访问，紧密结合电子商务战略方法原则以清晰了解正在被研究内容以及需要获取哪些内容，提供数据的自动化分类表示以促进在搜索过程中的发现，而如果不如此将需要成千上万小时的认真阅读，并且最后存储到文件的链接而不是整个文件本身，从而使用户确信访问了原始来源而不是本系统管理员认为正确的最近信息。

这些优点构成了最大的好处，即通过本发明中所使用的技术，具体地围绕咨询员的工作方式组织并向用户呈现信息，大幅度降低了寻找高品质信息的时间。

附图说明

通过以下参照附图地对本发明优选实施例的详细描述可以更好地理解上面的以及其他的目的、方面以及优点，其中：

图1为本发明系统实施例的示意图；

图2是显示根据本发明实施例地处理信息的流程图；

图3为图2中所示的实施例的分解图；

图4为用于运行本发明的硬件实施例的示意图。

具体实施方式

本发明包括完整的内容收集、汇总、索引、分类、搜索、以及呈现应用。现有的搜索与检索系统包括关键词搜索应用，其一般被用于文本HTML(超文本标记语言)或者万维网搜索，其中使用在该文件内容中出现的关键词来检索该文件。另一种现有的应用为SQL(结构化查询语言)，并且其一般用于数字数据库(诸如财务信息)--其中使用专门的语言来检索特定的数字数据。另一公知的应用被称为自然语言，并且其一般用于文本搜索，其中该系统分析该问题，以试图解释其意思，并且在此基础上检索有关文件。

战略性情报系统中心系统(Hub for Strategic Intelligence system)与上述系统的不同之处在于：该系统使用文本聚合(text clustering)来帮助咨询员生成商务驱动的数据分类，并且该系统呈现这些分类以支持命中列表的显示。

如图1所示，对于战略咨询员存在大量的内容来源100。例如，这些资源可能包括公开或私有数据库(有些是基于收费的)、公共或私有网络(诸如因特网或企业网络)。这些资源表现为多种技术格式，包括代理文件(proxydocument)110、Lotus Notes 120、存档和/或镜像站点130、以及因特网140。在优选实施例中，本发明提前做一些选择，以确保本发明所搜扒(crawl)的来源对该商务咨询员有关。例如，在该预选择阶段，本发明为咨询员(用户)提供了界面，以输入条件/类别，该咨询员知道这些条件/类别将与特定客户或客户组有关，从而帮助网络爬行器(crawler)的活动。对某些数据库可能需要取得许可证。

项200表示该工具使用中的收集阶段。此处，搜扒相关资源并将其转换到该文本聚合工具可以接受的格式。在优选实施例中，使用网络爬行器来搜索因特网来寻找咨询员可能感兴趣的文件。此类网络搜扒与随后的索引转换十分常见，例如，本发明可以使用Grand Central Station(GCS)(来自International Business Machines Corporation，Armonk，NY，USA)，这个工具用来搜扒指定来源的站点或数据库(例如Lotus Notes)以从可用资源抽取文本。因此，项220表示可替换的内容交付，而项210表示GCS内容交付。基于文章文本，爬行器生成该这些文件的摘要(例如汇总)。本发明的一个重要方面是：其基于这些汇总生成分类，这要比只读取元标签(mega tag)要可靠的多。另外，本发明将每一文件中的段落与小节分别分类，以更彻底地分类每一文件。此过程更可靠是因为万维网开发人员可以把任何形式的信息放入元标签之中，即使这些信息与该文件内容无关。然后，来自所有内容来源的具有摘要的文本的组合或总体就可用于分类过程。

项300表示内容汇总、索引、以及分类过程。在内容汇总器310中汇总由网络爬行器如上所收集的摘要。更具体地说，内容汇总器提炼这些摘要，从而消除与内容无关的冗余的词/短语(例如副词、形容词、小品词等等)。然后经提炼的摘要(汇总)被导入分类(文本聚合)应用，诸如eClassifier 320(来自International Business Machines Corporation，Armonk，NY，USA)，其使用数学算法来形成质心(centroid)、或者完美/理想概念，并且自动将所搜扒文件与这些质心相关联。这种关系被称为分类，咨询员就工作的实用性衡量这些分类。

本发明使咨询员能够控制该文本聚合应用。这使咨询员不仅能够观察确定了哪些类别，而且能够使用在过去电子商务战略工作中有用的额外的类别题目/主题，并且使用该文本聚合应用的功能来形成这些质心。由此，本发明不同于为聚合应用使用随机开始点(种子)的现有技术，并且这使本发明能够确定尽可能分离的一系列类别。咨询员的一个目标是通过在数据空间中选择远远分离的点，来生成明晰的分组，而这一目标通过本发明实现。本发明通过允许咨询员基于该咨询员认为有用的商务概念输入类别的开始点，以生成分类。具有类似词/概念的文件聚合在一起。换言之，本发明在适合于该咨询员及咨询兴趣的超平面上聚合文件。通过用户界面，本发明允许咨询员使用多种方法来达到最优聚合，从而生成有用的类别。这些包括允许咨询员一开始使用“关键词”作为生成初始分类的方法，并且使用训练文件子集来生成自然的咨询员驱动的分类，然后将这一分类扩展到更大的数据集合上，并且在文本聚合算法后调整分类。这一方法导致对同一数据集合具有多个同样有效的分类。

通过仔细构造开始种子位置，使用本发明的咨询员可以产生与现有方法相比的显著改进。开始点依赖于咨询员对待分类题目的了解。对于咨询员不熟悉的概念领域，可是使用自然分类以促进总体理解，随后基于客户的方法与咨询兴趣生成分类。对于本应用的目的，分类是该文本聚合程序组织数据的一种方法。“自然”分类来自于文本从随机开始点开始聚合，并且依赖于文件总体。“咨询员驱动”分类来自于咨询员引导的文本聚合。分类也可能是“自然”与“咨询员驱动”聚合的组合。对于本应用的目的，名词“内容”可以包括许多不同类型的文件，包括研究报告、新闻文章、分析报告、代理文件等等。

最后，如果本发明生成了不太相关的文件，则咨询员可以使用本发明手工将文章(以及对应的数据点)从聚合中移动。项400表示的万维网应用包括本发明430(战略性情报中心万维网应用)中的搜索引擎410、应用引擎420。该万维网应用采用分类过程的结果，并且通过项500中的万维网浏览器界面510将该结果呈现给咨询员。

由本发明产生的分类表示从不同视角的同一数据集合，并且这使咨询员能够通过使用本发明以“叠加”类别，迅速对准其需要的概念(例如观察这些不同视角的交叉)。本发明的重要特征在于：每一文件可以在不同的类别中出现。因为每一文章在每一分类中出现在至少一个类别中，索引文件可能在两个或更多的类别中出现，这突破了现有的聚合分析。例如，有关移动电话的文章可能在“无线”分类中出现在“接入设备”类别下。其他的类别可能是“基础设施”或“协议”。同一文章可能在“电子消费品”分类中出现在“移动电话”类别下。其他类别可能包括“立体声”或“MP3播放器”。同一文章可能在“消费者行为”分类中出现在“购买行为”类别下。其他类别可能包括“品牌忠诚度”或“引用的使用”。由此，本发明超越了通过将使用文本聚合所生成的分类交叉而交叉分类的概念。

本发明的该特征被称为“叠加分类”，或更准确地称为“叠加类别”。使用上面的例子，咨询员也许希望找到与喜爱其移动电话的消费者有关的文章。在现有搜索引擎上，这可是困难的搜索，因为实际上重要的是概念，而不是确切的词。在这种情况下，咨询员可以选择以下类别(其由上述发明的聚合过程所产生)“消费者行为：品牌忠诚度”以及“电子消费品：移动电话”。本发明的另一特征在于：其不返回整个文件(甚或整个文件汇总)，而只返回与两个概念都有关的文章的超链接。因为这两个类别以不同方式看待同一文章的集合，所以它们的交叉将是非常有价值的。使用本发明，花费在应咨询员请求的搜索上的时间大体下降四分之三(75％)。

另外，用户界面向咨询员提供了每一分类中最常见的词的清单。通过显示由上述自动汇总过程所确定的相关概念集合，一个称为“探索分类”的用户界面区域520在搜索过程中帮助咨询员。

除文本界面之外，本发明还使用被称为“思路图”(mindmap)的特征来表示分类。这一面向视觉的界面将分类(而不是命中表)呈现为探索的方法。思路图显示了咨询员所输入的概念(或关键词)与本发明所生成的类别之间的关系的强度(例如，通过部位、颜色、亮度等等)。

项510表示用户界面，其在万维网浏览器上访问。本发明比较用户的关键词以查询本发明分类中的类别，并且返回最相关的类别。由此，本发明响应于查询，而呈现分类(而非命中表)。另外，类别或分类中的每一个都不包括从引用中复制的数据，而是只包含到该引用的超链接。本发明将用户从一个分类中的类别转移到另一分类中的最近的类别(数学地确定)上。

项600表示万维网OLAP(在线分析处理)服务器，其具有OLAP引擎620以及结构化数据610。存在许多标准方法来通过万维网访问数据。在这种情况下，本发明具有访问万维网OLAP引擎620以检索某些结构化的非文本数据610的万维网界面510的一般化表示。存在不包含任何文本的文件610，并且作为结果，这些文件不能放在其他文本文件的数据集合中。本发明通过以下解决这个问题：将代理文件格式化为XML(可扩展标记语言)衍生物(称为HubML)，以帮助数据分类。

汇总为XML汇总。XML为开放标准，用来定义网页与商务到商务文件的数据元素。其使用与HTML类似的标签结构；然而，HTML定义如何显示元素，而XML定义这些元素依严格规则所包含的内容。HTML使用预定的标签，但XML允许由该页的开发人员定义标签。通过提供用来指定数据的公用方法，XML支持商务到商务的交易。本发明设置HubML，使用了包含在该XML中的元数据。因为HubML文件基于文本，所以其支持数字数据，并且使本发明可以分类并在结果中包括“不可搜扒”文件。另外，本发明使用调查问题(用来形成XML标签)以使咨询员能够在这些调查问题上搜索，如同在汇总上搜索一样。

每一HubML文件为手工生成，使用了来自多种来源的信息。在当前实施例中，这些手工创建的HubML(不同于爬行器所生成的文件)从描述“方块”(cube)的不同来源提取信息。方块与电子表格类似，但结构更复杂。伴随文件描述在该电子表格(方块)上有什么。由此，HubML伴随文件包含了大量信息，其有关该中心(在哪找到样式表)；方块本身(在其被生成时的标题、摘要、文件名称、文件大小)；调查(当收集数据时所使用的问题与文本，等等)；以及该调查所覆盖的标题的概念。

这种“概念”可能是在搜索过程中得到的想法。例如，某人可能对特定标题“乘游轮”感兴趣，所以包含词“乘游轮”的HubML文件将是直接命中。本发明的重要特征在于：其不仅找到直接命中，而且还找到基于概念分类的附近命中。例如，某人可能对“旅行”感兴趣。旅行在该概念段中并没有被显示地列出，但因为乘游轮与旅行经常在同一文章中出现，所以使用上述的分类方案，这些概念将落入同一类别。由此，虽然特定的HubML文件之中不具有词“旅行”，但在“旅行”上搜索的咨询员很可能在其结果中发现该文件。

有各种服务提供访问数据源的门户，然而，这些服务要求付费或者限制到数据库的访问。在研究其他服务时，对此问题的大部分解决方案是通过以下实现的：将数据库编辑在一起，以提供(例如)“公司特定的”或“市场情报”信息。虽然在本发明中，门户方面被认为提供了到许多来源的单一的进入点，但在本发明的这一部分还有其他价值。更具体地说，本发明使咨询员能够按客户可交付物进行搜索。其例子如客户是消费产品公司，其对进入“无线空间”感兴趣。咨询员希望迅速进入情况。本发明的其他优点包括大幅降低的搜索时间、大幅降低的生成分类的时间、对题目的更全面的覆盖、以及通过在“接近”但不一定精确匹配关键词的文章中发现题目而引起的额外的想法生成与时间节省。

本发明也可以在其他环境中收益，包括公司战略监视、路标监视(signpostmonitoring)、公司内知识管理、电子学习环境、通用公共搜索引擎，以及任何使用聚合分析的数据。

开始点依赖于咨询员对待分类题目的了解。选择“好的”开始点涉及很高的技巧。

本发明简化并统一了使用网络技术以集成和利用网络爬行器与搜索引擎的功能的复杂过程。图2与3以流程图的形式示出本发明的主要处理点，并且从不同的角度示出了本发明，从而更清晰地展示本发明的其他特征。在图2中，本发明首先在项30收集信息，在31处理信息，在32将信息打包，在33分类信息，以及在项34部署该信息。下面参照图3更详细地描述这些功能。

如图3中所示，在收集功能30中，本发明通过以下方式从来源305(元数据)收集内容：从来源305获取文本，将其汇总304，并且将这些汇总超链接回原始来源位置。所指定的来源305可以是任意形式，诸如GCS Notes汇总301、GCS HTML汇总302、或者HCMT汇总303。

对于处理功能31，本发明使用文本聚合程序来执行所有必须的操作以产生搜索分类器所需要的所有数据集合组件。该处理包括按分类器的内容存储来组织数据，以指定文本、日期、存储等等的内容，并且指定事务数据、到来源位置的链接、以及内容的其他方面。由此，本发明执行XSL翻译313以及上面的“中心”处理311，从而产生数据集合组件312。

对于打包功能32，本发明以各种组合组织内容，以供不同应用中使用。打包321的处理为：采用分类器与中心两者的处理数据，以允许从同一收集与处理操作以不同格式交付来的内容的“混合与匹配”，从而产生战略性情报中心数据集合322。

在分类器操作33中，本发明依靠文本聚合应用321，使用了由咨询员所定制的种子(如上所述)，以根据最终用户的需要组织内容，从而产生战略性情报中心分类330。如上所述，该分类由清楚客户需要的主题内容专家(咨询员)作出，从而为用户提供待搜索内容的清晰条理的展示。随着新内容被打包，现有的咨询意见被自动更新。最后，在“部署”操作34，所形成的分类341与所计算的关键词索引340在具有下拉式菜单与概念搜索路径的界面上被呈现给用户。

图4中描绘了用来实现本发明的代表性的硬件环境，该图示出了根据本发明的信息处理/计算机系统的典型硬件配置，具有至少一个处理器或中央处理单元(CPU)10。CPU10借助系统总线12连接到随机访问存储器(RAM)14、只读存储器(ROM)16、输入/输出(I/O)适配器18用来将外围设备(诸如磁盘单元11与磁带驱动器13)连接到总线12、用户接口适配器19用将来将键盘15、鼠标17、扬声器103、麦克风104和/或诸如触摸屏幕(未显示)的其他用户接口设备连接到总线12、通信适配器105用来将该信息处理系统连接到数据处理网络、以及显示适配器101用来将总线12连接到显示设备102。使用磁盘或磁带单元可读的程序存储设备来载入指令。

工业实用性

如上所述，本发明可以用于咨询行业，在收集与处理信息来为客户开发电子商务战略时具有优势。本发明提供到研究来源的访问，紧密结合电子商务战略方法原则以清晰了解正在被研究内容以及需要获取哪些内容，提供数据的自动化分类表示以促进在搜索过程中的发现，而如果不如此将需要成千上万小时的认真阅读，并且最后存储到文件的链接而不是整个文件本身，从而使用户确信访问了原始来源而不是本系统管理员认为正确的最近信息。这些优点构成了最大的好处，即通过本发明中所使用的技术，具体地围绕咨询员的工作方式组织并向用户呈现信息，大幅度降低了寻找高品质信息的时间。

虽然本发明就优选实施例进行了描述，但本领域的技术人员应该理解在权利要求的精神与范围之间的修改可以实现本发明。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 汇总与聚合以将文件就概念分类 [P] . 中国专利： CN1288583C . 2006.12.06
2. 汇总与聚合以将文件就概念分类 [P] . 中国专利： CN1539112A . 2004-10-20
3. DOCUMENT SUMMARIZING APPARATUS, DOCUMENT SUMMARIZING SYSTEM, METHOD OF DOCUMENT SUMMARIZATION, AND STORING MEDIUM [P] . 美国专利： US2020342019A1 . 2020-10-29

机译：文件汇总设备，文件汇总系统，文件汇总方法和存储介质
4. Chronological document summarizing apparatus, time-series document summarization method and time series document summary program [P] . 日本专利： JP5884740B2 . 2016-03-15

机译：时序文件汇总装置，时序文件汇总方法及时序文件汇总程序
5. Series document summarizing apparatus when, time-series document summarization program and series document summarization method when [P] . 日本专利： JPWO2012111226A1 . 2014-07-03

机译：系列文件汇总装置何时，时序文件汇总程序及系列文件汇总方法