首页> 中国专利> 一种网页信息分类方法、系统及应用该分类的服务系统

一种网页信息分类方法、系统及应用该分类的服务系统

摘要

本发明公开了一种网页信息分类方法及系统,涉及信息索引的存储方式,解决现有信息索引方式提供的搜索服务,对用户要求高、搜索结果不准确、搜索质量有待提高的问题。所述方法包括:以树型结构建立网页信息的初始分类;如果任一类别下的信息数目达到预设值,则对该类别进行分裂,所述分裂包括:按照网页间的相似度执行聚类操作,将相似度达到预设量级值的网页聚为一个类别;剩下的网页设为一个孤立网页类。本发明对信息的分类在广度和深度上更加全面、深入,可以支持更多的应用服务。本发明还提供了一种应用该分类的服务系统。

著录项

  • 公开/公告号CN101266603A

    专利类型发明专利

  • 公开/公告日2008-09-17

    原文格式PDF

  • 申请/专利权人 北京搜狗科技发展有限公司;

    申请/专利号CN200710079441.5

  • 发明设计人 梁斌;

    申请日2007-03-12

  • 分类号G06F17/30(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人逯长明

  • 地址 100084 北京市海淀区中关村东路1号院威新国际大厦9层01房间

  • 入库时间 2023-12-17 20:45:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2010-09-08

    授权

    授权

  • 2008-12-10

    实质审查的生效

    实质审查的生效

  • 2008-09-17

    公开

    公开

说明书

技术领域

本发明涉及信息索引的存储方式,特别是涉及一种网页信息分类方法、系统及应用该分类的服务系统。

背景技术

信息索引的存储方式是指对信息建立索引的方式,如目录索引、关键词索引、分类索引、标签索引等,不同于信息的存储方式,信息的存储方式是指信息以文本、数据表等方式存储。

目前对网页信息的搜索,都是建立在网页信息的有效归类基础上,即对网页信息建立的索引方式不同,所提供的搜索服务和搜索质量也不同。例如,常用的两种搜索方式——基于关键词的搜索与基于分类的搜索,在信息到达用户的距离、对用户的要求、查询效果等方面存在着差异。其中,所述信息到达用户的距离是指有效的、可靠的信息到达最终用户的距离,所述距离表达了用户获取信息的难易程度和需要的步骤多少。

基于关键词的搜索,即基于关键词的信息索引方式,是对网页的关键词设置了关键词索引,并根据用户输入的关键词进行信息检索,然后将检索结果按照各种排序规则,如时间、网页级别(pagerank)等排序输出供用户参考,例如google等搜索引擎。

使用关键词搜索的方法,首先,信息到达用户的距离比较近,用户输入关键词,在查询结果中选择自己满意的信息,由于按照各种排序规则输出查询结果,所以用户需要的页面通常在前10条信息中出现。其次,对用户的要求较高,用户检索带有很强的目的性,需要预先选择关键词,而关键词的选取至关重要,因为查询质量在很大程度上依赖于关键词选取的好坏。再次,从查询效果来看,关键词搜索为用户提供了方便、快捷的信息检索,已经成为一种普及使用的信息检索方法。但是,关键词受上下文影响存在多义性,会影响对用户查询目的的估计。而且,随着信息的不断增加,查询的准确性以及对用户查询目的的推测都会受到很大影响。

基于分类的搜索,即基于分类的信息索引方式,是按照人工预定的分类体系对网页信息进行一次性的分类,每一个网页信息都会判别且仅判别一次确定其分类,终身不变。用户可以在确定的分类下输入关键词检索,排除其他无关类别,从而获得更加准确、满意的搜索结果。

与关键词搜索相比较,首先,信息到达用户的距离更近,因为选择类别后再进行检索去掉了无关页面信息,所以在搜索结果页面的前10条信息中出现用户所需信息的概率大大提高。其次,对用户的要求更高,用户不仅要选择关键词,还需要明确搜索的领域,进一步增加了用户操作的难度。再次,查询的准确性大大提高,因为在信息类别上进行了细分,对于某种检索,只需在用户确定的类别下进行检索即可,极大减少了无关的搜索结果。但是,由于所述分类是一种静态分类,分类的数目有限,分类不够细致,所以在信息量大量增加的情况下,搜索的质量还是不够理想,不能快速、准确地为用户提供所需信息。

发明内容

本发明所要解决的技术问题是提供一种网页信息分类方法、系统及应用该分类的服务系统,以解决现有信息索引方式提供的搜索服务,对用户要求高、搜索结果不准确、搜索质量有待提高的问题。

为解决上述技术问题,根据本发明提供的具体实施例,公开了以下技术方案:

一种网页信息分类方法,包括:

以树型结构建立网页信息的初始分类;

如果任一类别下的信息数目达到预设值,则对该类别进行分裂,所述分裂包括:按照网页间的相似度执行聚类操作,将相似度达到预设量级值的网页聚为一个类别;剩下的网页设为一个孤立网页类;

所述方法还包括:标注所述聚类后的类别名称。

其中,所述分裂过程中,标注名称的类别纵向分裂为各个子类;孤立网页类横向分裂。

优选的,所述方法还包括:确认所述分裂结果的有效性。

所述方法还包括:每个分类称为一个结点,跟踪记录所述树型结构中所有结点的分裂频度。

所述方法还包括:新添加到所述树型结构中的网页信息进行逐层匹配,归到最底层的子类或孤立网页类中。

所述方法还包括:根据用户提交的关键词或关键词组合构成关键词集合,比较所述关键词集合与对应每个类别的特征集合的相似度,将相似度最大的分类对应用户的兴趣点。

所述方法还包括:将对应用户兴趣点分类下的新添加信息,异步推送给用户。其中,通过电子邮件、短信、信件、报表方式将网页信息异步推送给用户。优选的,用户一次性提交对应多个兴趣点的关键词或关键词组合。

所述方法还包括:判断热点分类,对用户提交的搜索关键词,或者新添加到所述树型结构中的网页信息,优先匹配所述热点分类。其中,执行以下判断步骤:将预定时间段内进行多次分裂的类别判定为热点分类,或者,将预定时间段内新标注的类别判定为热点分类。

所述方法还包括:根据所述分类结果和用户提交的搜索关键词,逐层给出分类提示;或者,根据所述分类结果,以及用户提交的关键词与分类的组合信息,直接显示对应类别下的网页集合。

所述方法还包括:将同一分类或近似分类下的网页信息建立关联,并互相推荐各自的网页内容。

所述方法还包括:建立关键词-分类-广告或信息排名三者之间的对应关系,并根据用户输入的关键词和选定的分类,展示相应的广告或信息排名。

一种网页信息分类系统,包括:

动态分类树,用于以树型结构建立网页信息的初始分类;

聚类单元,用于执行聚类操作,如果任一类别下的信息数目达到预设值,则对该类别进行分裂,所述分裂包括:按照网页间的相似度,将相似度达到预设量级值的网页聚为一个类别,剩下的网页设为一个孤立网页类;

控制单元,用于根据聚类单元的执行结果改变动态分类树的形态。

所述分类系统还包括:人工判别单元,用于标注所述聚类后的类别名称;

其中,所述聚类单元在执行聚类时,标注名称的类别纵向分裂为各个子类;孤立网页类横向分裂。

所述分类系统还包括:网页归类单元,用于将新添加到所述树型结构中的网页信息进行逐层匹配,归到最底层的子类或孤立网页类中。

所述分类系统还包括:日志单元,用于跟踪记录动态分类树中所有结点的分裂频度,其中每个分类称为一个结点。

一种应用服务系统,包括:

信息分类子系统,包括动态分类树,用于以树型结构建立网页信息的初始分类;聚类单元,用于执行聚类操作,如果任一类别下的信息数目达到预设值,则对该类别进行分裂,所述分裂包括:按照网页间的相似度,将相似度达到预设量级值的网页聚为一个类别,剩下的网页设为一个孤立网页类;控制单元,用于根据聚类单元的执行结果改变动态分类树的形态;

查询单元,用于查询所述动态分类树,并根据查询结果提供相应的应用服务;

应用层单元,用于响应各种服务命令,调用所述查询单元。

所述应用服务系统还包括:兴趣点推测单元,用于响应应用层单元的调用,根据用户提交的关键词或关键词组合构成关键词集合,比较所述关键词集合与对应每个类别的特征集合的相似度,将相似度最大的分类对应用户的兴趣点。

所述应用服务系统还包括:异步推送单元,用于根据兴趣点推测单元的推测结果,将对应用户兴趣点分类下的新添加信息,异步推送给用户。其中,所述异步推送单元通过电子邮件、短信、信件、报表方式将网页信息异步推送给用户。

所述应用服务系统还包括:热点推测单元,用于响应应用层单元的调用,判断热点分类,对用户提交的搜索关键词,或者新添加到所述树型结构中的网页信息,优先匹配所述热点分类。其中,所述热点推测单元将预定时间段内进行多次分裂的类别判定为热点分类;或者,将预定时间段内新标注的类别判定为热点分类。

所述应用服务系统还包括:分类提示单元,用于响应应用层单元的调用,根据所述分类结果和用户提交的搜索关键词,逐层给出分类提示。

所述应用服务系统还包括:兴趣点关联单元,用于将同一分类或近似分类下的网页信息建立关联,并响应应用层单元的调用,互相推荐各自的网页内容。

所述应用服务系统还包括:网页属性分析单元,用于建立关键词-分类-广告或信息排名三者之间的对应关系,并根据用户输入的关键词和选定的分类,展示相应的广告或信息排名。

根据本发明提供的具体实施例,公开了以下技术效果:

由于对网页信息的分类索引是一种动态建立的过程,即顶层分类(不限于一层)按照人工预定的分类体系进行一次性的分类,然后随着各个类别中网页信息的不断添加,当任一类别下的信息数目达到预设值,则对该类别进行分裂,按照网页间的相似度执行聚类操作,将相似度达到预设量级值的网页聚为一个类别,剩下的网页设为一个孤立网页类。因此,信息的分类在广度和深度上更加全面、深入,可以支持更多的应用服务。

首先,其效果体现在所述动态分类索引所提供的搜索服务上。第一,当在大量信息中搜索用户需要的信息时,更细致的分类缩小并精确了查找范围,从而大幅度提高了搜索效果,搜索的准确性和搜索结果的质量进一步提高。第二,与基于静态分类的搜索相比,由于提供了更加全面、深入的逐层分类提示,可以引导用户逐层选择直到在最底层的分类中查找到所需信息,因此降低了对用户的操作要求。第三,信息到达用户的距离非常近,由于分类的细致程度提高,所以搜索结果页面中前10条信息中出现用户所需信息的概率大大提高。

其次,其效果体现在信息的异步推送服务上。与按照关键词推送的方式相比,本发明结合所述动态分类体系,提供了按照用户兴趣点的异步推送。根据用户提交的关键词或关键词组合构成关键词集合,计算所述关键词集合与对应每个类别的特征集合的相似度并加以比较,将相似度最大的分类对应用户的兴趣点,然后将对应用户兴趣点分类下的新添加信息,以电子邮件、短信等异步通讯方式推送给用户,为用户提供一次提交查询、定期获得查询结果的服务。而且,用户可以一次性提交对应多个兴趣点的关键词或关键词组合。所述基于用户兴趣点的异步推送,由于是对更细致的分类进行兴趣匹配,所以比关键词推送的信息更加符合用户的需求。

再次,其效果体现在基于热点信息探测的应用服务上。由于网页信息的分类是一个动态变化的过程,所以通过跟踪记录各个分类的分裂频度,可以推测出近期的热点新闻。判断热点信息的方式有两种:一种是在一个时期内分裂次数最多、变化最明显的分类即为热点;另一种是在一个时期内由于网页信息的快速添加而新聚合成的分类即为热点。当用户输入关键词搜索信息时,可以优先按照所述热点分类匹配和估计用户的搜索期望。而且,还能够进行查询的容错处理,如果用户输入的搜索关键词出现部分错误,由于优先按照热点分类匹配,所以错误的搜索关键词并不影响搜索结果。

再次,其效果体现在相同兴趣点的信息推送服务上。在所述细致的分类体系中,将同一分类或近似分类下的网页信息建立关联,并主动互相推荐各自的网页内容。由于分类的细致性,并且在动态分类过程中对自动聚类的信息进行了有效性确认,所以建立关联关系的网页信息都具有更高的相似度,并对应相同的用户兴趣点。由此,通过兴趣点建立了用户关联。

最后,其效果体现在网页属性分析的应用服务上。在用户通过购买关键词进行广告投放或竞价排名等应用中,由于网页信息分类更加精确,所以能够提供按照信息所属的各层分类购买关键词,避免用户购买多个关键词。

附图说明

图1是本发明实施例所述网页信息动态分类过程的步骤流程图;

图2.1、2.2、2.3和2.4是图1所述实施例中分类体系的生长分裂示意图;

图3是本发明实施例所述网页的归类流程图;

图4是本发明实施例所述一种信息分类系统的结构图;

图5是本发明实施例所述一种应用服务系统的总体框架图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供的网页信息动态分类方法,是一种全新的信息索引存储方式,由于信息索引的存储方式决定了所提供的应用服务,所以本发明在信息索引所支持的各种应用中是一次根本性改变,并且扩大了应用范围。其中,所述网页信息包括各种互联网可以展示的文本、图片、视频、音频等。

通过动态分类过程建立起来的分类体系,是一种层次性的多级索引存储方式,其顶层分类(不限于一层)按照人工预定的分类体系进行一次性的分类,然后随着各个类别中网页信息的不断添加,当任一类别下的信息数目达到预设值,则对该类别进行分裂,按照网页间的相似度执行聚类操作,将相似度达到预设量级值的网页聚为一个类别,剩下的网页设为一个孤立网页类。孤立网页类中的网页信息,当满足聚类条件时,将分裂为各个分类。其中,所述顶层分类并不限于一层,初始建立的分类体系可能已经包含多层分类。总之,所述分裂、聚类的过程循环进行,随着网页信息的不断变化而生成新的分类,所述分类体系一直处于动态变化的过程中。

参照图1,是本发明实施例所述网页信息动态分类过程的步骤流程图。下面将以某网站网页的动态分类为实施例,并结合图2.1、2.2、2.3和2.4中分类体系的生长分裂示意图,详细说明动态分类过程。

步骤101,建立初始分类。参见图2.1,对网站内的全部网页,按照人工选择的几个分类,通常尽可能选择正交的分类,或者是系统设计者感兴趣的分类,分为军事、政治、娱乐、教育、未标记五类。其中,将不属于任何一个分类的网页设为一个单独的类别,称为未具名类,即所述的未标记类别;而已经命名的子类称为具名类。所述按照人工方式确定的初始分类中,分类的层次可能是一层,也可能是多层。

因为互联网不断地产生各种各样表达用户的兴趣和关注的网页,这些网页都会按照所述分类索引方式的要求,在具名类或未具名类下进行归类。归类的过程中,当满足一定条件时,分类体系就要进行相应的改变,下面的步骤描述的是其中一种变化方式。

步骤102,具名类纵向生长。所述分类体系的改变是通过预先设定的分裂阈值而决定的,即对每个类别设置一个分裂阈值,当任一类别下的信息数目达到分裂阈值时,所述类别分裂为多个分类。分裂后的各个子类内部的网页间相似度最大,各子类之间的相似度足够低,而且子类内至少包含预先设定的最少网页个数。分裂的过程是:按照网页间的相似度执行聚类操作,通过比较网页的特征集合,将相似度达到预设量级值的网页聚为一个类别,剩下的网页设为一个孤立网页类。例如,网页A和网页B各有20个特征,其中18个特征一致,则将他们归为一个分类,依次类推,得到一组具有相同或相近特征的分类。所述聚类操作,可以采用本领域技术人员所熟知的各种方法。

分裂阈值可以根据不同分类的特性设置,例如:娱乐类由于新闻较多、话题集中,所以娱乐类的分裂阈值就比较高,比如1万条新闻尝试一次分裂;而军事类新闻比较少,话题比较分散,所以分裂的阈值就比较低,比如1千条新闻尝试一次分裂。

参见图2.2,假设娱乐类是信息数目增加最快的分类,当增加到某个阈值如1000条时,达到该分类所含信息数目最大许可的范围,可以理解为在所述分类下可能产生了多个话题,此时执行一次聚类算法,将紧密相似的网页作为一个类别。如图所示,分为2个聚类和1个未聚类。其中,未聚类可以理解为在所述聚类过程中的一些孤立点,这些孤立点随着新的网页的到来,可能会继续分裂。本发明所述实施例中,对于具名类的分裂,所述过程称为分类的一次生长,即在原有分类下生成多个子类,所述子类包括具名类和未具名类。

步骤103,未具名类横向分裂。对于所述未标记或未聚类等孤立网页信息,其分裂过程同具名类的分裂过程一样,随着新信息的添加,达到阈值后,也是按照网页间的相似度进行聚类操作。但与步骤102中具名类的生长不同,未具名类分裂后水平增加若干分类,即取代原有未具名类的位置。参见图3.3所示,原来的未聚类消失,转换为2个聚类和1个未聚类。

步骤104,对聚类标注名称。分类体系完成一次分裂操作后,自动聚成一个新的类别,就需要对所述新生成的类别标注名称。所述过程可以通过系统自动完成,例如每个分类对应一个特征集合,可以按照特征集合中各个特征的权重值,从特征集合中选择一个权值最大的特征词作为分类名称,当然也可以按照其他方法选择特征词。优选的,在确定名称前,系统还可以先进行聚类过程的校验,通过各种方式确认自动聚类的有效性,即新类别中是否存在不适合分在这个类别中的网页信息,然后再对有效的分类命名。

但是,机器系统对自动聚类的校验和命名不可能完全符合人的要求,所以名称标注的准确性不高。本发明优选的,加入人工干预的手段,分配专员按照有意义、有价值、符合人的兴趣点和关注点的要求,确认一次有价值的聚类。尤其在一些专业性较强的特殊分类中,还需要通过专家来确认自动聚类的有效性,并由专家来标注名称。如果自动聚类后的信息对浏览网站的人并没有太大的浏览价值,或者不符合大众的关注方向,即为一次无意义的聚类,则根据各种策略进行放弃。

上述动态分类过程中,每一次分裂都是一次聚类的结果,具名类分裂使分类体系变深,未具名类分裂使分类体系变宽。分类体系的纵向分裂和横向分裂是两种不同的表现结果,所以上述实施例中的步骤102和103还可以颠倒顺序或者同时执行。

本发明所提供的基于动态分类的信息索引方式,比静态分类的结果在分类广度和深度上更加全面、深入,不仅降低了用户的使用难度,还缩小并精确了查找范围,从而大幅度提高了信息搜索的准确性。而且,信息到达用户的距离非常近,搜索结果页面中前10条信息中出现用户所需信息的概率大大提高。

所述动态分类体系还支持分类结果的各种粒度,可以支持更多的应用。所述分类的粒度是对一种连续或者离散的变量概化的描述,比如地理位置的描述,由大洲、国家、地区、省市到乡村等等,粒度由大到小;再比如年龄,可以有少年6-12、青少年12-18、青年18-25等粒度的划分。由于分类体系是在人工参与的情况下监控分裂阈值,所以分类的粒度可以任意掌握,支持各种粒度的查询应用。

图1所示的流程是从动态分类的整体进行说明,下面将从对网页的具体处理来说明网页的归类过程,所述归类表示一个网页对所述分类体系逐层匹配的过程。参照图3所示,流程如下:

步骤301,当新添加一个网页信息时,首先通过抓取工具抓取页面内容。

步骤302,对抓取的内容进行结构化处理,通过分词、相同网页滤重等操作,抽取网页的特征元素构成特征集合。

步骤303,从分类体系的顶层分类开始匹配所属类别,比较网页特征集合与分类特征集合的相似度,当属于某个分类时,继续执行步骤304。

步骤304,如果所属分类具有子类,则继续在子类中按照相似度进行匹配,直到最底层的分类。

所述网页归类过程不同于静态分类中仅对网页判别一次的归类过程,而是一个逐层进行多次匹配的过程,当某个网页归到一个类别时,还需要考虑是否归到其子类中更加合适,如果是,继续往分类体系的深处归类,直到在最底层的分类中,如果所述网页和该类的任何子类都不相似,则归到未具名子类中,一次归类过程才结束。

优选的,网页归类过程还可以人工参与,人工添加新的网页信息。如果管理维护人员拥有足够的领域知识,且熟知所述分类体系结构,当编辑得到一个网页时,就可以一次性将该网页存放在最优的分类中。

如前所述,信息索引的存储方式决定了所支持的应用服务,下面结合本发明所支持的各种应用服务来说明动态分类体系的效果。

其一,由于所述分类体系中各个分类大多反映了人的兴趣点,如招聘信息、新闻搜索、知识查询、资料下载等类别,所以本发明能够有效支持基于兴趣点的异步推送,为用户提供一次提交查询、定期获得查询结果的服务。其中,所述异步表示时间上紧凑性不强的通讯方式。所述异步推送过程是:根据用户提交的关键词或关键词组合构成的关键词集合,计算所述关键词集合与对应每个类别的特征集合的相似度并加以比较,将相似度最大的分类对应用户的兴趣点,如果以后出现该类别的信息,将通过电子邮件发送到用户的email邮箱,实现用户一次提交关键词,系统转换为兴趣点,按照兴趣点推送信息。

而且,用户可以一次性提交对应多个兴趣点的关键词或关键词组合,例如,用户提交“西湖,钓鱼,谷歌,李开富,收购,姚明,NBA,麦迪”多个关键词,系统通过比较,发现“西湖,钓鱼”、“谷歌,李开富,收购”、“姚明,NBA,麦迪”分别对应系统已有的三个分类,于是,将用户的兴趣点确定在所述三个分类中,用户通过电子邮件、短信、信件、报表等异步通讯方式实现对兴趣点的长期关注。

具体实现过程是:用户登录异步推送页面→提交关键词或关键词组合→系统通过相似度的计算和比较推测用户关注的分类,提示用户进行分类兴趣的注册→发现分类中的新信息,采用各种异步通讯方式推送→用户接收推送结果。与按照关键词异步推送的方式相比,所述基于用户兴趣点的异步推送,由于是对更细致的分类进行兴趣匹配,所以比关键词推送的信息更加符合用户的需求。而按照关键词存储的索引包含的信息范围太广泛,具有相同关键词的网页内容可能记载了完全不相关的信息,上例中用户输入的8个搜索关键词也许对应8个分类,所以推送给用户的信息就不能很好地反映用户的兴趣点或关注点。

其二,在分类体系的动态变化过程中,通过跟踪记录各个分类的分裂频度(即类的活跃度),可以推测出近期的热点新闻。判断热点信息的方式有两种:一种是在一个时期内分裂次数最多、变化最明显的分类即为热点,例如,在一个时期内变化最明显的分类即为热点分类,如在娱乐的大类中,1周执行了5次纵向生长和5次横向分裂,很显然娱乐是热点;另一种是在一个时期内由于网页信息的快速添加而新聚合成的分类即为热点,例如,近期通过人工标注的分类是黄健翔跳槽,那么这就是近期热点。

通过所述两种方法,系统可以自动获知热点,并且主动推送用户,具有主动性。应用在搜索引擎服务中,当用户输入关键词搜索信息时,可以优先按照所述热点分类匹配和估计用户的搜索期望。例如,用户在黄健翔跳槽期间查询关键词“黄健翔”或者“重庆卫视”,那么系统可以按照当前热点推测出用户的查询目的,优先在属于黄健翔跳槽的这个分类中给予查询结果。应用在网页归类过程中,对于新添加到分类体系中的网页信息,优先对热点类别或应用中特别关注的类别进行匹配,从而获得较高的归类效率。

此外,优先匹配基于兴趣点分类的热点信息还具有查询容错的功能。例如,用户需要查询一个人的信息,输入关键词组合“北师大,国企,副总”,但是要查询的这个人应聘的是外企的副总,关键词出现部分错误。在传统的信息索引方式中,由于用户输入错误,导致系统查询被误导,很难搜索出用户想要的结果。但是如果结合基于兴趣点分类的热点信息,因为近期出现了大量含有“北师大,副总”的网页,则可以推测出可能的查询为“北师大,副总”,而且系统刚刚分裂出“北师大,副总,杜颖颖”这个子类,结合所述子类即可正确估计用户的搜索目的,从而得到的搜索结果不受错误搜索关键词的影响。

其三,与基于静态分类的搜索相比,由于分类在广度和深度上更加全面、深入,支持各种粒度的分类查询,所以提供的逐层分类提示可以引导用户不断精确搜索,快速查找到需要的信息,避免每次在大搜索中查找。例如,用户查询“火箭”,系统将包含“火箭”的所有分类给出分类提示[科研,体育,娱乐],用户选择体育,搜索结果全部为体育类,系统继续给出分类提示[篮球,台球],用户选择台球,搜索结果全部为台球类,用户选择台球类,出现火箭奥沙利文的信息。

除上述逐次给予用户分类提示的方式外,优选的,对于高级用户,允许直接给出所述分类体系的整体分类目录,这样用户不必逐次选择,在所述整体目录中进行一次性选择,就可以直接定位到所需要的类别中。

优选的,更便捷的一种方式是:在某些特殊应用中,还允许用户提交“关键词+分类”的组合,系统根据所述组合信息,查找到分类目录,然后直接将指定目录下的全部网页显示。用户通过输入快捷搜索词,即能直接得到自己需要的网页集合。

其四,由于按照兴趣点的分类,能够支持用户兴趣点关联的应用。在所述细致的分类体系中,将同一分类或近似分类下的网页信息建立关联,在需要建立网页关联的应用中,主动互相推荐各自的网页内容。由于分类的细致性,并且在动态分类过程中对自动聚类的信息进行了有效性确认,所以建立关联关系的网页信息都具有更高的相似度,并对应相同的用户兴趣点。例如,用户发表一篇对公交降价的评论,系统自动将其归类在公交降价的类别中,并且推送近期发表的关于公交降价的其他博客给该用户,通过兴趣点把博客用户关联起来。通常,建立了兴趣点关联的信息都属于同一个分类,但在某些情况下,也可能属于不同的、但相近似的分类中。

其五,由于分类的细致性,可以对用户提供网页属性分析的服务。比如某个网页所属的分类分别为体育类、台球类、火箭等等,用户了解所述属性可以按照类别进行关键词投放。例如,对某个关键词的竞价排名,购买用户在购买关键词时可以针对关键词所属的其中一个类别,如果搜索用户的查询企图是所述类别,则优先将某个网址排名靠前,从而避免用户购买多个关键词。而在传统的关键词购买方式中,由于信息建立了关键词索引,所以用户需要购买多个关键词,才能达到针对类别购买的效果。

再如,目前的广告投放都是按照关键词投放,即根据大类投放,比如体育类。而本发明具有各种粒度大小的分类,购买关键词的用户可以任意选择需要的类进行投放。比如投关于体育类的台球类的奥沙利文类,那么只有奥沙利文的球迷可能会打开这些页面,这时就可以看到投放的广告。同样,按照类别购买关键词进行广告投放,可以避免用户购买多个关键词。

针对上述实施例中所述的动态分类方法,本发明提供了一种信息分类系统,参照图4所示,所述系统包括动态分类树401、聚类单元402、人工判别单元403、控制单元404、网页归类单元405和日志单元406。

动态分类树401是一种信息索引的存储结构,以树型结构存储分类索引,其中每个分类称为一个结点。动态分类树401的顶层分类是对网页信息的初始分类,即按照人工预定的分类体系进行一次性的分类;余下的分类是动态聚类的结果,即随着各个类别中网页信息的不断添加,对达到分裂阈值的类别进行聚类,生成新的类别。而聚类过程中的一些孤立网页归为一个未聚类,这些孤立点随着新的网页的到来,可能会继续分裂。每一次分裂都是一次聚类的结果,对于具名类的分裂,动态分类树401变深;对于未具名类的分裂,动态分类树401变宽。所述分裂阈值随类别的不同而设置不同。

聚类单元402用于执行所述聚类操作,当任一类别下的信息数目达到分裂阈值时,按照网页间的相似度,通过比较网页的特征集合,将相似度达到预设量级值的网页聚为一个类别,剩下的网页设为一个未聚类。聚类后形成的各个子类内部的网页间相似度最大,各子类之间的相似度足够低,而且子类内至少包含预先设定的最少网页个数。

人工判别单元403用于对聚类后的类别标注名称,生成具名类,可以由系统自动完成,也可以通过人工方式完成。本发明优选的,由人工确认自动聚类的有效性,即确认一次聚类是否有意义、有价值,是否符合人的兴趣点和关注点,否则根据各种策略进行放弃,然后再对有效的分类命名。因此,通过人工审核的分类通常反映了人的兴趣点。

控制单元404用于从整体上控制动态分类树401的变化,当任一类别下的信息数目达到分裂阈值时,触发聚类单元402执行聚类操作,并根据聚类单元402的执行结果改变动态分类树401的形态。具体过程是:当人工判别单元403完成名称标注后,控制单元404根据人工判别单元403的结果改变动态分类树401的形态,完成一次形态的调整。

分类系统中还包括了网页归类单元405,用于将互联网不断产生的各种各样表达用户兴趣和关注点的网页,按照所述分类索引方式的要求进行合理归类。在建立初始分类时,网页信息是按照静态分类中的归类方式,仅判别一次后归到最匹配的类别中。但是在随后的聚类过程中,新添加到动态分类树401中的网页按照从上到下逐层匹配的方式进行多次匹配后,归到最底层的具名类或未具名类中。例如,当某个网页归到一个顶层类别时,如果该分类还有下一层子分类,则继续往动态分类树401的深处进行类别匹配,直到在最底层的分类中,如果所述网页和该类的任何子类都不相似,则归到未具名子类中。

优选的,在整个动态变化过程中,还部署了日志单元406来跟踪记录动态分类树401中所有结点的分裂频度,通过判断一个时期内变化最明显的分类和新聚合成的分类,推测出近期的热点新闻。所述信息分类系统能够自动识别出热点信息,准确性高,具有很大的应用价值。

基于上述信息分类系统和建立在动态分类基础上的各种应用服务,本发明还提供了一种应用所述分类系统的服务系统,参照图5,是本发明实施例所述一种应用服务系统的总体框架图。所述系统包括三个子系统,具体包括动态分类树,抓取层501,分析层502,归类层503,执行层504,人工判别层505,查询层506和应用层507。其中,所述抓取层501、分析层502和归类层503属于信息归类子系统,所述执行层504和人工判别层505属于上述的信息分类子系统,所述查询层506和应用层507属于应用子系统,下面分别说明。

信息归类子系统主要完成网页信息的初始归类,其中抓取层501负责信息抓取,通过抓取工具抓取页面内容;分析层502负责信息结构化处理,通过分词、相同网页滤重等操作,抽取网页的特征元素构成特征集合;归类层503负责根据网页的特征集合和已有分类树,计算并比较网页特征集合与分类特征集合的相似度,对网页进行归类。所述归类过程是一个逐层进行多次匹配的过程,当某个网页归到一个类别时,还需要考虑是否归到其子类中更加合适,如果是,继续往分类体系的深处归类,直到在最底层的分类中,如果所述网页和该类的任何子类都不相似,则归到未具名子类中。

信息分类子系统主要完成分类树的类别分裂,其中执行层504负责根据不同的分裂需要进行分类,并根据人工判别层505返回的结果改变分类树的形态,包括图4所示的聚类单元402、控制单元404和日志单元405,其功能不再详述;人工判别层505负责人工确认分类的有效性,并标注名称,包括图4所示的人工判别单元403。信息分类子系统的功能与具体实现不再详述。

应用子系统主要基于动态分类树,提供各种应用服务。其中,查询层506负责查询所述动态分类树,并根据查询结果提供相应的应用服务;应用层507负责根据各种应用的需要,调用所述查询层506提供的各种服务。查询层506提供的应用服务包括搜索引擎服务,基于兴趣点的异步推送,热点信息的优先匹配,查询容错,逐层分类提示,兴趣点关联的建立,以及网页属性分析服务。对应所述服务,本发明实施例中提供了查询单元、兴趣点推测单元和异步推送单元、热点推测单元、分类提示单元、兴趣点关联单元、网页属性分析单元,分别部署在查询层506,响应应用层507的调用。下面分别说明。

查询单元负责查询所述动态分类树,可以根据网页查出其全部分类属性,或者根据其中一个分类查出其所包含的网页信息。

兴趣点推测单元负责根据用户提交的关键词或关键词组合构成关键词集合,计算并比较所述关键词集合与对应每个类别的特征集合的相似度,将相似度最大的分类对应用户的兴趣点。并结合异步推送单元,将该类别出现的新的信息,通过电子邮件、短信、信件、报表等异步通讯方式发送给用户,实现用户一次提交关键词,系统转换为兴趣点,按照兴趣点推送信息,实现用户对兴趣点的长期关注。而且,用户可以一次性提交对应多个兴趣点的关键词或关键词组合。与按照关键词异步推送的方式相比,所述基于用户兴趣点的异步推送,由于是对更细致的分类进行兴趣匹配,所以比关键词推送的信息更加符合用户的需求。

热点推测单元负责根据日志单元记录的分类活跃度,推测出近期的热点新闻。在一个时期内分裂次数最多、变化最明显的分类即为热点,一个时期内由于网页信息的快速添加而新聚合成的分类也是热点。系统可以自动获知热点,并主动推送给用户,例如在搜索引擎服务中,可以优先按照所述热点分类匹配和估计用户的搜索期望。而且,优先匹配基于兴趣点分类的热点信息还具有查询容错的功能,搜索结果不受错误搜索词的影响。

所述热点推测单元还对新添加到动态分类树中的网页信息,按照热点类别或应用中特别关注的类别优先的原则进行匹配,从而获得较高的归类效率。

分类提示单元负责支持各种粒度的分类查询,提供逐层分类提示,一步步引导用户不断精确搜索,从而快速、准确地查找到需要的信息,避免每次在大搜索中查找。

所述分类提示单元给出分类提示信息的方式包括逐次提交和整体提交两种方式。所述逐次提交指每次给出一个层次的分类提示,用户通过多次选择分类才能找到需要的信息;所述整体提交指针对高级用户,直接给出所述分类体系的整体分类目录,这样用户不必逐次选择,在所述整体目录中进行一次性选择,就可以直接定位到所需要的类别中。

优选的,所述分类提示单元针对某些特殊的应用,允许用户提交“关键词+分类”的组合,并根据所述组合信息,查找到分类目录,然后直接将指定目录下的全部网页显示。用户通过输入快捷搜索词,即能直接得到自己需要的网页集合。

兴趣点关联单元负责将同一分类或近似分类下的网页信息建立关联,在需要建立网页关联的应用中,主动互相推荐各自的网页内容。由于分类的细致性,并且在动态分类过程中对自动聚类的信息进行了有效性确认,所以建立关联关系的网页信息都具有更高的相似度,并对应相同的用户兴趣点。

网页属性分析单元负责根据用户购买关键词的类别,展示相应的广告或信息排名。如果用户了解分类的属性,就可以按照类别进行关键词投放,避免购买更多的关键词。例如,对某个关键词的竞价排名或广告投放,购买用户在购买关键词时可以针对关键词所属的其中一个类别,如果搜索用户的查询企图是所述类别,则优先将某个网址排名靠前,或者将投放的广告优先展示。

上述位于查询层506的各个功能模块,通过应用层的调用来满足用户的不同需求,实现了动态分类树的多种应用支持。总之,一个好的存储方式可以解决应用中的多种难题,但是本发明实施例中提供的存储方式并不是一个取代关键字索引存储的方式,该存储方式是一个辅助存储方式,也就是一个信息可以通过动态分类查找,也可以通过关键字查找。而且,由于分类加上了人工的语义标注,使得分类更加具有活力、更加准确、更符合人的兴趣点。

以上对本发明所提供的一种网页信息分类方法、系统及应用该分类的服务系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号