首页> 中国专利> 网络社区中相关讨论区的选取方法及选取装置

网络社区中相关讨论区的选取方法及选取装置

摘要

本发明涉及一种网络社区中相关讨论区的选取方法,该方法包括:收集所有登录讨论区的计算机的日志,将所有日志合并为总日志;从总日志中提取信息,生成事务集合;通过频繁项集挖掘算法从事务集合中选取讨论区频繁项集;从讨论区频繁项集中提取每一讨论区的相关讨论区,生成相关讨论区列表;结束。本发明利用数据挖掘的方法找出该讨论区的相关讨论区,相关讨论区标示了该讨论区用户的行为,从而方便用户进行下一步的访问,降低了查找成本。本发明还公开了一种网络社区中相关讨论区的选取装置。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2009-04-08

    授权

    授权

  • 2007-05-23

    实质审查的生效

    实质审查的生效

  • 2007-03-28

    公开

    公开

说明书

技术领域

本发明涉及一种网络社区中讨论区的选取方法和选取装置,尤其是一种相关讨论区的选取方法和选取装置,属于计算机领域。

背景技术

随着网络的快速发展,越来越多的人选择通过互联网来搜索信息或者寻找合适的、有相近兴趣或相近需求的人进行沟通。

传统的社区或BBS系统是基于人工建立内容讨论区系统和目录索引式的,即需要系统的管理者寿现在系统中编辑好一定数量和内容的目录,然后需要手动开设版面或讨论区,并建立版面或讨论区与目录之间的关联。用户在浏览交流时,首先需要判断该话题可能出现在什么目录下的什么版面或讨论区,然后通过点击目录超链和版面名、讨论区名超链到达希望的版面或讨论区。但有些讨论区的用户还会经常去其它一些相同的讨论区,例如去“AC米兰”讨论区的用户还经常去“国际米兰”、“欧美体育明星”等讨论区,在传统的社区或BBS系统中用户若要进入这些讨论区时就需要重新查找这些讨论区,从而增加了用户的查找成本。

相关讨论区是指去登录某讨论区的人还经常去的一些其他的讨论区,即为该讨论区的相关讨论区。

友情讨论区是由各讨论区用户管理组经过汇总用户申请并筛选后,设置的与本讨论区主题相关、内容相似的其他讨论区的超链列表。用户可以很容易的通过点击超链切换到这些讨论区。

在一些讨论区系统中,在某一讨论区的Web网页上还会展示出登录该讨论区的人还登录的其他讨论区的链接,例如:在A讨论区的Web网页上还会展示出登录A讨论区的人还登录了B讨论区、C讨论区等,这在一定程度上标示了登录A讨论区的人的下一步的行为,方便了用户的整个讨论区浏览行动。

上述技术方案的缺陷在于该讨论区系统只是简单的罗列出了登录某讨论区的人还登录的其他讨论区的讨论区名,这没有体现登录该讨论区的行为与登录其他讨论区的行为的关联强度,例如:100个登录A讨论区的人中有99个人还登录了B讨论区,但这100个登录A讨论区的人中只有1个人还登录了C讨论区,这说明登录A讨论区的行为和登录B讨论区的行为的关联性很强,登录A讨论区的行为和登录C讨论区的行为的关联性很弱,但该讨论区系统把B讨论区和C讨论区都罗列出来,C讨论区的存在不仅不能揭示登录A讨论区的人的下一步的行为,反而可能对用户的浏览行为产生误导。

发明内容

本发明的目的在于针对现有技术所存在的缺陷,提供一种网络社区中相关讨论区的选取方法和装置,方便用户进行下一步的访问,降低了查找成本。

为了实现上述目的,本发明提供了一种网络社区中相关讨论区的选取方法,该方法包括以下步骤:

步骤1、收集所有登录讨论区的计算机的日志,将所有日志合并为总日志;

步骤2、从所述总日志中按照预先设定的格式提取信息,生成事务集合;

步骤3、通过频繁项集挖掘算法从所述事务集合中选取讨论区频繁项集;

步骤4、从所述讨论区频繁项集中提取每一讨论区的相关讨论区,生成相关讨论区列表。

上述技术方案中,讨论区频繁项集是所有的支持频度大于最小阈值的讨论区集的集合。其中,最小阈值是预先设置好的参数;支持频度为讨论区集出现的次数与讨论区集总数的商;讨论区集为则是用户一天的访问的讨论区序列。

本发明还提供了一种相关讨论区的选取装置,包括:

日志收集模块,用于收集所有登录讨论区的计算机的日志,将所有日志合并为一总日志;

日志提取模块,与所述日志收集模块连接,用于从所述总日志中按照预先设定的格式提取信息,生成事务集合;

频繁项集生成模块,与所述日志提取模块连接,用于通过频繁项集挖掘算法从所述事务集合中选取讨论区频繁项集;

讨论区列表生成模块,与所述频繁项集生成模块连接,用于从所述讨论区频繁项集中选出每一讨论区的相关讨论区集。

针对任一特定的讨论区,本技术方案利用数据挖掘的方法找出该讨论区的相关讨论区,相关讨论区标示了该讨论区用户下一步可能进行的行为,从而方便用户进行下一步的访问,降低了查找成本。

下面通过附图和具体实施例,对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明网络社区中相关讨论区的选取方法的具体实施例1的流程图;

图2为本发明网络社区中相关讨论区的选取方法的具体实施例2的流程图;

图3为本发明网络社区中相关讨论区的选取方法的具体实施例3的流程图;

图4为本发明网络社区中相关讨论区的选取方法的具体实施例4的流程图;

图5为本发明网络社区中相关讨论区的选取方法的具体实施例5的流程图;

图6为本发明网络社区中相关讨论区的选取方法的具体实施例6的流程图;

图7为本发明网络社区中相关讨论区的选取方法的选取讨论区频繁项集的流程图;

图8为本发明网络社区中相关讨论区的选取装置的具体实施例1的结构图;

图9为本发明网络社区中相关讨论区的选取装置的具体实施例2的结构图;

图10为本发明网络社区中相关讨论区的选取装置的具体实施例3的结构图;

图11为本发明网络社区中相关讨论区的选取装置的具体实施例4的结构图;

图12为本发明网络社区中相关讨论区的选取装置的具体实施例5的结构图;

图13为本发明网络社区中相关讨论区的选取装置的具体实施例6的结构图。

具体实施方式

相关讨论区的选取可以通过以下步骤来实现:

步骤1、收集所有登录讨论区的计算机的日志,将所有日志合并为总日志;

步骤2、从所述总日志中按照预先设定的格式提取信息,生成事务集合;

步骤3、通过频繁项集挖掘算法从所述事务集合中选取讨论区频繁项集;

步骤4、从所述讨论区频繁项集中提取每一讨论区的相关讨论区,生成相关讨论区列表。

上述步骤2中由于总日志中包含了很多种类的信息,如用户的访问日期、用户的访问时间、用户名等等,所以应该根据用户日志的格式以及选取讨论区频繁项集需要的数据来从总日志中提取包含某些特定种类的信息。

上述步骤3中的频繁项集挖掘算法是为了选取讨论区频繁项集,使讨论区频繁项集中每个讨论区集中的任意两个讨论区的关联性都比较强,常用的频繁项集挖掘算法有Apriori算法、FP-Growth算法等。

如图1所示,为本发明相关讨论区的选取方法实施例1的流程图,包括以下步骤:

步骤101:收集所有登陆讨论区的计算机的日志,将所有日志合并为总日志;

步骤102:按照用户访问日期\t访问时间\t[用户输入的讨论区名]\t un=用户名\n的格式从所述总日志中提取信息,生成事务集合;步骤103:利用频繁项集挖掘算法中的Apriori算法从所述事务集合中选取讨论区频繁项集,具体步骤如下(如图7所示):

步骤31:k=1,计算C(k)中项集的支持频度,将支持频度高于最小阈值的项集放入L(k),其中C(k)为原始项集,L(k)为频繁k项集;

步骤32:判断L(k)是否为空,如是则结束;如否则执行步骤33;

步骤33:将L(k)中的项集进行连接和剪接得到C(k+1);

步骤34:计算C(k+1)中项集的支持频度;

步骤35:输出C(k+1)中支持频度高于最小阈值的项集到文件ref.K中;

步骤36:将C(k+1)中支持频度高于最小阈值的项集放入L(k+1)中,若L(k+1)为空,结束;否则执行步骤33;

最终结束后文件ref.K中包含的项集为频繁项集,频繁项集中讨论区集的格式为:讨论区A\讨论区B\讨论区C\...\支持频度;

步骤104:从所述讨论区频繁项集中提取每一讨论区的相关讨论区,生成相关讨论区列表。

图2为本发明相关讨论区的选取方法的具体实施例2的流程图,该实施例在实施例1的基础上将所述步骤104具体分为两步,如图2所示:

步骤1041:对每一讨论区顺序从包含该讨论区的讨论区集中提取除该讨论区以外的讨论区,生成该讨论区的相关讨论区集;

步骤1042:根据每一讨论区的相关讨论区集生成相关讨论区列表。

有时按照上述方案得到的相关讨论区可能有很多个,而网页能展示的相关讨论区的数量是有限的,因此需要对相关讨论区频繁项集按照支持频度进行排序,将排序靠前的相关讨论区展现给用户。

图3为本发明相关讨论区的选取方法的具体实施例3的流程图,该实施例在实施例2的基础上,在所述步骤1041之前还包括步骤1040:按照支持频度从高到低的顺序对所述讨论区频繁项集中的讨论区集排序;在所述步骤1042之后还包括步骤105:根据预先设置的相关讨论区数目,删除排列序号大于该相关讨论区数目的讨论区,余下的讨论区作为该讨论区的有效相关讨论区保留。

图4为本发明相关讨论区的选取方法的具体实施例4的流程图,该实施例在实施例2的基础上,在所述步骤1042之后还包括步骤105′:对每一讨论区的相关讨论区集中的讨论区按照支持频度从高到低的顺序排序;根据预先设置的相关讨论区数目,删除排列序号大于该相关讨论区数目的讨论区,余下的讨论区作为该讨论区的有效相关讨论区保留。

通过实施例3和实施例4所述的技术方案,对每一讨论区都可以得到与该讨论区关联度最高的那一部分讨论区,从而标示出登录该讨论区的用户最有可能去的其他一些讨论区,方便了该讨论区用户下一步的浏览。

有时存在有些相关讨论区与友情讨论区(什么是友情讨论区?可在背景技术中说明)相同的情况,因此需要去重,图5为本发明相关讨论区的选取方法的实施例5的流程图,该实施例在实施例4的基础上,在步骤105′之后还包括步骤106:去除每一讨论区的相关讨论区集中与该讨论区的友情讨论区相同的讨论区。需要说明的是:所述步骤106也可以放在实施例1中的步骤104或者实施例2中的步骤1042或者实施例3中的步骤105之后。

图6为本发明相关讨论区的选取方法具体实施例6的流程图,该实施例在实施例5的基础上,在步骤106之后还包括以下步骤107:根据用户输入的讨论区标识,查询相关讨论区列表,提取相关讨论区,将相关讨论区的链接显示在该讨论区的Web网页上。需要说明的是:所述步骤107也可以放在实施例1中的步骤104或者实施例2中的步骤1042或者实施例3中的步骤105或者实施例4中的步骤105′之后。

如图8所示,为本发明相关讨论区的选取装置的结构示意图,包括日志收集模块11、日志提取模块12、频繁项集生成模块13以及讨论区列表生成模块14。日志提取模块12与日志收集模块11和频繁项集生成模块13连接,讨论区列表生成模块14与频繁项集生成模块13连接。日志收集模块11用于收集所有登录讨论区的计算机的日志,将所有日志合并为一总日志;日志提取模块12,用于从所述总日志中按照预先设定的格式提取信息,生成事务集合;频繁项集生成模块13,用于通过频繁项集挖掘算法从所述事务集合中选取讨论区频繁项集;讨论区列表生成模块14,用于从所述讨论区频繁项集中提取每一讨论区的相关讨论区,生成相关讨论区列表。

上一实施例中的讨论区列表生成模块14可由两个子模块—相关讨论区集选取模块14B和相关讨论区列表生成模块14C组成,如图9所示。相关讨论区集选取模块14B分别与频繁项集生成模块13和相关讨论区列表生成模块14C连接。相关讨论区集选取模块14B用于对每一讨论区顺序从包含该讨论区的讨论区集中提取除该讨论区以外的讨论区,生成该讨论区的相关讨论区集;相关讨论区列表生成模块14C用于根据每一讨论区的相关讨论区集生成相关讨论区列表。

图10为本发明相关讨论区的选取装置的具体实施例3的结构示意图,该实施例在上一实施例的基础上加入了讨论区集排序模块14A和有效相关讨论区选取模块15。讨论区集排序模块14A分别与频繁项集生成模块13和相关讨论区集选取模块14B连接,有效相关讨论区选取模块15与相关讨论区列表生成模块14C连接。讨论区集排序模块14A用于按照支持频度从高到低的顺序对所述讨论区频繁项集中的讨论区集排序;有效相关讨论区选取模块15用于根据预先设置的相关讨论区数目,删除排列序号大于该相关讨论区数目的讨论区。

该实施例中日志收集模块11收集所有登录讨论区的计算机的日志,将所有日志合并为总日志,并将该总日志发送给日志提取模块12;日志提取模块12从所述总日志中按照预先设定的格式提取信息,生成事务集合,并将生成的事务集合发送给频繁项集生成模块13;频繁项集生成模块13通过频繁项集挖掘算法从所述事务集合中选取讨论区频繁项集,并将讨论区频繁项集发送给讨论区集排序模块14A;讨论区集排序模块14A按照支持频度从高到低的顺序对所述讨论区频繁项集中的讨论区集排序,将排序后的讨论区频繁项集发送给相关讨论区集选取模块14B;相关讨论区集选取模块14B对每一讨论区顺序从包含该讨论区的讨论区集中提取除该讨论区以外的讨论区,生成该讨论区的相关讨论区集,并将所有讨论区的相关讨论区集发送给相关讨论区列表生成模块14C;相关讨论区列表生成模块14C将每一讨论区的相关讨论区集放在一个集合里,从而生成相关讨论区列表,并将相关讨论区列表发送给有效相关讨论区选取模块15;有效相关讨论区选取模块15根据预先设置的相关讨论区数目,删除每一讨论区的相关讨论区集中排列序号大于该相关讨论区数目的讨论区。

图11为本发明相关讨论区的选取装置的具体实施例4的结构图,该实施例在本发明相关讨论区的选取装置的具体实施例2的基础上加入了相关讨论区排序模块14D和有效相关讨论区选取模块15。相关讨论区排序模块14D分别与相关讨论区列表生成模块14C和有效相关讨论区选取模块15连接。相关讨论区排序模块14D用于对每一讨论区的相关讨论区集中的讨论区按照支持频度从高到低的顺序排序。

该实施例中日志收集模块11收集所有登录讨论区的计算机的日志,将所有日志合并为总日志,并将该总日志发送给日志提取模块12;日志提取模块12从所述总日志中按照预先设定的格式提取信息,生成事务集合,并将生成的事务集合发送给频繁项集生成模块13;频繁项集生成模块13通过频繁项集挖掘算法从所述事务集合中选取讨论区频繁项集,并将讨论区频繁项集发送给相关讨论区集选取模块14B;相关讨论区集选取模块14B对每一讨论区顺序从包含该讨论区的讨论区集中提取除该讨论区以外的讨论区,生成该讨论区的相关讨论区集,并将所有讨论区的相关讨论区集发送给相关讨论区列表生成模块14C;相关讨论区列表生成模块14C将每一讨论区的相关讨论区集放在一个集合里,从而生成相关讨论区列表,并将相关讨论区列表发送给相关讨论区排序模块14D。相关讨论区排序模块14D对每一讨论区的相关讨论区集中的讨论区按照支持频度从高到低的顺序排序,并将排序后的相关讨论区列表发送至有效相关讨论区选取模块15;有效相关讨论区选取模块15根据预先设置的相关讨论区数目,删除每一讨论区的相关讨论区集中排列序号大于该相关讨论区数目的讨论区。

在有些相关讨论区与友情讨论区相同的情况下,需要删除与友情讨论区相同的讨论区。如图12所示,为为本发明相关讨论区的选取装置的具体实施例5的结构图,在本发明相关讨论区的选取装置的具体实施例4的基础上加入了讨论区去重模块16,讨论区去重模块16与有效相关讨论区选取模块15连接,用于去除每一讨论区的相关讨论区集中与该讨论区的友情讨论区相同的讨论区。所述讨论区去重模块16也可以放在本发明相关讨论区的选取装置的具体实施例1中与所述讨论区列表生成模块14连接;或者放在本发明相关讨论区的选取装置的具体实施例2中与所述相关讨论区列表生成模块14C连接;或者放在本发明相关讨论区的选取装置的具体实施例3中与所述有效相关讨论区选取模块15连接。

如图13所示,为为本发明相关讨论区的选取装置的具体实施例6的结构图,在本发明相关讨论区的选取装置的具体实施例5的基础上加入了相关讨论区显示模块17,相关讨论区显示模块17与讨论区去重模块16连接,用于根据用户输入的讨论区标识,查询相关讨论区列表,提取相关讨论区,将相关讨论区的链接显示在该讨论区的Web网页上。

该实施例中日志收集模块11收集所有登录讨论区的计算机的日志,将所有日志合并为总日志,并将该总日志发送给日志提取模块12;日志提取模块12从所述总日志中按照预先设定的格式提取信息,生成事务集合,并将生成的事务集合发送给频繁项集生成模块13;频繁项集生成模块13通过频繁项集挖掘算法从所述事务集合中选取讨论区频繁项集,并将讨论区频繁项集发送给相关讨论区集选取模块14B;相关讨论区集选取模块14B对每一讨论区顺序从包含该讨论区的讨论区集中提取除该讨论区以外的讨论区,生成该讨论区的相关讨论区集,并将所有讨论区的相关讨论区集发送给相关讨论区列表生成模块14C;相关讨论区列表生成模块14C将每一讨论区的相关讨论区集放在一个集合里,从而生成相关讨论区列表,并将相关讨论区列表发送给相关讨论区排序模块14D。相关讨论区排序模块14D对相关讨论区列表中每一讨论区的相关讨论区集中的讨论区按照支持频度从高到低的顺序排序,并将排序后的相关讨论区列表发送至有效相关讨论区选取模块15;有效相关讨论区选取模块15根据预先设置的相关讨论区数目,删除相关讨论区列表中每一讨论区的相关讨论区集中排列序号大于该相关讨论区数目的讨论区,并将处理后的相关讨论区列表发送给讨论区去重模块16;讨论区去重模块16去除相关讨论区列表中每一讨论区的相关讨论区集中与该讨论区的友情讨论区相同的讨论区,并将处理后的相关讨论区列表发送给相关讨论区显示模块17;相关讨论区显示模块17根据用户输入的讨论区标识,查询相关讨论区列表,提取相关讨论区,将相关讨论区的链接显示在该讨论区的Web网页上。

另外,所述相关讨论区显示模块17也可以放在本发明相关讨论区的选取装置的具体实施例1中与所述讨论区列表生成模块14连接;或者放在本发明相关讨论区的选取装置的具体实施例2中与所述相关讨论区列表生成模块14C连接;或者放在本发明相关讨论区的选取装置的具体实施例3中与所述有效相关讨论区选取模块15连接;或者放在本发明相关讨论区的选取装置的具体实施例4中与所述所述有效相关讨论区选取模块15连接。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解,依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号