首页> 中国专利> 用户生成内容标签数据生成方法、装置及相关方法和装置

用户生成内容标签数据生成方法、装置及相关方法和装置

摘要

本申请公开了一种用户生成内容(UGC)的标签数据的生成方法、装置及相关方法和装置,包括:获取UGC数据;对所述UGC数据进行分词,计算各词的词频,选择词频排在前指定位的词组成词表;计算所述词表中的词的两两之间的词距离,对该词表中的词进行聚类,得到N个词集合;对所述各词集合中的每个词进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之间的词距离,对该扩展后词表中的词进行聚类,得到B个词集合;判断B–N是否小于指定值,如果是则跳到下一步,否则重复本步骤;从所述B个词集合中识别指定类型的词,根据所识别出的词生成UGC的标签数据。利用本发明,可以提高用户获取有效目标信息的获取效率,降低获取成本。

著录项

  • 公开/公告号CN104978332A

    专利类型发明专利

  • 公开/公告日2015-10-14

    原文格式PDF

  • 申请/专利权人 腾讯科技(深圳)有限公司;

    申请/专利号CN201410135781.5

  • 发明设计人 王佳强;

    申请日2014-04-04

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构11018 北京德琦知识产权代理有限公司;

  • 代理人张晓峰;宋志强

  • 地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室

  • 入库时间 2023-12-18 11:28:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-14

    授权

    授权

  • 2016-11-09

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140404

    实质审查的生效

  • 2015-10-14

    公开

    公开

说明书

技术领域

本申请涉及计算机和互联网数据处理技术领域,尤其涉及一种用户生成 内容(UGC,User Generated Content)标签数据生成方法、装置及相关方法 和装置。

背景技术

目前,随着互联网技术的发展,网络逐渐成为人们获取信息的重要来源, 特别是在互联网进入Web2.0时代后,用户既是网站内容的浏览者,也是网 站内容的制造者。用户参与创造的内容被称为UGC,如用户发表的日志、照 片等。在Web2.0时代,由于UGC的大量涌现,网络信息量呈几何级快速增 长,形成一个多、广、专的局面,对人类知识的积累和传播起到了一个非常 大的作用。

可以发表UGC的网站系统通常被称为UGC网站系统。例如目前常用的 UGC网站系统包括:微博客(MicroBlog)系统、社交网络服务系统(SNS, Social Network Service))、社区论坛系统、知识分享系统等等。其中某些 UGC网站系统的功能也是相互融合的,具有多种属性。

例如,微博客(MicroBlog),简称微博,是一个基于用户关系的信息分 享、传播以及获取的UGC网站系统,也属于一种SNS系统,用户可以通过 有线通信网络或无线通信网络、以及各种客户端访问微博,以指定数目的文 字和/或其它多媒体信息更新信息,并实现即时分享。

但是,随着UGC网站系统用户数量的不断增大,每个用户所发布的UGC 数量也在持续增加,使得互联网上形成了巨量的UGC信息。这就导致了严 重的信息碎片化。所述信息碎片化,是指人们通过网络传媒了解阅读非常多 的信息,但却没有深刻的理解和记忆,也没有直接获取到UGC中的关键信 息,从而使得大量的UGC信息成为用户的过眼云烟,严重干扰了用户对有 效目标信息的获取效率。

例如,如果用户希望了解某个最新电影的评价信息,则不但需要到相关 的电影网站上查看该电影的剧情、海报、综合评分、票房,还需要去BBS、 微博等UGC平台去查看广大用户的评论信息。但是面对如此海量的信息, 用户需要通过较多次的人机交互进行网页的打开、关闭、切换等操作来寻找 有效的目标信息,用户获知有效的目标信息的过程比较耗时费力,无法直达 目标点,获取效率低,获取成本较高。同时由于在此过程中需要较多的人机 交互,而每一次人机交互操作都会占用相应的机器资源和网络带宽资源,耗 费了大量的机器资源和网络带宽资源。

发明内容

有鉴于此,本发明的主要目的是提供一种UGC标签数据生成方法、装置及 相关方法和装置,以提高用户获取有效目标信息的获取效率,降低获取成本。

本发明的技术方案是这样实现的:

一种用户生成内容UGC的标签数据的生成方法,包括:

获取UGC数据;

对所述UGC数据进行分词,计算各词的词频,选择词频排在前指定位的词 组成词表;

计算所述词表中的词的两两之间的词距离,按照所述两两之间的词距离对 该词表中的词进行聚类,得到N个词集合;

进行扩展语料处理,包括:对所述各词集合中的每个词进行扩展,得到扩 展后词表,计算拓展后词表中的词的两两之间的词距离,按照所述两两之间的 词距离对该扩展后词表中的词进行聚类,得到B个词集合;判断B–N是否小 于指定值,如果是则跳到下一步,否则对所述B个词集合重复执行扩展语料处 理;

从所述B个词集合中识别指定类型的词,根据所识别出的词生成UGC的标 签数据。

一种UGC的聚类方法,包括:

针对二条以上的目标UGC,采用上述的UGC标签数据的生成方法,生成 各目标UGC的标签数据;

按照各目标UGC的标签数据,对目标UGC进行聚类。

一种搜索索引建立方法,包括:

针对二条以上的目标UGC,采用上述的UGC标签数据的生成方法,生成 各目标UGC的标签数据;

对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引。

一种UGC搜索方法,包括:

针对二条以上的目标UGC,采用上述的UGC标签数据的生成方法,生成 各目标UGC的标签数据;

对所生成的标签数据建立索引,将该索引作为搜索引擎的搜索索引;

搜索引擎接收搜索词后,根据所述搜索索引检索出匹配的标签数据,输出 该匹配的标签数据对应的UGC内容。

一种用户生成内容UGC的标签数据的生成系统,包括:

数据获取模块,用于获取UGC数据;

初步筛选模块,用于对所述UGC数据进行分词,计算各词的词频,选择词 频排在前指定位的词组成词表;

初步语料模块,用于计算所述词表中的词的两两之间的词距离,按照所述 两两之间的词距离对该词表中的词进行聚类,得到N个词集合;

扩展语料模块,用于进行扩展语料处理,包括对所述各词集合中的每个词 进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之间的词距离,按 照所述两两之间的词距离对该扩展后词表中的词进行聚类,得到B个词集合; 判断B–N是否小于指定值,如果是则跳到下一步,否则针对所述B个词集 合,重复扩展语料处理;

标签确定模块,用于从所述B个词集合中识别指定类型的词,根据所识别 出的词生成UGC的标签数据。

一种UGC的聚类系统,包括:

上述的UGC标签数据的生成系统,用于针对二条以上的目标UGC,生成 各目标UGC的标签数据;

聚类模块,用于按照各目标UGC的标签数据,对目标UGC进行聚类。

一种搜索索引建立系统,包括:

上述的UGC标签数据的生成系统,用于针对二条以上的目标UGC,生成 各目标UGC的标签数据;

索引建立模块,用于对所生成的标签数据建立索引,将该索引作为搜索引 擎的搜索索引。

一种UGC搜索系统,包括:

上述的UGC标签数据的生成系统,用于针对二条以上的目标UGC,生成 各目标UGC的标签数据;

索引建立模块,用于对所生成的标签数据建立索引,将该索引作为搜索引 擎的搜索索引;

搜索模块,用于接收搜索词,根据所述搜索索引检索出匹配的标签数据, 输出该匹配的标签数据对应的UGC内容。

与现有技术相比,本发明先按照分词的词频从UGC数据中提取词表,从而 对词进行初步筛选,然后对词表中的词进行聚类得到初步的词集合,再进行扩 展得到扩展后的词集合,最后从扩展后的词集合中识别指定类型的词,根据所 识别出的词生成UGC的标签数据。由于该UGC标签数据是经过词频和聚类处 理的,每个UGC标签数据可以有效地反应对应UGC的关键内容,因此用户在 获取目标信息时,不必再像现有技术那样在海量的UGC信息中寻找有效的目标 信息,而是可以根据所述UGC标签数据作为参考,直接锁定感兴趣的标签数据 所对应的UGC,因此本发明可以提高用户获取有效目标信息的获取效率,降低 获取成本。同时,可以减少在此过程中需要的人机交互次数,因此可以节省大 量的机器资源和网络带宽资源。

附图说明

图1为本发明所述UGC标签数据的生成方法的一种流程图;

图2为一种UGC聚类展示的界面示意图;

图3所示为该UGC标签数据的生成系统的一种组成示意图;

图4为该UGC聚类系统的一种组成示意图;

图5为本发明所述UGC聚类系统的又一种组成示意图;

图6为本发明所述搜索索引建立系统的一种组成示意图;

图7为本发明所述UGC搜索系统的一种组成示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

本发明的处理对象为UGC数据,所述UGC可以是任何用户生成内容, 例如微博、BBS评论、博客、社交网站的影评等等。本发明可以对大量的 UGC数据进行分析,得到每条UGC内容的标签数据,该标签数据可以用来 区分UGC的关键内容,也可以用来建立索引,以及用于进行UGC搜索。互 联网上的UGC条数众多,那么若待处理的UGC为二条以上,则针对每条 UGC,分别执行本发明的UGC标签数据的生成方法。

图1为本发明所述UGC标签数据的生成方法的一种流程图。参见图1, 该方法包括:

步骤101、获取UGC数据。

例如对于影评网站的影评和微博网站的微博等UGC,可以通过影评网站 的数据获取接口以及微博网站的数据获取接口获取(业界也称为抓取)影评 数据和微博数据。

在获取UGC数据的过程中,还可以根据目标UGC的特点,对所获取的 UGC进行过滤,即根据预先设置的UGC特点对所获取的UGC数据进行过 滤,只保留符合所述UGC特点的UGC数据。例如在一种实施场景中,希望 从微博中获取影评内容,则需要预先设定影评内容的数据特点,从微博网站 获取微博数据后,需要根据预先设定的数据特点对微博进行过滤,只保留含 有影评的微博数据。

在获取UGC数据之后,可以针对每条UGC,分别执行后续步骤102至 105,即生成每条UGC的标签数据。当然,也可以针对某类UGC的集合, 执行后续步骤102至105,得到这类UGC集合的标签数据。

步骤102、对所述UGC数据进行分词,计算各词的词频,选择词频排在 前指定位的词组成词表。

本步骤中,首先对所述UGC数据的全量数据进行分词,然后应用词频- 逆向文件频率(TF-IDF,erm frequency–inverse document frequency)方法计 算各词的词频,选择词频排在前N位的词组成词表。

所述TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。用以评 估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词 的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库 中出现的频率成反比下降。其中词频(TF,term frequency)指的是某一个 给定的词语在该文件中出现的次数,这个数字通常会被归一化,以防止它偏 向长的文件。逆向文件频率(IDF,inverse document frequency)是一个词 语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该 词语之文件的数目,再将得到的商取对数得到。

对于经过过滤的UGC数据,需要说明的是,这里IDF的计算不能使用 过滤后的UGC数据,而要使用其它不相干的数据集(如包括被过滤掉的UGC 的全量UGC数据)进行IDF计算。例如如果对微博中的影评生成标签数据, 则本步骤中IDF的计算不能使用影评数据,而要使用其它不相干的数据集(如 全量微博数据)做计算。

步骤103、计算所述词表中的词的两两之间的词距离,按照所述两两之 间的词距离对该词表中的词进行聚类,得到N个词集合。

本步骤的聚类效果对本发明的整体效果有着直接的影响。

例如对于影评的词聚类,需要考虑UGC在表达的意义上的相近,比如剧 情、情节、剧本等。关于语义上的相近,如何确定两个词,尤其是两个中文 词,之间的距离,对发明的进一步效果具有很直接的影响。

因此,在一种优选的实施例中,对于中文UGC,本发明采用中英文的对 应关系来确定两个中文词之间的词距离,经过实验验证,该实施例达到的聚 类效果是较好的。具体计算某两个中文词A和B之间的词距离的方法如下:

针对两两词A和B,

首先,确定A,B经过翻译得到的外文词的词距离distance1(A,B)。所述 的外文词为相对于A、B本身语言而言,例如A、B为中文,则一种典型的外文 词为英文。此处可以是确定A,B经过翻译得到的英文词的词距离distance1 (A,B)。

具体的,可以利用如下公式(1)确定A,B两个词(如中文词)经过翻译 成外文词(如英文词)得到的词距离distance1(A,B),

公式(1):

distance1(A,B)=

English(A)∩English(B)/min(Num(English(A)),Num(English(B)))

其中,English(A)代表A被翻译成外文的外文词汇集合,Num(English(A)) 表示集合English(A)中的元素个数;English(B)代表B被翻译成外文的外文词汇 集合,Num(English(B))表示集合English(B)中的元素个数;

其次,采用单词连续袋(continuous bag of words)模型计算得到词A与词B 之间的词距离矩阵distance2(A,B);

此处可以直接利用现有的工具word2vec(word to vector)来计算 distance2(A,B),所述word2vec是一个将单词转换成向量形式的工具。可以 把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相 似度,来表示文本语义上的相似度。word2vec为计算向量词提供了一种有效 的连续词袋(bag-of-words)和skip-gram架构实现,可以得到distance2(A,B)。

最后,对所述distance1(A,B)和distance2(A,B)进行归一处理,得到该A 和B之间的词距离distance(A,B)。

所述对所述distance1(A,B)和distance2(A,B)进行归一处理,得到该A和 B之间的词距离distance(A,B),可以有多种归一处理方式。例如一种典型的归一 处理方式具体包括:

利用如下公式(2)计算该A和B之间的词距离distance(A,B);

distance(A,B)=α*distance1(A,B)+β*distance2(A,B)

其中,α和β为权重系数,α+β=1。

当然,也可以利用其它的归一处理方式,例如先求distance1(A,B) +distance2(A,B),再对得到的和值进行归一化处理,得到A和B之间的词距 离distance(A,B)。

经过上述计算,可以得到所述词表中的所有词的两两之间的词距离,之 后按照所述两两之间的词距离对该词表中的词进行聚类,得到N个词集合。

在一种优选实施例中,此处可以采用K-medoids聚类方法,按照所述两 两之间的词距离,对所述词表中的词进行聚类,并通过调整聚类参数使其达 到最优效果。

通过以上操作后,就得到了N个词集合,这N个词集合相当于一个初步 的语料库。

在一种优选实施例中,所述在聚类后得到N个词集合之后,进一步包括: 过滤掉该N个词集合中的单元素词集合,即只有一个词的集合,得到N’个 词集合,后续步骤中将N替换为N’。

步骤104、本步骤104是进行扩展语料处理,具体包括:对所述各词集 合中的每个词进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之 间的词距离,按照所述两两之间的词距离对该扩展后词表中的词进行聚类, 得到B个词集合;判断B–N是否小于指定值,如果是则跳到下一步,否 则对所述B个词集合重复执行本扩展语料处理,即针对所述B个词集合重复 执行本步骤104,直到B–N小于指定值,跳到下一步。

在一种优选实施例中,本步骤中所述对所述各词集合中的每个词进行扩 展,具体方法包括:假设所述各词集合中的词的原始语言类型为X,例如为 中文,目标语言类型为Y,例如为英语,则对所述各词集合中的每个词进行 从X到Y的翻译操作,得到一组词,再对该组词中的每一个词进行反向翻译 操作,即从Y到X的翻译操作,得到的词组成扩展后的词表。

例如,针对其中的某个中文词A,首先可以翻译成英文的EA1,EA2… EAn,而这些英文词又可以翻译成中文的EA11,EA12… EA1n,EA21,EA22,…,EA2n,EAn1,…,EAnn,所以最终A就可以扩展为 A,EA11,EA12…EA1n,EA21,EA22,…,EA2n,EAn1,…,EAnn这个集合。当所述 词集合中所有的词都进行这种翻译以及反向翻译处理后,得到了一个词语数 量更多,表达方式更加丰富的词表,这种经过扩展后的词表相当于是扩展后 的语料库。

本步骤中,在得到扩展后词表后,再次计算拓展后词表中的词的两两之 间的词距离,按照所述两两之间的词距离对该扩展后词表中的词进行聚类, 得到B个词集合。此处计算两两词之间的词距离的方法以及对词进行聚类的 方法可以参考步骤103所述的方法,此处不再赘述。

在一种优选实施例中,所述在聚类后得到B个词集合之后,还可以进一 步包括:过滤掉该B个词集合中的单元素词集合,得到B’个词集合,后续 步骤中将B替换为B’。

本步骤中,最后要判断B–N是否小于指定值,就是为了判断扩展后 的词集合的个数和扩展前词集合的个数的变化量是否趋于变小,如果变化量 变小到低于指定值则会判定扩展处理相对收敛,则终止本步骤的重复处理。 所述判断B–N是否小于指定值,也可以替换为判断(B–N)/N是否小于 某个指定值,如果小于则跳到下一步,否则重复本步骤104。

步骤105、从所述B个词集合中识别指定类型的词,根据所识别出的词 生成UGC的标签数据。

所述指定类型一般分为属性词和情感词。在上一步骤输出的B个词集合 中,每个词集合就是一个聚类,比如“音乐”“音效”等就应该是同一类; “剧情”、“情节”等是又一类,这些词的类型属于属性词;同样所述B个 词集合中也可以包含一些情感词,比如“不错”“经常”等,这些词的类型 属于情感词,情感词也包含肯定和否定意义。

本步骤中,具体可以为:从B个词集合中识别出属性词集合,例如此处 识别出了k个属性词集合,具体的识别方法可以根据现有的属性词语义分析 方法进行识别。然后再生成所述属性词集合对应的情感词集合,一般来讲情 感词集合包括肯定和否定的意思,此处针对每个属性词集合都同时生成其肯 定的情感词集合和否定的情感词集合;例如:对应的肯定的情感词集合包括 “不错”、“很好”、“非常棒”等,对应的否定的情感词集合包括“不怎 样”、“太差”、“不好”等。最后在当前处理的UGC内容中(即本方法 的处理对象,也即步骤102中的分词对象),查询所述属性词集合中的每个 词与对应生成的情感词集合中的每个词两两结合在当前处理的UGC内容中 共同出现的比率,得到出现比率在前指定位的属性词和对应的情感词,根据 所得到的属性词和对应的情感词生成本条UGC的标签数据,例如可以直接 将得到的属性词加对应的情感词作为当前处理的UGC的标签数据,例如标 签数据为“剧情不错”、“情节很好”等。也可以所得到的属性词和对应的 情感词作为下位词语,用更加上位的词语作为本UGC的标签数据,如“*** 演的不错”、“演员阵容强大”等,可以用“表演精彩”作为对应上位的标 签。

在进一步的实施例中,如果当前处理的UGC的内容较多,是由多句文 字组成,那么在该实施例中可以在获取UGC数据后,按照该UGC中的分隔 标记(如标点符号和空格等)将所述UGC切分为一个以上的子句,针对每 个子句分别执行本方法的后续步骤(即执行上述步骤102至105)。另外, 由于子句中还可以是表示情感的句式,如否定句疑问句,那么本发明还可以 进一步包括,按照语义分析方法确定子句的情感句式,根据其情感句式和上 述步骤105得到的属性词和情感词综合给该子句生成对应的UGC标签数据。

与现有技术相比,本发明先按照分词的词频从UGC数据中提取词表, 从而对词进行初步筛选,然后对词表中的词进行聚类得到初步的词集合,再 进行扩展得到扩展后的词集合,最后从扩展后的词集合中识别指定类型的词, 根据所识别出的词生成UGC的标签数据。由于该UGC标签数据是经过词频 和聚类处理的,每个UGC标签数据可以有效地反应对应UGC的关键内容, 因此用户在获取目标信息时,不必再像现有技术那样在海量的UGC信息中 寻找有效的目标信息,而是可以根据所述UGC标签数据作为参考,直接锁 定感兴趣的标签数据所对应的UGC,因此本发明可以提高用户获取有效目标 信息的获取效率,降低获取成本。同时,可以减少在此过程中需要的人机交 互次数,因此可以节省大量的机器资源和网络带宽资源。

在本发明上述UGC的标签数据的生成方法的基础上,本发明还公开了 一种UGC的聚类方法,包括:

针对二条以上的目标UGC,所述目标UGC可以是微博网站中的全量微 博,评论网站中的全量评论等,采用如上述UGC标签数据的生成方法的任 一种实施例,生成各目标UGC的标签数据;然后按照各目标UGC的标签数 据,对目标UGC进行聚类。例如“表演精彩”的归为一类、“剧情幽默” 的归为一类,等等。

在所述聚类方法的进一步实施例中,还可以进一步包括:展示各类UGC 的标签数据;在接收到对某类UGC的标签数据的触发指令后,显示该类UGC 中指定数量的UGC内容。

如图2为一种UGC聚类展示的界面示意图。参见图2,虚线框201部分 展示了各类UGC的标签数据,如“表演精彩”、“情节幽默”等都是具体 的标签。如果用户点击了其中某个标签,则会接收到对该UGC标签的触发 指令,那么会在下面的界面中显示该类UGC中指定数量的UGC内容。如用 户点击了“表演精彩”的标签,则在下面的界面中会自动显示出该标签所聚 类的UGC内容,其中包括多条UGC内容,每条UGC内容中都包括具体的 体现“表演精彩”这一标签的文字内容,如图中具有虚线下划线的文字内容。

通过本发明的所述UGC的聚类方法,用户可以直接查看目标UGC的标 签,并且还可以进一步统计每种标签对应的本类UGC的数量,将数量显示 在该标签的旁边,如图2所示各标签的右边括号中的数字。用户可以根据这 些信息直接判断某个具体的信息目标的有效信息是什么,例如对于《不二神 探》这一电影评论来讲,通过所述标签及其对应的数量,来查看大众对该电 影的有效评价,因此可以进一步提高用户获取有效目标信息的获取效率,降 低获取成本。同时,可以减少在此过程中需要的人机交互次数,因此可以节 省大量的机器资源和网络带宽资源。

在本发明上述UGC的标签数据的生成方法的基础上,本发明还公开了 一种搜索索引建立方法,包括:

针对二条以上的目标UGC,所述目标UGC可以是微博网站中的全量微 博,评论网站中的全量评论等,采用如上述UGC标签数据的生成方法的任 一种实施例,生成各目标UGC的标签数据;对所生成的标签数据建立索引, 将该索引作为搜索引擎的搜索索引。

进一步的,本发明还公开了一种UGC搜索方法,包括:

针对二条以上的目标UGC,所述目标UGC可以是微博网站中的全量微 博,评论网站中的全量评论等,采用如上述UGC标签数据的生成方法的任 一种实施例,生成各目标UGC的标签数据;对所生成的标签数据建立索引, 将该索引作为搜索引擎的搜索索引;搜索引擎接收搜索词后,根据所述搜索 索引检索出匹配的标签数据,输出该匹配的标签数据对应的UGC内容。

通过上述搜索索引建立方法和搜索方法,不必建立UGC网站系统中全 量信息的索引,只需要建立其标签数据的索引,用户输入搜索词之后,在所 述标签数据的索引中进行搜索,可以大大提高搜索速度,同时节省了索引数 据的空间。

与上述方法对应,本发明还公开了一种用户生成内容UGC的标签数据 的生成系统。图3所示为该UGC标签数据的生成系统的一种组成示意图。 参见图3,该生成系统300包括:

数据获取模块301,用于获取UGC数据;

初步筛选模块302,用于对所述UGC数据进行分词,计算各词的词频, 选择词频排在前指定位的词组成词表;

初步语料模块303,用于计算所述词表中的词的两两之间的词距离,按 照所述两两之间的词距离对该词表中的词进行聚类,得到N个词集合;

扩展语料模块304,用于进行扩展语料处理,包括对所述各词集合中的 每个词进行扩展,得到扩展后词表,计算拓展后词表中的词的两两之间的词 距离,按照所述两两之间的词距离对该扩展后词表中的词进行聚类,得到B 个词集合;判断B–N是否小于指定值,如果是则跳到下一步,否则针对 所述B个词集合,重复本扩展语料处理;

标签确定模块305,用于从所述B个词集合中识别指定类型的词,根据 所识别出的词生成UGC的标签数据。

在一种优选实施例中,所述初步语料模块303进一步用于:在聚类后得 到N个词集合之后,进一步过滤掉该N个词集合中的单元素词集合,得到N’ 个词集合,将N替换为N’;所述扩展语料模块304进一步用于:在聚类后 得到B个词集合之后,进一步过滤掉该B个词集合中的单元素词集合,得到 B’个词集合,将B替换为B’。

所述初步语料模块303和扩展语料模块304计算所述词表中的词的两两 之间的词距离,具体方式为:

针对两两词A和B,

首先,确定A,B经过翻译得到的外文词的词距离distance1(A,B)。所述 的外文词为相对于A、B本身语言而言,例如A、B为中文,则一种典型的外文 词为英文。此处可以是确定A,B经过翻译得到的英文词的词距离distance1 (A,B)。

具体的,可以利用如下公式(1)确定A,B两个词(如中文词)经过翻译 成外文词(如英文词)得到的词距离distance1(A,B),

公式(1):

distance1(A,B)=

English(A)∩English(B)/min(Num(English(A)),Num(English(B)))

其中,English(A)代表A被翻译成外文的外文词汇集合,Num(English(A)) 表示集合English(A)中的元素个数;English(B)代表B被翻译成外文的外文词汇 集合,Num(English(B))表示集合English(B)中的元素个数;

其次,采用单词连续袋(continuous bag of words)模型计算得到词A与词B 之间的词距离矩阵distance2(A,B);

最后,对所述distance1(A,B)和distance2(A,B)进行归一处理,得到该A 和B之间的词距离distance(A,B)。

所述对所述distance1(A,B)和distance2(A,B)进行归一处理,得到该A和 B之间的词距离distance(A,B),可以有多种归一处理方式。例如一种典型的归一 处理方式具体包括:

利用如下公式(2)计算该A和B之间的词距离distance(A,B);

distance(A,B)=α*distance1(A,B)+β*distance2(A,B)

其中,α和β为权重系数,α+β=1。

当然,也可以利用其它的归一处理方式,例如先求distance1(A,B) +distance2(A,B),再对得到的和值进行归一化处理,得到A和B之间的词距 离distance(A,B)。

在一种优选实施例中,所述扩展语料模块304具体用于:对所述各词集 合中的每个词进行从原始语言类型X到目标语言类型Y(例如从中文到英文) 的翻译操作,得到一组词,再对该组词中的每一个词进行反向翻译操作(例 如从英文到中文),得到的词组成扩展后的词表。

在一种优选实施例中,所述标签确定模块305具体用于:从所述B个词 集合中识别出属性词集合,生成所述属性词集合对应的情感词集合,查询所 述属性词集合中的每个词与对应生成的情感词集合中的每个词两两结合在当 前处理的UGC内容中共同出现的比率,得到出现比率在前指定位的属性词 和对应的情感词,按照所得到的属性词和对应的情感词生成当前处理的UGC 的标签数据。

本发明还公开了一种UGC的聚类系统,如图4为该UGC聚类系统的一 种组成示意图,该聚类系统400包括:

如上述UGC标签数据的生成系统的任一种实施例300,用于针对二条以 上的目标UGC,生成各目标UGC的标签数据;

聚类模块401,用于按照各目标UGC的标签数据,对目标UGC进行聚 类。

在该聚类系统的一种优选实施例中,如图5所示,该聚类系统进一步包 括:

标签展示模块402,用于展示各类UGC的标签数据;

UGC内容展示模块403,用于在接收到对某类UGC的标签数据的触发 指令后,显示该类UGC中指定数量的UGC内容。

本发明还公开了一种搜索索引建立系统,如图6所示,该搜索索引建立 系统600包括:

如上述UGC标签数据的生成系统的任一种实施例300,用于针对二条以 上的目标UGC,生成各目标UGC的标签数据;

索引建立模块601,用于对所生成的标签数据建立索引,将该索引作为 搜索引擎的搜索索引。

本发明还公开了一种UGC搜索系统,如图7所示,该UGC搜索系统700 包括:

如上述UGC标签数据的生成系统的任一种实施例300,用于针对二条以 上的目标UGC,生成各目标UGC的标签数据;

索引建立模块601,用于对所生成的标签数据建立索引,将该索引作为 搜索引擎的搜索索引;

搜索模块602,用于接收搜索词,根据所述搜索索引检索出匹配的标签 数据,输出该匹配的标签数据对应的UGC内容。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中, 也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单 元的形式实现。所述各实施例的功能模块可以位于一个终端或网络节点,或 者也可以分布到多个终端或网络节点上。

另外,本发明的每一个实施例可以通过由数据处理设备如计算机执行的 数据处理程序来实现。显然,数据处理程序构成了本发明。此外,通常存储 在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过 将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。 因此,这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录 方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存 等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此本发明还公开了一种存储介质,其中存储有数据处理程序,该数据 处理程序用于执行本发明上述方法的任何一种实施例。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号