首页> 中国专利> 跨领域观点数据的分类方法和装置

跨领域观点数据的分类方法和装置

摘要

本发明公开了一种跨领域观点数据的分类方法和装置,属于互联网技术领域。方法包括:根据源领域和目标领域的共享话题获取共享话题矩阵,并根据源领域的领域特定话题和目标领域的特定话题分别获取源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵;确定源领域的目标函数,并确定目标领域的目标函数;根据源领域的目标函数和目标领域的目标函数确定总目标函数;确定总目标函数中各个参数的收敛值,根据总目标函数中各个参数的收敛值获取分类函数;根据分类函数对目标领域的观点数据进行分类。本发明通过共享话题矩阵获取的分类函数对跨领域观点数据进行分类,由于共享话题矩阵可以减小不同领域的差距,因而提高了对跨领域观点数据分类的精度。

著录项

  • 公开/公告号CN105095277A

    专利类型发明专利

  • 公开/公告日2015-11-25

    原文格式PDF

  • 申请/专利号CN201410201027.7

  • 发明设计人 周光有;薛伟;王巨宏;

    申请日2014-05-13

  • 分类号G06F17/30;G06K9/66;

  • 代理机构北京三高永信知识产权代理有限责任公司;

  • 代理人滕一斌

  • 地址 100080 北京市海淀区中关村东路95号

  • 入库时间 2023-12-18 12:21:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-12-03

    授权

    授权

  • 2016-11-23

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140513

    实质审查的生效

  • 2015-11-25

    公开

    公开

说明书

技术领域

本发明涉及互联网技术领域,特别涉及一种跨领域观点数据的分类方法和装置。

背景技术

随着互联网技术的发展,越来越多的关于用户观点的观点数据在网上分享,这些观点数据以购物网站的用户评论、博客文章、用户反馈等形式存在。由于互联网上的观点数据涉及到不同的领域,且不同领域的观点数据对指导用户在不同领域的生产实践有重要的意义,因此,有必要获取不同领域的观点数据进行研究。又由于互联网的数据量较大,很难对互联网中每个领域的数据进行标注,因此,如何对跨领域观点数据进行分类,成为获取不同领域的观点数据的关键。

以采用SFA(SpectralFeatureAlignment,谱的特征队列)算法对跨领域观点数据进行分类为例,相关技术在对跨领域观点数据进行分类时,首先任意选定一个源领域和目标领域,并确定源领域和目标领域的领域特定词和领域独立词,然后在领域特殊词和领域独立词之间构建一个双向图,该双向图用来表示领域特殊词和领域独立词的共现关系,进而采用SFA算法将双向图中联系较多的领域特殊词和领域独立词分到一个簇中,由于这个簇能够减小源领域和目标领域的领域特殊词之间的差距,因此,可根据这个簇训练一个分类器,进而通过训练得到的分类器对跨领域观点数据进行分类。

在实现本发明的过程中,发明人发现相关技术至少存在以下问题:

相关技术在对跨领域观点数据进行分类时,由于选定的源领域和目标领域并不一定具有明确的领域特殊词和领域独立词,因此,相关技术对跨领域观点数据进行分类的结果并不精确。

发明内容

为了解决相关技术的问题,本发明实施例提供了一种跨领域观点数据的分类方法和装置。所述技术方案如下:

第一方面,提供了一种跨领域观点数据的分类方法,所述方法包括:

根据源领域和目标领域的共享话题获取共享话题矩阵,并根据源领域的领域特定话题和目标领域的领域特定话题分别获取源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵;

根据所述共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定源领域的目标函数,并根据所述共享话题矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定目标领域的目标函数;

根据所述源领域的目标函数和所述目标领域的目标函数确定总目标函数,

并确定所述总目标函数中各个参数的收敛值;

根据总目标函数中各个参数的收敛值获取分类函数,并根据所述分类函数对目标领域的观点数据进行分类。

第二方面,提供了一种跨领域观点数据的分类装置,所述装置包括:

第一获取模块,用于根据源领域和目标领域的共享话题获取共享话题矩阵;

第二获取模块,用于根据源领域的领域特定话题和目标领域的领域特定话题分别获取源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵;

第一确定模块,用于根据所述共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定源领域的目标函数;

第二确定模块,用于根据所述共享话题矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定目标领域的目标函数;

第三确定模块,用于根据所述源领域的目标函数和所述目标领域的目标函数确定总目标函数;

第四确定模块,用于确定所述总目标函数中各个参数的收敛值;

第三获取模块,用于根据总目标函数中各个参数的收敛值获取分类函数;

分类模块,用于根据所述分类函数对目标领域的观点数据进行分类。

本发明实施例提供的技术方案带来的有益效果是:

通过获取源领域和目标领域的共享话题矩阵,并根据源领域和目标领域的领域特定话题分别构建源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵,进而根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵、源领域的检索词矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定总目标函数之后,根据总目标函数中各个参数的收敛值获取分类函数,并根据分类函数对目标领域的观点数据进行分类。由于共享话题可以作为桥梁减小领域之间的差异,因此,在根据上述分类函数对跨领域观点数据进行分类时,可以提高分类的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的跨领域观点数据的分类方法流程图;

图2是本发明另一实施例提供的跨领域观点数据的分类方法流程图;

图3是本发明另一实施例提供的采用不同的算法对跨领域观点数据进行分类的结果示意图;

图4是本发明另一实施例提供的采用不同的算法对跨领域观点数据进行分类的结果示意图;

图5是本发明另一实施例提供的收敛曲线的示意图;

图6是本发明另一实施例提供的收敛曲线的示意图;

图7是本发明另一实施例提供的跨领域观点数据的分类装置的结构示意图;

图8是本发明另一实施例提供的第三确定模块的结构示意图;

图9是本发明另一实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

随着互联网技术的发展,观点数据分享已经成为当今社会的一个发展趋势。由于不同领域的观点数据对指导用户的生产实践具有重要的意义,而互联网上的观点数据的数量和种类较多,因此,有必要对互联网上的不同观点数据进行分类。为此,本发明实施例提供了一种跨领域观点数据的分类方法,参见图1,本实施例提供的方法流程包括:

101:根据源领域和目标领域的共享话题获取共享话题矩阵,并根据源领域的领域特定话题和目标领域的领域特定话题分别获取源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵。

102:根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定源领域的目标函数,并根据共享话题矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定目标领域的目标函数。

103:根据源领域的目标函数和目标领域的目标函数确定总目标函数,并确定总目标函数中各个参数的收敛值。

104:根据总目标函数中各个参数的收敛值获取分类函数,并根据分类函数对目标领域的观点数据进行分类。

作为一种可选的实施例,根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定的源领域的目标函数ψs为:

>ψS=||Xs-[U0,Us]VsT||F2+αTr[(VsWs-Ys)TCs(VsWs-Ys)]>

其中,为费罗贝尼乌斯范数,Tr[.]为矩阵迹,Xs为源领域的检索词矩阵,U0为共享话题矩阵,Us为源领域的领域特定话题矩阵,Vs为源领域的文档话题矩阵,为源领域的文档话题矩阵的转置矩阵,α为任意参数,Ws为线性模型系数,用于预测Vs的观点数据,Ys为源领域的极性矩阵,Cs为对角矩阵。

作为一种可选的实施例,根据共享话题矩阵、源领域和目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定的目标领域的目标函数ψt为:

>ψt=||Xt-[U0,Ut]VtT||F2>

其中,Xt为目标领域的检索词矩阵,U0为共享话题矩阵,Ut为目标领域的领域特定话题矩阵,Vt为目标领域的文档话题矩阵,VtT为源领域的文档话题矩阵的转置矩阵。

作为一种可选的实施例,根据源领域的目标函数和目标领域的目标函数确定的总目标函数ψ为:

>ψ=||Xs-[U0,Us]VsT||F2+||Xt-[U0,Ut]VtT||F2+αTr[(VsWs-Ys)TCs(VsWs-Ys)].>

作为一种可选的实施例,确定总目标函数中各个参数的收敛值,包括:

按照公式迭代计算参数U0的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数U0的收敛值其中,Hs为源领域的共享话题矩阵的系数矩阵,Ht为目标领域的共享话题矩阵的系数矩阵;

按照公式迭代计算参数Us的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Us的收敛值其中,LS为源领域的领域特定话题矩阵的系数矩阵;

按照公式迭代计算参数Vs的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Vs的收敛值

按照公式迭代计算参数Ws的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Ws的收敛值

按照公式迭代计算参数Ut的当前迭代值直至当前参数收敛,并将收敛的当前迭代值作为参数Ut的收敛值Lt为目标领域的领域特定话题矩阵的系数矩阵;

按照公式迭代计算参数Vt的当前收敛值直至当前参数收敛,并将收敛的当前迭代值作为参数Vt的收敛值

其中,°代表内积运算符,t代表当前的迭代,t-1代表上一次迭代。

作为一种可选的实施例,根据总目标函数中各个参数的收敛值获取的分类函数yi为:

>yi=argmaxj[viWs](i,j);>

其中,vi为目标领域的任一个文档话题矩阵,i为vi在目标领域的文档话题矩阵中所在的行,j为vi所在的行对应的列。

本发明实施例提供的方法,通过获取源领域和目标领域的共享话题矩阵,并根据源领域和目标领域的领域特定话题分别构建源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵,进而根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵、源领域的检索词矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定总目标函数之后,根据总目标函数中各个参数的收敛值获取分类函数,并根据分类函数对目标领域的观点数据进行分类。由于共享话题可以作为桥梁减小领域之间的差异,因此,在根据上述分类函数对跨领域观点数据进行分类时,可以提高分类的准确性。

在源领域和目标领域具有一定数量的共享话题,且源领域和目标领域分别具有领域特殊话题的情况下,本发明实施例提供了一种跨领域观点数据的分类方法。本实施提供的方法在对跨领域观点数据进行分类时,采用了一种新的算法TCT(TopicalCorrespondenceTransfer,话题一致转移)算法。该TCT算法基于领域间的共享话题训练一个分类函数,并利用分类函数对跨领域观点数据进行分类。参见图2,本发明实施例提供的方法流程包括:

201:根据源领域和目标领域的获取共享话题矩阵,并根据源领域的特定话题和目标领域的特定话题获取源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵。

其中,源领域可以是图书领域、电子领域、服装领域等,本实施例不对源领域作具体的限定。设定源领域为Xs,源领域中包含的文档数为ns个,每个文档中包含的检索词的数量为m个,则源领域可用一个检索词矩阵表示,得到源领域的检索词矩阵:

>Xs={x1(s),...,xns(s)}.>

由于源领域中每个文档中都包含m个检索词,因此,源领域的检索词矩阵还表示为

由于源领域中包含一定数量的标注极性的文档,因此,对于源领域中标注极性的文档可用一个文档极性矩阵Ys表示。其中,Ys为ns×2阶矩阵,ns为源领域中包含的文档的数量,2表示文档的极性种类有两种:一种极性为正,表示文档表达的观点为正向观点,一种极性为负,表示文档表达的观点为负向观点。在确定源领域中文档的极性时,以源领域中的第i篇文档为例,若源领域的第i篇文档对应的极性矩阵中的元yi=1,则可确定源领域中第i篇文档的极性为正,即该文档表达的观点为正向观点;若源领域的第i篇文档对应的极性矩阵中的元yi=-1,则确定源领域中第i篇文档的极性为负,即该文档表达的观点为负向观点。当然,除了上述方式外,还可采用其他的确定方式,本实施例对此不作具体的限定。

其中,目标领域可以是图书领域、电子领域、厨房用品领域等与源领域不同的领域,本实施例不对目标领域作具体的限定。设定目标领域为Xt,目标领域中包含的文档数为nt个,每个文档中包含的检索词的数量为m个,则目标领域可用一个检索词矩阵表示,得到目标领域的检索词矩阵:

>Xt={x1(t),...,xnt(t)}.>

由于目标领域中每个文档中都包含m个检索词,因此,目标领域的检索词矩阵还表示为

由于本实施例提供的跨领域观点数据的分类方法主要是基于源领域和目标领域的共享话题实现的,而源领域和目标领域的共享话题作为源领域和目标领域之间的桥梁可以减小源领域和目标领域的差距,使知识跨越领域传递成为可能。因此,为了能够跨领域对观点数据进行分类,本实施例提供的方法需要确定共享话题的数量。其中,源领域和目标领域的共享话题为源领域和目标领域都会涉及的话题。例如,源领域为图书领域,目标领域为服装领域,“昂贵”、“便宜”等话题在源领域和目标领域都会涉及,因此,“昂贵”、“便宜”等话题可作为共享话题。

为了便于后续的分析计算,在本实施例中设定共享话题的数量为k0共享话题矩阵为U0,则根据共享话题获取的共享话题矩阵为:

>U0={u1(0),...,xk0(0)}.>

由于源领域和目标领域中的每个文档中都包含m个检索词,因此,共享话题矩阵还可以表示为其中,共享话题矩阵中的每一列表示源领域和目标领域的一个共享话题。

进一步地,由于源领域和目标领域不仅具有共享话题,而且还各自具有领域特定话题,且领域特定话题作为每个领域独特性的表征,也是实现跨领域观点数据分类的重要依据。因此,本实施例提供的方法在跨领域对观点数据进行分类之前,需要为源领域设定源领域的领域特定话题,为目标领域设定目标领域的领域特定话题。其中,源领域的领域特定话题为源领域独有的话题,目标领域的领域特定话题为目标领域独有的话题。例如,若源领域为电子产品领域,目标领域为图书领域,则“耗电”、“灵敏”等话题为源领域的领域特定话题,“细腻”、“冗长”等话题为目标领域的领域特定话题。为了便于后续的分析计算,尽可能地减小源领域和目标领域之间的差距,本实施例提供的方法可为源领域和目标领域设定数量相同的领域特定话题。

若源领域的领域特定话题的数量为k,源领域的特定话题矩阵为Us,则根据源领域的领域特定话题获取的源领域的领域特定话题矩阵为:

Us=[U1(s),…,uk(s)]。

由于源领域中的每个文档中都包含m个检索词,因此,源领域的领域特定话题矩阵还可以表示为Rm×k,即Us∈Rm×k。其中,源领域的领域特定话题矩阵中的每一列表示源领域的一个特定话题。

若目标领域的领域特定话题的数量为k,目标领域的领域特定话题矩阵为Ut,则根据目标领域的领域特定话题获取的目标领域的领域特定话题矩阵为:

Ut=[u1(t),…,uk(t)]。

由于目标领域中的每个文档中都包含m个检索词,因此,目标领域的领域特定话题矩阵还可以表示为Rm×k,即Ut∈Rm×k。其中,目标领域的领域特定话题矩阵中的每一列表示目标领域的一个特定话题。

202:根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定源领域的目标函数。

由于源领域的目标函数是后续步骤中跨领域对目标领域的观点数据进行分类的重要依据,因此,在跨领域对目标领域的观点数据进行分类之前需要先确定源领域的目标函数。关于确定源领域的目标函数的方法,本实施例不作具体限定,包括但不限于根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定。

具体地,根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定的源领域的目标函数ψs为:

>ψS=||Xs-[U0,Us]VsT||F2+αTr[(VsWs-Ys)TCs(VsWs-Ys)]>

其中,||.||2F为费罗贝尼乌斯范数;Tr[.]为矩阵迹;Xs为源领域的检索词矩阵;U0为共享话题矩阵;Us为源领域的领域特定话题矩阵;Vs为源领域的文档话题矩阵;VsT为源领域的文档话题矩阵的转置矩阵;α为任意参数,可以是1、2、3等,本实施例不对α的取值作具体的限定;Ws为线性模型系数,用于预测Vs观点数据的极性;Ys为源领域的极性矩阵;Cs为对角矩阵,对角矩阵的每一行和每一列都对应着源领域中的一个文档。其中,Cs为一个ns×ns阶矩阵,可以用表示。关于对角矩阵Cs中各个元素设定方式,包括但不限于采用如下方式:若对角矩阵Cs中对角线上某一个元素对应的文档为标注极性的文档,则将该元素的值设为1,即当源领域中的第i个文档为标注极性的文档时,Cs(i,i)=1;若对角矩阵Cs中对角线上某一个元素对应的文档为未标注极性的文档,则将该元素的值设为0,即当源领域中的第i个文档为未标注极性的文档时,Cs(i,i)=0。

进一步地,由上述确定的源领域的目标函数的表达式可知,共享话题矩阵及源领域的领域特定话题矩阵是确定源领域的目标函数的关键,因此,在确定的源领域的目标函数之前,需要先确定共享话题矩阵及源领域的领域特定话题矩阵。关于确定共享话题矩阵及源领域的领域特定话题矩阵的方法,包括但不限于将源领域的检索词矩阵进行分解得到。通过将源领域的检索词矩阵Xs分解可以得到两个矩阵,一个矩阵为源领域的文档话题矩阵Vs,一个矩阵为源领域的条目话题矩阵Us`。其中,源领域的条目话题矩阵Us`为一个m×(k+k0)阶矩阵,即源领域的条目话题矩阵Us`中包含的矩阵包括但不限于共享话题矩阵U0和源领域的领域特定话题矩阵Us。源领域的文档话题矩阵Vs为一个ns×(k+k0)阶矩阵,即矩阵中的每一行表示源领域中一个文档。源领域的文档话题矩阵Vs中包含的矩阵包括但不限于矩阵Hs和Ls,其中,Hs为一个ns×k0阶矩阵,Hs为共享话题矩阵的系数矩阵;Ls为一个ns×k阶矩阵,Ls为源领域的领域特定话题矩阵的系数矩阵。

关于将源领域的检索词矩阵进行分解的方法,包括但不限于采用非负矩阵分解法将源领域的检索词矩阵进行分解。其中,非负矩阵分解法为在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法,非负矩阵分解法通过寻找低秩,将矩阵分解成若干个非负的矩阵。实际应用中采用非负矩阵分解法分解矩阵的例子有很多,如采用非负矩阵分解数字图像中的像素、文本分析中的单词统计及股票价格等等。非负矩阵分解法的基本思想可以简单描述为:对于任意给定的一个非负矩阵A,总能找到一个非负矩阵U和一个非负矩阵V,使得非负的矩阵A可以分解成非负矩阵U和V的乘积。利用非负矩阵分解法进行文本、图像大规模数据的分析,较传统的处理算法速度更快、更便捷。

203:根据共享话题矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定目标领域的目标函数。

由于目标领域的目标函数是后续步骤中跨领域对目标领域的观点数据进行分类的重要依据,因此,在跨领域对目标领域的观点数据进行分类之前需要先确定目标领域的目标函数。关于确定目标领域的目标函数的方法,包括但不限于根据共享话题矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定。

具体地,根据共享话题矩阵、源领域和目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定的目标领域的目标函数ψt为:

>ψt=||Xt-[U0,Ut]VtT||F2>

其中,||.||2F为费罗贝尼乌斯范数;Xt为目标领域的检索词矩阵;U0为共享话题矩阵;Ut为目标领域的领域特定话题矩阵;Vt为目标领域的文档话题矩阵,VtT为目标领域的文档话题矩阵的转置矩阵。

进一步地,由上述确定的目标领域的目标函数的表达式可知,共享话题矩阵及目标领域的领域特定话题矩阵是确定目标领域的目标函数的关键,因此,在确定的目标领域的目标函数之前,需要先确定共享话题矩阵、目标领域的领域特定话题矩阵。关于确定共享话题矩阵、目标领域的领域特定话题矩阵的方法,包括但不限于将目标领域的检索词矩阵进行分解得到。通过将目标领域的检索词矩阵Xt进行分解可以得到两个矩阵,一个矩阵为目标领域的文档话题矩阵Vt,一个矩阵为目标领域的条目话题矩阵Ut`。

其中,目标领域的条目话题矩阵Ut`为一个m×(k+k0)阶矩阵,即目标领域的条目话题矩阵Ut`中包含的矩阵包括但不限于共享话题矩阵U0和目标领域的领域特定话题矩阵Ut。目标领域的文档话题矩阵Vt为一个nt×(k+k0)阶矩阵,即矩阵中的每一行表示目标领域中一个文档。目标领域的文档话题矩阵Vt中包含的矩阵包括但不限于矩阵Ht和Lt,其中,Ht为一个nt×k0阶矩阵,Ht为共享话题矩阵的系数矩阵;Lt为一个nt×k阶矩阵,Lt为目标领域的领域特定话题矩阵的系数矩阵。

关于将目标领域的检索词矩阵进行分解的方法,包括但不限于采用非负矩阵分解法将目标领域的检索词矩阵进行分解。

需要说明的是,本实施例不对上述执行确定源领域的目标函数和目标领域的目标函数的过程的先后顺序进行限定,具体执行时,既可以先确定源领域的目标函数,也可以先确定目标领域的目标函数。

204:根据源领域的目标函数和目标领域的目标函数确定总目标函数。

由于上述步骤202中得到的源领域的目标函数和上述步骤203中得到的目标领域的目标函数是互补的,而将根据源领域的目标函数和目标领域的目标函数得到的总目标函数作最优化处理可以提高对目标领域的观点数据分类的精度及速度。因此,为了快速准确地对目标领域的观点数据进行分类,本实施例提供的方法在对目标领域的观点数据分类之前,需要先根据源领域的目标函数和目标领域的目标函数确定一个总目标函数。

关于根据源领域的目标函数和目标领域的目标函数确定总目标函数的方法,本实施例不作具体限定,包括但不限限于采用如下方法:将源领域的目标函数和目标领域的目标函数作加法计算,进而得到一个总目标函数。因此,根据源领域的目标函数和目标领域的目标函数确定的总目标函数ψ为:

>ψ=||Xs-[U0,Us]VsT||F2+||Xt-[U0,Ut]VtT||F2+αTr[(VsWs-Ys)TCs(VsWs-Ys)].>

其中,总目标函数中的参数包括但不限于U0、Us、Vs、Ws、Ut和Vt等。

进一步地,在得到总目标函数之后,本实施例提供的方法需要对总目标函数作最优化处理。关于对总目标函数作最优化处理的方法,包括但不限于采用如下公式:

>argminU0,Ud,Vd,Wsψ>

其中,d∈{s,t},当d为s时,Ud和Vd分别为Us和Vs,当d为t时,Ud和Vd分别为Ut和Vt。通过上述公式对总目标函数作最优化处理的过程中可以得到总目标中各个参数U0、Us、Vs、Ws、Ut和Vt的收敛值,而该收敛值为后续步骤中获取分类函数的关键。

需要说明的是,由于在对目标函数作最优化处理时,需要将U0、Ud、Vd进行分解。在将U0、Ud、Vd分解时可能会得到负矩阵,而在采用本实施例提供的TCT算法对目标函数进行分类时,需保证运算过程中的各个矩阵为非负矩阵。因此,为了避免对U0、Ud、Vd分解时有负矩阵的出现,在对总目标函数作最优化处理之前,可为U0、Ud、Vd设定分解限制条件。其中,设定的分解限制条件包括但不限于:

>U0TU0=I,UdTUd=I,U00,Ud0,d{s,t}>

其中,U0T为共享话题矩阵的转置矩阵;UdT为源领域或目标领域的领域特定话题矩阵的转置矩阵,当d为s时,UdT为源领域的领域特定话题矩阵,当d为t时,UdT为目标领域的领域特定话题矩阵;I为单位矩阵,其值为1。

205:确定总目标函数中各个参数的收敛值。

由上述对总目标函数作最优化处理时采用的公式可知,若使总目标函数取最优解,需保证总目标函数中的各个参数取某一最小值,该最小值为总目标函数中各个参数的收敛值。

其中,总目标函数的各个参数为U0、Us、Vs、Ws、Ut和Vt,下面对确定总目标函数中各个参数的收敛值的过程一一进行介绍:

(1)确定参数U0的收敛值:

首先,引入拉格朗日公式对参数U0进行计算:

>L(U0)=ψ+Tr(ψ(U0)(U0TU0-I))>

其中,为拉格朗日乘子,用来限制

其次,对上式作求导运算,即使得▽U0L(U0)=0,通过求导运算可以得到:

再次,采用KKT(Karush-Kuhn-Tucke,卡罗需-库恩-塔克条件)条件对上述式子进行限定,得到参数U0的收敛公式为:

其中,°为内积运算符号,t代表当前的迭代,t-1代表上一次迭代,Hs为源领域的共享话题矩阵的系数矩阵,Ht为目标领域的共享话题矩阵的系数矩阵。

进一步地,为了确保能够根据总目标函数中各个参数的收敛公式得到各个参数的收敛值,本实施例提供的方法在按照上述过程确定了参数U0的收敛公式之后,还将对参数U0的收敛公式进行收敛验证。在进行收敛验证之前,需要先引入一个定义、引理和定理。

其中,引入的定义为:F(X,X′)为L(X)的辅助函数,如果L(X)≤F(X,X′),则当且仅当L(X)=F(X,X′)时等号成立。

其中,引入的引理为:如果F是L的辅助函数,则L在下面的更新序列中是非增的。

>X(t+1)=argminXF(X,Xt)>

对于上述引理的证明过程如下:

由于F是L的辅助函数,因此,L(X(t+1))≤F(X(t+1),X(t)),又由于F(X(t+1),X(t))≤F(X(t),X(t))=L(X),因此,L(X(t+1))≤L(X(t)),即L在更新序列中是非增的。

其中,引入的定理为:若函数

>F(U0,U0)=Σij([U0,Us]VsTHs+[U0,Ut]VsTHt)(i,j)U02(i,j)U0(i,j)-2Σij(XsHs+XtHt)(i,j)(U0)(i,j)(1+logU0(i,j)U0(i,j))>

为L(U0)的辅助函数,则凸函数将收敛于U0

在引入公式、引理和定理之后,可根据上述公式、引理和定理得到

同理,对后续确定的其他参数Us、Vs、Ws、Ut和Vt的收敛公式的收敛证明过程同上述参数U0,此处不再赘述。

基于上述内容,按照公式迭代计算参数U0的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数U0的收敛值

对于上述确定参数U0的收敛值的方式,具体为:

首先,根据参数U0、Us、Vs、Ws、Ut和Vt的维数随机的为参数U0、Us、Vs、Ws、Ut和Vt选取一个初始值例如,若U0为一个2×2阶矩阵,则根据U0的维数随机的为U。选取一个初始值等。

其次,将选取的各个参数的初始值代入到公式中,通过计算得到第一次迭代的迭代值

再次,将得到的当前迭代值代入到

中,通过计算得到第二次迭代的迭代值继续对得到的当前迭代值进行迭代计算,直至当前迭代值收敛,此时可将收敛的当前迭代值作为参数U0的收敛值

(2)确定参数Us的收敛值:

按照上述确定参数U0的原理确定参数Us的收敛公式为:

其中,LS为源领域的领域特定话题矩阵的系数矩阵。

按照公式迭代计算参数Us的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Us的收敛值

对于上述确定参数Us的收敛值的方式,具体为:

首先,根据参数U0、Us、Vs、Ws、Ut和Vt的维数随机的为参数U0、Us、Vs、Ws、Ut和Vt选取一个初始值例如,若Us为一个2×2阶矩阵,则根据Us的维数随机的为Us选取一个初始值等。

其次,将选取的各个参数的初始值代入到公式中,通过计算得到第一次迭代的迭代值

再次,将得到的当前迭代值代入到中,通过计算得到第二次迭代的迭代值继续对得到的当前迭代值进行迭代计算,直至当前迭代值收敛,此时可将收敛的当前迭代值作为参数Us的收敛值

(3)确定参数Vs的收敛值:

按照上述确定参数U0的原理确定参数Vs的收敛公式为:

按照公式迭代计算参数Vs的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Vs的收敛值

对于上述确定参数Vs的收敛值的方式,具体为:

首先,根据参数U0、Us、Vs、Ws、Ut和Vt的维数随机的为参数U0、Us、Vs、Ws、Ut和Vt选取一个初始值例如,若Vs为一个2×2阶矩阵,则根据VS的维数随机的为VS选取一个初始值等。

其次,将选取的各个参数的初始值代入到公式中,通过计算得到第一次迭代的迭代值

再次,将得到的当前迭代值代入到

中,通过计算得到第二次迭代的迭代值继续对得到的当前迭代值进行迭代计算,直至当前迭代值收敛,此时可将收敛的当前迭代值作为参数Vs的收敛值

(4)确定参数Ws的收敛值:

按照上述确定参数U0的原理确定参数Ws的收敛公式为:

按照公式迭代计算参数Ws的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Ws的收敛值

对于上述确定参数Ws的收敛值的方式,具体为:

首先,根据参数U0、Us、Vs、Ws、Ut和Vt的维数随机的为参数U0、Us、Vs、Ws、Ut和Vt选取一个初始值例如,若Ws为一个2×2阶矩阵,则根据Ws的维数随机的为Ws选取一个初始值等。

其次,将选取的各个参数的初始值代入到公式中,通过计算得到第一次迭代的迭代值

再次,将得到的当前迭代值代入到中,通过计算得到第二次迭代的迭代值继续对得到的当前迭代值进行迭代计算,直至当前迭代值收敛,此时可将收敛的当前迭代值作为参数Ws的收敛值

(5)确定参数Ut的收敛值:

按照上述确定参数U0的原理确定参数Ut的收敛公式为:

其中,Lt为目标领域的领域特定话题矩阵的系数矩阵。

按照公式迭代计算参数Ut的当前迭代值直至当前参数收敛,并将收敛的当前迭代值作为参数Ut的收敛值

对于上述确定参数Ut的收敛值的方式,具体为:

首先,根据参数U0、Us、Vs、Ws、Ut和Vt的维数随机的为参数U0、Us、Vs、Ws、Ut和Vt选取一个初始值例如,若Ut为一个2×2阶矩阵,则根据Ut的维数随机的为Ut选取一个初始值等。

其次,将选取的各个参数的初始值代入到公式中,通过计算得到第一次迭代的迭代值

再次,将得到的当前迭代值代入到中,通过计算得到第二次迭代的迭代值继续对得到的当前迭代值进行迭代计算,直至当前迭代值收敛,此时可将收敛的当前迭代值作为参数Ut的收敛值

(6)确定参数Vt的收敛值:

按照上述确定参数U0的原理确定参数Vt的收敛公式为:

按照公式迭代计算参数Vt的当前收敛值直至当前参数收敛,并将收敛的当前迭代值作为参数Vt的收敛值

首先,根据参数U0、Us、Vs、Ws、Ut和Vt的维数随机的为参数U0、Us、Vs、Ws、Ut和Vt选取一个初始值例如,若Vt为一个2×2阶矩阵,则根据Vt的维数随机的为Vt选取一个初始值等。

其次,将选取的各个参数的初始值代入到公式中,通过计算得到第一次迭代的迭代值

再次,将得到的当前迭代值代入到中,通过计算得到第二次迭代的迭代值继续对得到的当前迭代值进行迭代计算,直至当前迭代值收敛,此时可将收敛的当前迭代值作为参数Vt的收敛值

需要说明的是,虽然总目标函数中各个参数的初始值可以随机选取,但由于选取的初始值决定着各个参数收敛公式的收敛速度,因此,在为各个收敛参数选取初始值时可根据源领域和目标领域中数据的情况进行确定。通过选取合适的初始值,可以加快各个收敛参数的收敛表达式的收敛速度,减少循环次数。

进一步地,为了获知采取本实施例提供的TCT方法对跨领域的观点数据进行分类时的资源消耗情况,本实施例提供的方法在采用TCT算法对跨领域观点数据进行分类时,还将计算各个收敛参数的计算复杂度。参见表1,计算得到的各个收敛参数复杂度如下:

表1

其中,k`=k+k0,n=max{ns,nt},m>>k`,n>>k`。

206:根据总目标函数中各个参数的收敛值获取分类函数。

由于在上述步骤205中已经确定了总目标函数中各个参数的收敛值,因此,本步骤将在上述步骤205的基础上根据总目标函数中各个参数的收敛值获取分类函数,进而在后续步骤中根据获取的分类函数对目标领域的观点数据进行分类。

具体地,根据总目标函数中各个参数的收敛值获取分类函数的步骤,包括但不限于如下步骤:

首先,获取对目标函数作最优化处理时,目标函数中参数U0、Us、Ut的收敛值;

其次,将获取到的目标函数中参数U0、Us、Ut的收敛值代入到如下公式中:

>viargminv0||xi-[U0,Ut]vT||F2>

其中,xi为目标领域中的任一个文档,vi为目标领域中任一个文档的文档话题矩阵,i为vi在目标领域的文档话题矩阵中所在的行,j为vi所在的行对应的列。

再次,根据vi及Ws获取分类函数;

具体地,根据vi及Ws获取的分类函数如下:

>yi=argmaxj[viWs](i,j)>

其中,i为vi所在的行,j为vi所在的行对应的列。

207:根据分类函数对目标领域的观点数据进行分类。

由于上述步骤206中已经确定了分类函数,因此,本步骤在上述步骤的基础上将根据分类函数对目标领域的观点数据进行分类。具体地,设定yi的值为1代表正向观点,yi的值为-1代表负向观点,当通过分类函数对目标领域的任意一个文档进行分类时,若计算得到的yi的值为1,则说明该文档表达的观点为正向观点,因此,可将该文档划分为正向文档;若计算得到的yi的值为-1,则说明该文档表达的观点为负向观点,因此,可将该文档划分为负向文档。

优选地,为了测试本实施例提供的TCT算法对跨领域观点数据进行分类的准确性,本实施例提供的方法还将对选取的四个领域进行实验验证。其中,选取的四个领域为:图书领域(B)、DVD(DigitalVersatileDisc,数字多功能光盘)s领域(D)、电子产品领域(E)、厨房用品领域(K)。在实验过程中为上述四个领域中的每个观点都分配一个观点标签。其中,分配的观点标签为+1或-1。当为某一领域的观点分配的观点标签为+1时,说明某一领域的该观点为正向观点,当为某一领域的观点分配的观点标签为-1时,说明某一领域的该观点为负向观点。同时还为每个领域设定1000个正向观数据点和1000个负向观点数据,还有一些没有标注观点的数据。在跨领域观点数据分类任务中,能够构建的分类任务有12个,分别为:D→B,E→B,K→B,K→E,D→E,B→E,B→D,K→D,E→D,B→K,D→K,E→K。其中,箭头前表示源领域,箭头后表示目标领域。考虑到计算能力的问题,在本实施例中,每个领域所选取的数据为5000左右。如表2所示:

表2

领域 训练数据 测试数据 未标注观点的数据 负向数据的比例 图书 1600 400 4465 50% DVD 1600 400 5945 50% 电子产品 1600 400 5681 50% 厨房用品 1600 400 3586 50%

表2中所列的数据为选取的四个领域的数据,其中,每个领域中都包含着训练数据、测试数据和未标注观点的数据,且每个领域中负向数据所占的比例均为每个领域数据的50%。由于在构建的12个跨领域分类任务中,每个领域既是源领域也是目标领域,当所选领域作为源领域时,领域中的训练数据用于构建分类函数,当所选领域作为目标领域时,领域中的测试数据用于对构建的分类函数进行测试。因此,为了保证跨领域观点数据进行分类的准确性,本实施例中为每个领域设定相同数量的训练数据及测试数据,如表2所示,每个领域中的训练数据为1600个,测试数据为400个。

为了直观地展现采用本实施例提供的方法在跨领域观点数据进行分类的优越性,在选取了四个领域的数据进行实验时,将采用不同的算法进行分类计算。具体地,除了本实施例中采用的TCT算法外,在实验过程中还选取了NoTransf、SCL(StructuralCorrespondenceLearning,结构对应学习)、SFA(SpectralFeatureAlignment,谱的特征队列)、SDA(StackedDenoisingAuto-encoders,每层去噪自动编码)、NMTF(non-negativematrixtri-factorization,非负矩阵三分解)等算法。

在选定算法之后,为了能够根据选定的算法执行上述设定的12个跨领域分类任务,本实施例提供的方法还将确定每种算法的参数。由于算法NoTransf、SCL和SFA采用逻辑回归作为基本的分类器,因此,在选择参数时需要考虑给定的四个领域的数据;对于算法SDA和NMTF将使用已发表论文的参数集中的数据;对于本发明实施例中所使用的算法TCT在设置参数时,将参数α的值设为1,而参数k和k0的值则根据构建的分类任务:E→B确定。

进一步地,在采用不同的算法对构建的12个分类任务进行分类时,可得到如图3和图4所示的分类结果。其中,图3和图4中的横轴表示构建的分类任务,纵轴表示分类的精确度,NF代表NoTransf算法。由图3和图4可知,在对构建的12个分类任务进行分类时,D→B和B→D以及K→E和E→K的分类精确度较高,说明领域B和D的相似度较高,领域E和K的相似度较高。同时对比采用不同的算法对构建的12个分类任务进行分类的精确度可知,采用本实施例提供的TCT算法的精确度明显高于其他的算法,如SCL、SFA等。

进一步地,为了获取采用TCT算法对跨领域观点数据进行分类时数据的收敛情况,本实施例提供的方法根据实验的结果将B→D和E→K的收敛情况展现出来。具体参见图5和图6。其中,图5为B→D的收敛曲线,从图5可知,当循环次数达到300次时,目标函数的值将不再变化。图6为E→K的收敛曲线,从图6可知,当循环次数达到300次时,目标函数函数的值也不再变化。

本实施例提供的方法,通过获取源领域和目标领域的共享话题矩阵,并根据源领域和目标领域的领域特定话题分别构建源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵,进而根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵、源领域的检索词矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定总目标函数之后,根据总目标函数中各个参数的收敛值获取分类函数,并根据分类函数对目标领域的观点数据进行分类。由于共享话题可以作为桥梁减小领域之间的差异,因此,在根据上述分类函数对跨领域观点数据进行分类时,可以提高分类的准确性。

参见图7,本发明实施例提供了一种跨领域观点数据的分类装置,该装置包括:

第一获取模块701,用于根据源领域和目标领域的共享话题获取共享话题矩阵;

第二获取模块702,用于根据源领域的领域特定话题和目标领域的领域特定话题分别获取源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵;

第一确定模块703,用于根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定源领域的目标函数;

第二确定模块704,用于根据共享话题矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定目标领域的目标函数;

第三确定模块705,用于根据源领域的目标函数和目标领域的目标函数确定总目标函数;

第四确定模块706,用于确定总目标函数中各个参数的收敛值;

第三获取模块707,用于根据总目标函数中各个参数的收敛值获取分类函数;

分类模块708,用于根据分类函数对目标领域的观点数据进行分类。

作为一种可选的实施例,第一确定模块703确定的源领域的目标函数ψs为:

>ψS=||Xs-[U0,Us]VsT||F2+αTr[(VsWs-Ys)TCs(VsWs-Ys)]>

其中,为费罗贝尼乌斯范数,Tr[.]为矩阵迹,Xs为源领域的检索词矩阵,U0为共享话题矩阵,Us为源领域的领域特定话题矩阵,Vs为源领域的文档话题矩阵,VsT为源领域的文档话题矩阵的转置矩阵,α为任意参数,Ws为线性模型系数,用于预测Vs的观点数据,Ys为源领域的极性矩阵,Cs为对角矩阵。

作为一种可选的实施例,第二确定模块704确定的目标领域的目标函数ψt为:

>ψt=||Xt-[U0,Ut]VtT||F2>

其中,Xt为目标领域的检索词矩阵,U0为共享话题矩阵,Ut为目标领域的领域特定话题矩阵,Vt为源领域的文档话题矩阵,VtT为源领域的文档话题矩阵的转置矩阵。

作为一种可选的实施例,第三确定模块705确定的总目标函数ψ为:

>ψ=||Xs-[U0,Us]VsT||F2+||Xt-[U0,Ut]VtT||F2+αTr[(VsWs-Ys)TCs(VsWs-Ys)].>

参见图8,第四确定模块706,包括:

第一确定单元7061,用于按照公式

迭代计算参数U0的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数U0的收敛值其中,Hs为源领域的共享话题矩阵的系数矩阵,Ht为目标领域的共享话题矩阵的系数矩阵;

第二确定单元7062,用于按照公式迭代计算参数Us的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Us的收敛值其中,LS为源领域的领域特定话题矩阵的系数矩阵;

第三确定单元7063,用于按照公式

迭代计算参数Vs的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Vs的收敛值

第四确定单元7064,用于按照公式迭代计算参数Ws的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Ws的收敛值

第五确定单元7065,用于按照公式迭代计算参数Ut的当前迭代值直至当前参数收敛,并将收敛的当前迭代值作为参数的收敛值Lt为目标领域的领域特定话题矩阵的系数矩阵;

第六确定单元7066,用于按照公式迭代计算参数Vt的当前收敛值直至当前参数收敛,并将收敛的当前迭代值作为参数Vt的收敛值

其中,°代表内积运算符,t代表当前的迭代,t-1代表上一次迭代。

作为一种可选的实施例,第三获取模块707根据总目标函数中各个参数的收敛值获取的分类函数为yi

>yi=argmaxj[viWs](i,j);>

其中,vi为目标领域的任一个文档话题矩阵,i为vi在目标领域的文档话题矩阵中所在的行,j为vi所在的行对应的列。

综上,本发明实施例提供的装置,通过源领域和目标领域的共享话题获取共享话题矩阵,并根据源领域和目标领域的领域特定话题分别构建源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵,进而根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定源领域的目标函数,根据共享话题矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定目标领域的目标函数,并在根据源领域的目标函数和目标领域的目标函数得到总目标函数之后,根据总目标函数中各个参数的收敛值获取分类函数,进而根据分类函数对目标领域的观点数据进行分类。由于共享话题可以作为桥梁减小领域之间的差异,因此,在跨领域对观点数据进行分类时,可以提高了分类的准确性。

图9是根据一示例性实施例示出的一种用于跨领域观点数据的分类方法的装置900的框图。例如,装置900可以被提供为一服务器。参照图9,装置900包括处理组件922,其进一步包括一个或多个处理器,以及由存储器932所代表的存储器资源,用于存储可由处理组件922的执行的指令,例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件922被配置为执行指令,以执行上述方法跨领域观点数据的分类方法,该方法包括:

101:根据源领域和目标领域的共享话题获取共享话题矩阵,并根据源领域的领域特定话题和目标领域的领域特定话题分别获取源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵。

根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定源领域的目标函数,并根据共享话题矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定目标领域的目标函数;

根据源领域的目标函数和目标领域的目标函数确定总目标函数,并确定总目标函数中各个参数的收敛值;

根据总目标函数中各个参数的收敛值获取分类函数,并根据分类函数对目标领域的观点数据进行分类。

作为一种可选的实施例,根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵及源领域的检索词矩阵确定的源领域的目标函数ψs为:

>ψS=||Xs-[U0,Us]VsT||F2+αTr[(VsWs-Ys)TCs(VsWs-Ys)]>

其中,为费罗贝尼乌斯范数,Tr[.]为矩阵迹,Xs为源领域的检索词矩阵,U0为共享话题矩阵,Us为源领域的领域特定话题矩阵,Vs为源领域的文档话题矩阵,VsT为源领域的文档话题矩阵的转置矩阵,α为任意参数,Ws为线性模型系数,用于预测Vs的观点数据,Ys为源领域的极性矩阵,Cs为对角矩阵。

作为一种可选的实施例,根据共享话题矩阵、源领域和目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定的目标领域的目标函数ψt为:

>ψt=||Xt-[U0,Ut]VtT||F2>

其中,Xt为目标领域的检索词矩阵,U0为共享话题矩阵,Ut为目标领域的领域特定话题矩阵,Vt为目标领域的文档话题矩阵,VtT为源领域的文档话题矩阵的转置矩阵。

作为一种可选的实施例,根据源领域的目标函数和目标领域的目标函数确定的总目标函数ψ为:

>ψ=||Xs-[U0,Us]VsT||F2+||Xt-[U0,Ut]VtT||F2+αTr[(VsWs-Ys)TCs(VsWs-Ys)].>

作为一种可选的实施例,确定总目标函数中各个参数的收敛值,包括:

按照公式迭代计算参数U0的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数U0的收敛值其中,Hs为源领域的共享话题矩阵的系数矩阵,Ht为目标领域的共享话题矩阵的系数矩阵;

按照公式迭代计算参数Us的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Us的收敛值其中,LS为源领域的领域特定话题矩阵的系数矩阵;

按照公式迭代计算参数Vs的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Vs的收敛值

按照公式迭代计算参数Ws的当前迭代值直至当前迭代值收敛,并将收敛的当前迭代值作为参数Ws的收敛值

按照公式迭代计算参数Ut的当前迭代值直至当前参数收敛,并将收敛的当前迭代值作为参数Ut的收敛值Lt为目标领域的领域特定话题矩阵的系数矩阵;

按照公式迭代计算参数Vt的当前收敛值直至当前参数收敛,并将收敛的当前迭代值作为参数Vt的收敛值

其中,°代表内积运算符,t代表当前的迭代,t-1代表上一次迭代。

作为一种可选的实施例,根据总目标函数中各个参数的收敛值获取的分类函数yi为:

>yi=argmaxj[viWs](i,j)>

其中,vi为目标领域的任一个文档话题矩阵,i为vi在目标领域的文档话题矩阵中所在的行,j为vi所在的行对应的列。

装置900还可以包括一个电源组件926被配置为执行装置900的电源管理,一个有线或无线网络接口950被配置为将装置900连接到网络,和一个输入输出(I/O)接口958。装置900可以操作基于存储在存储器932的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。

综上所述,本发明实施例提供的服务器,通过获取源领域和目标领域的共享话题矩阵,并根据源领域和目标领域的领域特定话题分别构建源领域的领域特定话题矩阵和目标领域的领域特定话题矩阵,进而根据共享话题矩阵、源领域的领域特定话题矩阵、源领域的极性矩阵、源领域的检索词矩阵、目标领域的领域特定话题矩阵及目标领域的检索词矩阵确定总目标函数之后,根据总目标函数中各个参数的收敛值获取分类函数,并根据分类函数对目标领域的观点数据进行分类。由于共享话题可以作为桥梁减小领域之间的差异,因此,在根据上述分类函数对跨领域观点数据进行分类时,可以提高分类的准确性。

需要说明的是:上述实施例提供的跨领域观点数据的分类装置在对跨领域观点数据分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将跨领域观点数据的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的跨领域观点数据的分类装置与跨领域观点数据的分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号