首页> 中国专利> 问答社区内回答评价方法和系统

问答社区内回答评价方法和系统

摘要

本发明提供了一种问答社区内回答评价方法,该方法包括:获取问题及所述问题下对应的所有回答内容及与所述回答内容相关的多维信息;基于对各维信息进行独立加权的方式计算每个回答内容的基本权重;综合各维信息的相互影响,确定相应的调权机制调节所述获取的基本权重,得到每个回答内容的最终权重;基于所述最终权重对所述所有回答内容进行综合评价。相应地还提供了一种问答社区内回答评价系统。本发明提供的方法和系统可以有效甄别对问题有价值的回答,提升问答平台的用户体验。

著录项

  • 公开/公告号CN103729424A

    专利类型发明专利

  • 公开/公告日2014-04-16

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201310714726.7

  • 发明设计人 姚晔;陈庆轩;宁华丽;郭宇霆;

    申请日2013-12-20

  • 分类号G06F17/30(20060101);

  • 代理机构北京汉昊知识产权代理事务所(普通合伙);

  • 代理人朱海波

  • 地址 100085 北京市海淀区上地十街10号百度大厦

  • 入库时间 2024-02-19 23:23:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-15

    授权

    授权

  • 2014-05-21

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131220

    实质审查的生效

  • 2014-04-16

    公开

    公开

说明书

技术领域

本发明涉及计算机网络领域,尤其涉及一种问答社区内回答评价方法和 系统。

背景技术

目前,通过搜索平台搜索相关的信息是用户获取信息的重要途径,尤其 在问答社区内搜索问题、提出问题、回答问题、浏览问题或追加问题等,这 已成为用户间进行互动信息交流的重要方式。其中,常见的问答社区有百度 知道、搜搜问问、新浪爱问等。

通常,问答社区内各问题下回答内容的展示顺序主要基于以下两种方式: 1)仅按照回答问题的时间进行排序,即排名靠前展示的回答在时间上更靠近 当前搜索的时间;2)按照回答获得的好评数进行排序,即同一问题下的回答 获得用户的赞同数越多,其越靠前展示在问答社区。但是,这两种方式各有 其不足,对于第一种方式而言,由于靠前展示的回答不一定是最匹配该问题 的回答,因此,用户通常需要花费较长时间寻找所需要的回答,并且,这种 方式随着回答个数的递增,其不足越明显;对于第二种方式而言,基于赞同 数对回答进行排序,这很容易遭到spam(电子垃圾)用户的攻击,使得那些 对spam用户直接有益的广告内容顶到靠前的展示位置,从而造成对浏览该 回答的用户的误导。

发明内容

本发明的目的是提供一种问答社区内回答评价方法和系统,可以有效提 升问答平台的用户体验。

根据本发明的一个方面,提供了一种问答社区内回答评价方法,该方法 包括:

获取问题及所述问题下对应的所有回答内容及与所述回答内容相关的多 维信息;

通过纳入回归模型,基于对各维信息进行独立加权的方式计算每个回答 内容的基本权重;

综合各维信息的相互影响,确定相应的调权机制调节所述获取的基本权 重,得到每个回答内容的最终权重;

基于所述最终权重对所述所有回答内容进行综合评价。

根据本发明的另一个方面,还提供了一种问答社区内回答评价系统,包 括:

信息获取单元,用于获取问题及所述问题下对应的所有回答内容及与所 述回答内容相关的多维信息;

基本权重计算单元,通过纳入回归模型,基于对各维信息进行独立加权 的方式计算每个回答内容的基本权重;

权重调节单元,用于综合各维信息的相互影响,确定相应的调权机制调 节所述获取的基本权重,得到每个回答内容的最终权重;

回答评价单元,基于所述最终权重对所述所有回答内容进行综合评价。

与现有技术相比,本发明具有以下优点:

1)本发明通过对回答信息的评估,有效甄别对问题有价值的回答,并将 该回答优先展现给浏览者和提问者,提升了问答平台的用户体验;

2)本发明可以有效地防止垃圾信息(spam)用户的攻击,避免该类信息 对浏览用户造成误导。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发 明的其它特征、目的和优点将会变得更明显:

图1为根据本发明一个优选实施例的问答社区内回答评价方法流程图;

图2为本实施例所示的回答内容的长度与对应调权系数的曲线图;

图3为根据本发明优选实施例的用户等级和回答内容的质量的关系曲线 图;

图4为本发明另一个优选实施例的回答社区内回答评价系统的示意性框 图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

根据本发明的一个方面,提供了一种问答社区内回答评价方法。需要说 明的是,下文提到的权重和回答信息的质量成正向关系,权重越高,代表回 答信息的质量越优。所述回答信息的质量主要从回答内容、提交所述回答的 用户行为特征、浏览所述回答的用户特征等信息进行综合衡量。

请参考图1,图1为根据本发明一个优选实施例的问答社区内回答评价 方法流程图。

如图1所示,本发明所提供的方法包括以下步骤:

步骤S101,获取问题及所述问题下对应的所有回答内容及与所述回答内 容相关的多维信息。

具体地,为了更好地对问答社区内的回答信息的价值进行评价,基于网 络获取问答社区内所有问题及所述问题下对应的所有回答内容及相关信息, 具体获取的方式在此不作限制。

与所述回答内容相关的多维信息主要包括:所述回答自身的特征信息、 提交所述回答内容的用户特征信息、浏览所述问题及回答的用户行为特征信 息。其中,所述回答自身的特征信息包括非文本特性信息和文本特征信息; 所述提交所述回答内容的用户特征信息包括用户等级和用户采纳率;所述浏 览所述问题及回答的用户行为特征主要指该用户对回答的评价性信息,例如 常见的回答好评数、回答中的致谢语以及追问追答中的致谢语等,该信息可 以刻画该用户对该回答的反馈信息。

其中,所述回答自身的特征信息中的文本特征信息主要包括:特殊标记 特征、核心表意词特征、疑问倾向特征和无意义特征、致谢倾向性特征。

其中,所述回答自身的特征信息中的非文本特征信息主要包括:所述回 答内容的长度信息、所述回答内容的段落数目、富媒体特征信息或/和追问追 答信息。其中,富媒体特征信息主要指回答内容中诸如图片、地图等特征信 息。

步骤S102,通过纳入回归模型,基于对各维信息进行独立加权的方式计 算每个回答内容的基本权重。

具体地,获取上述多维信息后,基于上述多维信息衡量每个回答内容的 质量。更具体地,通过下述计算公式计算每个回答内容的基本权重,即纳入 回归模型,对所述各维信息进行线性加权计算。计算公式如下:

scoreini=radio1×dimesion1+…radioi×dimesioni+…radion×dimesionn

其中,radio1、radioi、radion分别代表各维信息的调权因子, dimesion1、dimesioni、dimesionn分别代表各维信息的权重,scoreini表示基 本权重。其中,所述调权因子和权重可以通过对各维信息中所包括的特征及 主特征信息的穷举、选择、固化参数等方法予以确定。

所述各维信息主要指:所述回答自身的特征信息、提交所述回答内容的 用户特征信息、浏览所述问题及回答的用户行为特征信息。

通过上述公式的计算,可以获取每一个回答内容的基本权重,通过下文 的调权处理,即可以获取每一个回答内容的最终权重。

步骤S103,综合各维信息的相互影响,确定相应的调权机制调节所述获 取的基本权重,得到每个回答内容的最终权重。

具体地,所述各维信息的相互影响主要指各维信息对回答内容的质量所 产生正面或负面的影响。所述调权机制则根据所述影响的正负面、影响力度 进行加权或降权,即在每个回答内容的基本权重上确定相应的调权系数,包 括加权或降权系数,两者的乘积即为最终获得的权重。具体的计算公式可以 参照下文:

score=w1×…Wm×scoreini

其中,w1、wm表示调权系数,scoreini表示基本权重,score表示最终权 重。

其中,所述加权或降权系数与各维信息中的具体特征相关,下文将进行 详述。

就上述回答自身的特征信息中的非文本特征信息而言,其中影响加权或 降权系数的特征主要包括回答内容的长度和回答内容的段落。

分别而言,由于问答社区内回答内容的长度一般都是中等长度的内容其 质量较高,过短长度的内容通常包含的信息较片面,其质量较低,过长的内 容则通常因为冗长而缺乏重点信息,因此,回答内容的长度对回答内容质量 的贡献呈现出先增长后减少的趋势。为了更好地体现长度与回答内容质量之 间的关系,可以将所述关系曲线划分为多个档位来表示,并可以采用如下公 式来计算所述回答内容的长度所对应的调权系数:

其中,len表示回答内容的假定长度,1到n分别表示调权系数w1到wn所 对应的档位,len1到lenn分别表示1到n档对应的长度区间,w长度表示最终 得到的所述回答内容的长度所对应的调权系数。

进一步地,可参考图2,图2为本实施例所示的回答内容的长度与对应 调权系数的曲线图。如图2所示,所述回答内容长度的调权系数的计算采用 上述多个档位的加权计算方式,相邻档位间的调权系数采用相邻低档位的调 权系数与变量的相加来获得,最终得到的调权系数与内容长度的对应关系可 采用如(len1,w1),(len2,w2),(len3,w3)……(lenn,wn)等以(长度、调权系数)的形式 来表示。

进一步地,如上文所述,回答内容的段落数与调权系数也密切相关,它 可以体现答案文本的结构化的好坏程度,具体地可采用线性增加的形式计算 不同数量的段落对应的调权系数,可参考如下公式:

其中,pradio是段落调权基数;pnum是当前答案段落数;ptop是设定的答 案段落数阈值,w段落为计算得到的所述段落对应的调权系数。

进一步地,对于所述非文本特征信息中的富媒体特征信息,即回答内容 中包括诸如图片、地图等特征信息,则直接在所述回答内容的基本权重上进 行加权。同样,对于包括追问追答信息的回答内容,根据所述追问追答内容 的长度信息、段落数目以及富媒体特征信息等进行相应调权处理。

就提交所述回答内容的用户特征信息而言,其中所影响加权或降权系数 的特征主要包括用户等级和用户采纳率。

分别而论,通常用户等级越高,该回答内容质量高的可能性越高,但是 到一定程度,则渐趋平缓,可参考图3,图3为根据本发明优选实施例的用 户等级和回答内容的质量的关系曲线图,如图3所示,回答内容的质量随着 用户等级的增长呈现出先激增再平缓渐进的变化趋势,可采用如下公式(即 对数计算的形式)计算用户等级所对应的调权系数:

其中,levelradio表示用户等级加权因子,ulevel表示该用户的等级,toplevel是设定的最高用户等级,w用户等级表示所述用户等级对应的最终调权系数。

进一步地,用户采纳率即用户的回答被采纳的概率,其可以衡量该用户 历史回答内容的质量,根据该用户历史回答内容被采纳的情况,可以预测该 用户贡献高质量答案的可能性,对此可采用如下公式(即对数计算的形式) 计算所述用户采纳率对应的调权系数:

其中,good_rateradio代表用户采纳率加权因子;good_rate代表该用户采 纳率;topgood_rate是设定的最高用户采纳率值,w采纳率表示所述用户采纳率 对应的最终调权系数。

就浏览所述问题及回答的用户行为特征信息而言,其中影响加权或降权 系数的特征主要包括回答好评数、用户致谢语的倾向性特征,和追问追答里 面的致谢倾向性特征等。

其中,回答好评数作为用户行为特征信息的一个特征,用于刻画用户对 回答的反馈信息,主要体现用户对看到的某个回答的好评价数据,该特征与 调权系数之间的关系类似于上述用户采纳率与调权系数之间的对应关系,即 同样可以采用对数计算的方式,为简明起见,在此不再累述。

就所述回答自身的特征信息中的文本特征信息而言,其中影响加权或降 权系数的特征主要包括特殊标记特征、核心表意词特征、疑问倾向特征和无 意义特征、致谢倾向性特征。下文将就这四个特征进行详述。

对于回答内容中包括诸如《》、“”、<>等特殊标记特征的,则进行相应 加权处理。

其中,所述核心表意词是指逆向文件频率权重超过一定阈值并经过停用 词、符号、短数字字母串等过滤的核心词。在本实施例中,对所述核心表意 词在调权机制上的分析主要包括两个步骤:1)生成核心词表;2)匹配核心 词。

具体地,就步骤1)而言,主要通过统计问题标题中的词频信息并进行 过滤(例如过滤其中的停用词、符号、短数字字母串等),计算词的idf(逆 向文件频率,inverse document frequency)分布并形成包含逆向文件频率权重 信息的词汇表。

就步骤2)而言,主要分为如下几个步骤进行:

ⅰ)设定一定阈值,提取所述问题标题中权重大于所述阈值的词并按权 重进行排序,保留排名靠前的最多2个核心词(简称为词1,词2);

ⅱ)在所述形成的核心词表中,扩充所述词1或/和词2的同义词;

ⅲ)调整所述词1、词2的权重,如果两个词的idf权重相差较大,则对 词2进行降权处理,以突出表意能力强的关键词的影响;

ⅳ)取回答最多前N个字节与所述保留的核心词进行匹配,并将匹配的 idf权值分档平滑映射到指定区间上,以避免过长的回答的后部分内容的噪声 对核心词的匹配产生影响。

其中,所述疑问倾向特征和无意义特征是指回答内容中包含有疑问倾向 或内容本身无意义的情形。通常,回答内容中之所以带有疑问倾向是因为问 题不清楚。举例来看:

(1)问题:商标注册无效怎么办?

回答:这个得看您商标是什么原因无效的。

(2)问题:代理神仙道这跨网页游戏需要多少钱?具体需要什么?

回答:网友需要什么代理?

(3)问题:请问我的excel为什么变成了下面两种图标,更改了打开方 式也没有用?

回答:没有见过这样的图标,不好意思,帮不了忙。

由上述三个例子来看,(1)和(2)中的回答内容属于包含有疑问倾向 的情形,(3)中的回答内容则属于内容本身无意义的情形。

对于包含所述疑问倾向特征和无意义特征的回答,主要通过词表匹配的 形式,在有限回答长度范围内,命中关键词串,进行相应的降权处理。

其中,所述致谢倾向性特征包括用户在回答中的正向、负向或其他类型 的评价信息。分析该特征与调权系数之间的关系时,首先,通过统计回答中 的致谢语词频,并通过诸如人工审阅(review)的方式获取明显表征正负评 价信息的倾向性词典;其次,匹配倾向性词典,根据正向评价优先于负向评 价的原则进行倾向性判定,如果判定的结果为命中正向词汇,则进行加权; 命中负向词汇,则不进行加权;否则,对于该回答不包括所述倾向性词典信 息的情形,则基于上文所述的其他情形进行相应加权处理。

总的来说,基于上文所述的基础上,本实施例中的加权或降权机制还包 括以下情形:

所述回答自身的特征信息的权重过低,降权;

提交所述回答内容的用户特征信息的权重过低,降权;

回答是推荐回答、最佳回答等,加权;

短回答包含特殊标记的词汇或者短语,加权;

对于追问追答情况,根据不同的比例进行不同的加权。

基于上述罗列的基本加权与降权的方式,在计算的原始回答权重的基础 上,对回答进行相应的加权与降权处理,生成所述回答内容的最终权重。

步骤S104,基于所述最终权重对所述所有回答内容进行综合评价。

具体地,根据所述最终权重对所述所有回答内容进行排序,排名靠前的 回答内容则将其评价为最佳回答,排名靠后的回答内容则将其评价为次优回 答,并优选按照排序在页面上从高到低展示所述回答内容及相关信息。

与现有技术相比,本发明所提供的方法具有以下优点:回答按照对提问 的价值自动排序的方法使得优先展现对问题有价值的回答成为可能,该方法 可优化千万级数量问题下回答的排序方式,使得浏览用户优先看到对解决问 题更有帮助的回答,从而减少浏览用户在到达页面后满足需求的时间和查找 精力成本,优化浏览体验,提升浏览满足度。

根据本发明的另一个方面,还提供了一种问答社区内回答评价系统,请 参考图4,图4为本发明另一个优选实施例的回答社区内回答评价系统的示 意性框图。如图4所示,该系统包括:

信息获取单元401,用于获取问题及所述问题下对应的所有回答内容及 与所述回答内容相关的多维信息;

基本权重计算单元402,通过纳入回归模型,基于对各维信息进行独立 加权的方式计算每个回答内容的基本权重;

权重调节单元403,用于综合各维信息的相互影响,确定相应的调权机 制调节所述获取的基本权重,得到每个回答内容的最终权重;

回答评价单元404,基于所述最终权重对所述所有回答内容进行综合评 价。

下面,对本发明所提供的各单元的工作过程进行具体说明。

具体地,为了更好地对问答社区内的回答信息的价值进行评价,所述信 息获取单元401基于网络获取问答社区内所有问题及所述问题下对应的所有 回答内容及相关信息,具体获取的方式在此不作限制。与所述回答内容相关 的多维信息主要包括:所述回答自身的特征信息、提交所述回答内容的用户 特征信息、浏览所述问题及回答的用户行为特征信息。其中,所述回答自身 的特征信息包括非文本特性信息和文本特征信息;所述提交所述回答内容的 用户特征信息包括用户等级和用户采纳率;所述浏览所述问题及回答的用户 行为特征主要指该用户对回答的评价性信息,例如常见的回答好评数、回答 中的致谢语以及追问追答中的致谢语等,该信息可以刻画该用户对该回答的 反馈信息。

其中,所述回答自身的特征信息中的文本特征信息主要包括:特殊标记 特征、核心表意词特征、疑问倾向特征和无意义特征、致谢倾向性特征。

其中,所述回答自身的特征信息中的非文本特征信息主要包括:所述回 答内容的长度信息、所述回答内容的段落数目、富媒体特征信息或/和追问追 答信息。其中,富媒体特征信息主要指回答内容中诸如图片、地图等特征信 息。

获取上述多维信息后,基于上述多维信息衡量每个回答内容的质量,并 由基本权重计算单元402通过下述计算公式计算每个回答内容的基本权重, 即纳入回归模型,对所述各维信息进行线性加权计算。计算公式如下:

scoreini=radio1×dimesion1+…radioi×dimesioni+…radion×dimesionn

其中,radio1、radioi、radion分别代表各维信息的调权因子, dimesion1、dimesioni、dimesionn分别代表各维信息的权重,scoreini表示基 本权重。其中各维信息主要指:所述回答自身的特征信息、提交所述回答内 容的用户特征信息、浏览所述问题及回答的用户行为特征信息。通过上述公 式的计算,可以获取每一个回答内容的基本权重。

其中,所述权重调节单元403综合各维信息对回答内容的质量所产生正 面或负面的影响。确定相应的加权或降权机制以调节所述获取的基本权重, 具体地,在每个回答内容的基本权重上确定相应的加权或降权系数,两者的 乘积即为最终获得的权重。具体的计算公式可以参照下文:

score=w1×…wm×scoreini

其中,w1、wm表示调权系数,scoreini表示基本权重,score表示最终权 重。其中,所述加权或降权系数与各维信息中的具体特征相关。由于各特征 与调权系数之间的关系如上文所述,为简明起见,不再详述。

其中,所述回答评价单元404根据所述最终权重对所述所有回答内容进 行排序和评价,将排名靠前的回答内容评价为最佳回答,排名靠后的回答内 容评价为次优回答。

优选地,该系统还包括展示单元,用于根据最终权重的排序,在页面上 从高到低展示所述回答内容及相关信息。

本发明所提供的该系统具有以下优点:本系统通过基本权重计算单元和 权重调节单元的处理,可以较好地挑选出对问题有较高价值的回答,并可以 按照价值的排序为用户提升问答平台的展示体验。

以上所揭露的仅为本发明的较佳实施例而已,当然不能以此来限定本发 明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖 的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号