法律状态公告日
法律状态信息
法律状态
2020-08-11
授权
授权
2017-06-06
实质审查的生效 IPC(主分类):G06F17/30 申请日:20160905
实质审查的生效
2017-05-10
公开
公开
技术领域
本发明涉及一种基于观点语句可信度的话题观点强度计算方法,用于量化表征互联网中与话题有关观点的强度,属于互联网与信息技术领域。
背景技术
随着网络技术的飞速发展,互联网日益成为人们获取信息和日常娱乐的主要途径。在日常的学习和生活中,人们越来越依赖于从互联网中获取知识、掌握时事,越来越需要借助互联网了解围绕某一热点话题的不同观点。在互联网中,网页是最常见的信息载体,也是联系信息和网民的纽带。然而,由于互联网中的网页数量众多,每个人的精力相对有限,因此受时间和精力等因素制约,人们往往无法深入了解围绕某一话题的所有观点的细节。现有的话题检测与跟踪(Topic Detection and Tracking)技术,多侧重于对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪等方面,还少有专门针对话题的不同观点进行话题观点强度计算方面的有效方法。
如果可以区分不同的话题观点,借助适宜的方法计算这些观点强度,并通过观点强度来揭示大众观点和小众观点,人们就能够更加迅速在了解和勾勒出话题的全貌,并可以进一步根据自己的兴趣偏好,有选择性地了解话题不同观点的观点细节。例如,当人们在搜索某个热点事件的时候,通常受时间和精力的限制只能够阅读少数几个或者几十个网页,这样就难以通过有限的网页了解该热点事件的所有观点及每一观点的支持比例。但是,如果可以根据与话题有关的网页进行自动分析计算,进而获得围绕该话题的不同观点及其观点强度,则可以方便人们快速、理性地认识事件的主流观点与看法。因此,亟需设计一种能对网页进行自动处理的话题观点强度计算方法,定量地计算话题不同观点的观点强度,既能呈现话题的全貌,又能展示话题不同观点的细节。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供了一种基于观点语句可信度的话题观点强度计算方法,该方法能够计算话题不同观点的观点强度,方便用户定量地了解围绕话题的不同观点的观点强度大小,区分主要观点和次要观点,有选择地去了解不同观点的细节信息。
技术方案:一种基于观点语句可信度的话题观点强度计算方法,先通过网页的多个关键属性计算出网页的可信程度(简称网页可信度),接着通过计算网页中观点语句(包含有观点的语句)和网页主题的关联性,获得网页主题(主要是标题和关键词)对于观点语句的支持度,然后综合网页可信度和观点语句支持度得到观点语句的可信度,最后通过对隶属于给定观点类的所有观点语句的可信度进行求和,计算得到该话题观点类的观点强度。
假设围绕某话题的观点共分为n(≥1)类,由这n个观点类所构成的集合VCS={VC1,VC2,VC3,...,VCn},其中任一观点类VCi(VCi∈VCS)包含Ci(≥1)个观点语句,即
步骤1:网页可信度计算。对m个网页中的每一个网页dk(dk∈VCD),综合考虑网页dk的多个关键属性,主要包括网页dk的NPR因子、网页dk的NTR因子、以及网页dk的时间因子,计算出网页dk的网页可信度;
步骤2:观点语句支持度计算。对于VCi中任一观点语句
步骤3:话题观点强度值计算。综合步骤1得到的网页dk的网页可信度,以及步骤2得到的网页dk对观点语句
有益效果:本发明与现有技术相比,具有以下优点:
1.通过观点语句支持度表征观点语句和网页主题的关系,并从观点语句和网页标题之间的相似度以及观点语句和网页关键词之间的相似度两个方面,更加合理地刻画网页主题对观点语句的支持程度;
2.给出了话题观点强度的量化计算方法,综合考虑了网页的可信度和网页对话题观点语句的支持程度,能够帮助用户定量地了解话题不同观点的观点强度,区分主要观点和次要观点,加深对话题观点的细节认识。
附图说明
图1为基于观点语句可信度的话题观点强度计算流程;
图2为话题观点类、观点语句和来源网页的对应关系示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明主要根据观点语句可信度对话题观点强度进行计算,具体计算流程如图1所示,包括三个步骤:网页可信度计算、观点语句支持度计算和观点强度值计算阶段。假设围绕某话题的观点共分为n(≥1)类,由这n个观点类所构成的集合记为VCS={VC1,VC2,VC3,...,VCn},其中任一观点类VCi(VCi∈VCS)包含Ci(≥1)个观点语句,即
不失一般性,下面对任一话题观点类VCi(VCi∈VCS)的观点强度进行计算,具体三个实施步骤如下:
步骤1:网页可信度计算。对于网页集合VCD中的每一个网页dk(dk∈VCD),综合考虑网页dk的多个关键属性,主要包括网页dk的NPR因子、网页dk的NTR因子、以及网页dk的时间因子,采用公式(1)计算出网页dk的网页可信度DRW(dk);
DRW(dk)=λ1NPR(dk)+λ2NTR(dk)+λ3T(dk)>
公式(1)中的3个系数λ1、λ2和λ3满足:
网页dk的NPR因子计算基于Google搜索引擎所采用的链接分析算法PageRank,该算法为用户的浏览行为建立了一个随机访问模型:当用户访问一个网页的时候,或者以概率g沿着超链接进行访问,或者以概率(1-g)从一个新的页面开始访问。而一个页面被访问的概率,主要取决于链接到这个页面的页面访问概率。如果一个页面的入链越多,或者入链的PR值(即PageRank值)越高,则该网页的PR值越高。网页的PR值的取值范围为PR∈[0,10),对网页的PR值进行归一化处理,可以得到该网页的NPR(New>k的NPR因子的计算如公式(2)所示,其中PR(dk)表示网页dk的PageRank值(即PR值):
网页dk的NTR因子计算基于垃圾网站检测算法TrustRank,该算法为每个网站计算一个TR值,该值的高低与网站是垃圾网站的概率大小有关。TrustRank算法首先挑选出一定数量的“种子”网站,并赋予这些“种子”网站很高的TR值;这些“种子”网站链接出的网站的TR值稍微降低,但仍旧很高;类似地,第二层权威网站链接向第三层权威网站,则第三层权威网站的TR值比第二层权威网站的TR值又稍微降低。那么,TR值与第一层权威网站相差较大的网站有很大的可能性是垃圾网站。本发明对TrustRank算法进行简化处理,假定AP是权威专业网站的集合(包括域名为edu、org、以及挑选出的其他权威网站,如新华网、人民网、科学网、知乎等),当网页属于AP时,其NTR值设为α(在本发明中α的值取1);否则,该网页的NTR值设为0。则网页dk的NTR因子的计算如公式(3)所示:
网页dk的时间因子基于这样的考虑:网页的可信度高低,与网页的发布时间有密切的关系。对于同样的信息,发布时间较晚的网页,搜集到的资料更加丰富和全面,自然更加能够反应事物的本质信息。所以,发布时间较晚的网页具有更高的可信度,相对应地,应该为发布时间较晚的网页设置更高的可信度权重。网页dk的时间因子计算如公式(4)所示:
其中,td表示网页dk的最后修改时间,而tmax表示集合VCD中修改时间最晚的网页的修改时间。
步骤2:观点语句支持度计算。本发明使用网页标题和网页关键词来表征网页的主题,网页标题可以通过对网页源码的<title>标签获得,而网页关键词则通过对网页正文用TF-IDF算法得到。假设
下面示例利用余弦相似度计算方法,计算观点语句
接着,计算观点语句
然后,利用公式(7)计算VT1和VS1之间的余弦相似度:
类似地,计算网页dk的关键词集合W2相对于词语集合WKS的词语向量
在此基础上,采用公式(8)网页dk的对观点语句
步骤3:话题观点强度值计算。首先,根据步骤1得到的网页dk的网页可信度DRW(dk),以及步骤2得到的网页dk的对观点语句
然后,采用公式(10)对观点类VCi中的所有观点语句的可信度进行求和,计算得到话题观点类VCi的强度值:
机译: 带有放大镜的图像转换器的使用是“无”观点,而不是用望远镜的观点来观察观点或其他观点
机译: 基于消费者数据的驾驶行为,观点和观点
机译: 基于消费者数据的驾驶行为,观点和观点