首页> 中文学位 >关于维基百科内容质量的研究
【6h】

关于维基百科内容质量的研究

代理获取

目录

声明

摘要

1 绪论

1.1 关于维基百科

1.2 研究目的及问题描述

1.2.1 研究目的

1.2.2 问题描述

1.3 研究现状

1.4 论文组织结构

2 相关理论基础

2.1 争议性排序方法

2.1.1 互增强理论

2.1.2 算法思想

2.1.3 排序模型

2.2 特征变换理论

2.2.1 特征变换的概念

2.2.2 特征抽取方法

3 基于特殊角色的维基百科争议挖掘

3.1 问题概述

3.2 用户角色定义

3.2.1 争议性用户

3.2.2 强争议性用户

3.3 排序模型

3.3.1 静态排序模型

3.3.2 基于用户角色的争议排序模型

3.3.3 基于用户角色与ACR融合的争议排序模型

3.4 实验设计

3.4.1 数据集

3.4.2 评价方法

3.5 实验结果

3.5.1 参数选择

3.5.2 角色模型的实验结果

3.5.3 融合模型的结果

3.6 本章小结

4 维基百科恶意修改行为挖掘

4.1 任务背景及动机

4.2 基与特征变换的恶意行为识别

4.2.1 原始特征集合构造

4.2.2 特征变换

4.3 实验设计

4.3.1 数据集及实验方法

4.3.2 评价方法

4.4 实验结果

4.4.1 实验结果

4.4.2 实验分析

4.5 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

维基百科是一种基于Wiki技术的,用不同语言写成的网络百科全书。随着Web2.0技术的快速发展,维基百科所收录的文章数量和参与编辑的作者数量日益增多。事实证明其中大部分的信息都是可信的,为广大互联网用户提供了方便的内容服务,并作为科研和工业研发中的知识库所广泛使用。然而由快速发展而引起的信息和数据膨胀正在引起业界的重视,同时,维基百科的数据量也呈现着爆发式的增长。在这种情况下如何保证其提供内容的质量、准确性和可信度将成为一个亟待解决的问题。本文从这个角度出发,对维基百科中争议性的条目和非正常编辑行为进行了挖掘,给出了有效的解决方案。
  在争议性条目挖掘的方面,维基百科的一些文章的用户对同一条目可能持有不同的见解,从而产生对该条目意见上的分歧。发现此类争议性并将其解决无疑将保证维基百科的内容质量,避免因任何用户的偏激行为,促使信息的不准确。我们选取了维基百科的编辑历史作为研究对象,针对编辑历史中所提供的信息,提取与争议度有关的元数据。这种形式相较于传统的针对文本自身的挖掘形式更具效率和可操作性。在对争议度进行评分时,除了从文章自身角度分析之外,我们引入与用户角色结合的方式计算文章的争议度得分。并给出对应的排序模型来研究这类用户的有效性。在爬取得到的维基百科数据集上对本文的方法进行了实验,结果与其他基准模型相比有所提升,从而验证了基于用户特性的排序模型的有效性。
  在恶意行为发掘的方面,最初的人工发现模式有着效率低,耗费资源等缺点,为了提高维基百科的内容质量,保证用户的体验,基于机器学习的反恶意修改方法开始被应用于这个领域。然而,这其中的大部分方法均从引入更多类型的特征出发,不断挖掘的新特征使得特征集合不断膨胀,从而增加了运算的复杂度降低了效率。因此,如何在最大程度上利用现有的特征,并充分的挖掘其可用性和有效性就是本文要解决的问题。在本文中,我们引入了特征变换技术来分析现有的特征,并提出了一种基于特征变换来整合已有特征从而实现恶意行为挖掘的方法。在公开数据集PAN-WVC-10上的实验结果证明了本文所提出的方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号