关于维基百科内容质量的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

维基百科是一种基于Wiki技术的，用不同语言写成的网络百科全书。随着Web2.0技术的快速发展，维基百科所收录的文章数量和参与编辑的作者数量日益增多。事实证明其中大部分的信息都是可信的，为广大互联网用户提供了方便的内容服务，并作为科研和工业研发中的知识库所广泛使用。然而由快速发展而引起的信息和数据膨胀正在引起业界的重视，同时，维基百科的数据量也呈现着爆发式的增长。在这种情况下如何保证其提供内容的质量、准确性和可信度将成为一个亟待解决的问题。本文从这个角度出发，对维基百科中争议性的条目和非正常编辑行为进行了挖掘，给出了有效的解决方案。
　　在争议性条目挖掘的方面，维基百科的一些文章的用户对同一条目可能持有不同的见解，从而产生对该条目意见上的分歧。发现此类争议性并将其解决无疑将保证维基百科的内容质量，避免因任何用户的偏激行为，促使信息的不准确。我们选取了维基百科的编辑历史作为研究对象，针对编辑历史中所提供的信息，提取与争议度有关的元数据。这种形式相较于传统的针对文本自身的挖掘形式更具效率和可操作性。在对争议度进行评分时，除了从文章自身角度分析之外，我们引入与用户角色结合的方式计算文章的争议度得分。并给出对应的排序模型来研究这类用户的有效性。在爬取得到的维基百科数据集上对本文的方法进行了实验，结果与其他基准模型相比有所提升，从而验证了基于用户特性的排序模型的有效性。
　　在恶意行为发掘的方面，最初的人工发现模式有着效率低，耗费资源等缺点，为了提高维基百科的内容质量，保证用户的体验，基于机器学习的反恶意修改方法开始被应用于这个领域。然而，这其中的大部分方法均从引入更多类型的特征出发，不断挖掘的新特征使得特征集合不断膨胀，从而增加了运算的复杂度降低了效率。因此，如何在最大程度上利用现有的特征，并充分的挖掘其可用性和有效性就是本文要解决的问题。在本文中，我们引入了特征变换技术来分析现有的特征，并提出了一种基于特征变换来整合已有特征从而实现恶意行为挖掘的方法。在公开数据集PAN-WVC-10上的实验结果证明了本文所提出的方法的有效性。

著录项

作者
常天舒;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机应用技术
授予学位硕士
导师姓名林鸿飞;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
维基百科; 争议性排序; 反垃圾; 社会网络分析;

相似文献

中文文献
外文文献
专利

1. 协同知识生产社区的内容质量评估模型研究——以维基百科为例 [J] . 张博 ,乔欢 . 现代情报 . 2015,第010期
2. 协同知识生产社区内容质量评估研究综述*--基于维基百科 [J] . 张博 ,乔欢 ,张新智 . 情报杂志 . 2015,第002期
3. 用户自生成内容质量能影响顾客品牌契合吗?——基于虚拟品牌社群的研究 [J] . 张静 ,马跃如 ,蒋珊珊 . 财经理论与实践 . 2021,第003期
4. 数字出版物内容质量研究 [J] . 郭新义 . 出版参考 . 2021,第006期
5. 优化语文微课的内容质量与传播效果的策略研究 [J] . 杨玉英 . 学周刊 . 2020,第003期
6. 图书内容质量评价指标体系构建研究 [C] . LIU Dan-ni ,刘丹妮 ,CUI Li-xin . 第十一届中国软科学学术年会 . 2015
7. 在线问答社区用户贡献内容质量的评价模型和影响机制研究 [A] . 赵颖慧 . 2020

关于维基百科内容质量的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅