首页> 外文学位 >Typifying Wikipedia articles.
【24h】

Typifying Wikipedia articles.

机译:典型的维基百科文章。

获取原文
获取原文并翻译 | 示例

摘要

In Wikipedia, each article represents an entity. Entity can have different types like person, country, school, science etc. Although Wikipedia encapsulates category information for each page, sometimes it is not sufficient to deduce the type of a page just from its categories. But, incorporating the clear type information in a Wikipedia page is very important for the users, as it will help them to explore the pages in more organized way. Hence, in my thesis, we explore different standard classification techniques, mainly Naive Bayes and Support Vector Machines and experiment how these techniques can be made more effective for typifying Wikipedia articles by using different feature selection methods. We proposed a method where Wikipedia categories are used as features. Moreover, we combine both words and Wikipedia categories as features in the feature vector, which improves the classification accuracy and out performs the other standard methods as well. To compare our methods we calculate the accuracy of different methods and used well known data mining tool "WEKA".
机译:在Wikipedia中,每篇文章都代表一个实体。实体可以具有不同的类型,例如人,国家,学校,科学等。尽管Wikipedia封装了每个页面的类别信息,但有时仅从其类别中推断出页面的类型还是不够的。但是,将清晰的类型信息纳入Wikipedia页面对于用户而言非常重要,因为这将帮助他们以更有条理的方式浏览页面。因此,在本文中,我们探索了不同的标准分类技术,主要是朴素贝叶斯(Naive Bayes)和支持向量机(Support Vector Machines),并尝试了如何通过使用不同的特征选择方法使这些技术更有效地用于分类维基百科文章。我们提出了一种使用Wikipedia类别作为功能的方法。此外,我们将单词和Wikipedia类别都作为特征向量中的特征进行组合,这不仅提高了分类的准确性,而且还执行了其他标准方法。为了比较我们的方法,我们计算了不同方法的准确性,并使用了众所周知的数据挖掘工具“ WEKA”。

著录项

  • 作者

    Hasan, Quazi Mainul.;

  • 作者单位

    The University of Texas at Arlington.;

  • 授予单位 The University of Texas at Arlington.;
  • 学科 Engineering Computer.;Computer Science.
  • 学位 M.S.
  • 年度 2010
  • 页码 47 p.
  • 总页数 47
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号