首页> 外文学位 >Classification non supervisee des donnees de hautes dimensions et extraction des connaissances dans les services Web de question-reponse.
【24h】

Classification non supervisee des donnees de hautes dimensions et extraction des connaissances dans les services Web de question-reponse.

机译:问答网络服务中的大数据无监督分类和知识提取。

获取原文
获取原文并翻译 | 示例

摘要

Cette these a publication propose d'etudier deux problematiques differentes: (1) la classification non supervisee (clustering) des donnees de hautes dimensions, et (2) l'extraction des connaissances dans les services Web de question-reponse. Nos contributions sont presentees a travers trois chapitres. Dans le premier chapitre, nous proposons un algorithme de projected clustering nomme PCKA (Projected Clustering based on the K-means Algorithm). Contrairement a la vaste majorite des approches existantes, PCKA est capable de decouvrir des structures de clusters qui existent dans differents sous-espaces de faibles dimensionnalites et ce en utilisant une mesure de similarite bien adaptee aux caracteristiques particulieres des donnees multidimensionnelles. La fiabilite de PCKA est illustree a travers des tests et des comparaisons avec les approches existantes sur une variete de donnees synthetiques et reelles. Le deuxieme chapitre aborde le probleme de l'identification des utilisateurs experts dans les forums Internet de question-reponse. Notre contribution inclut le developpement d'une approche probabiliste qui se base sur le modele de melange de distributions de la loi Gamma. Notre approche permet de separer, de facon systematique, les utilisateurs experts des non-experts alors que les approches existantes fournissent une liste ordonnee d'utilisateurs seulement. Le troisieme chapitre etudie le probleme de l'identification des communautes dans les forums Internet de question-reponse. Notre contribution inclut l'introduction du nouveau concept de "communaute de partage des connaissances". Ces communautes sont definies par les interactions entre les utilisateurs experts et non-experts. Pour identifier ce type de communaute nous representons notre environnement sous la forme des donnees transactionnelles et nous proposons un algorithme de clustering nomme TRANCLUS (TRAnsaction CLUStering). Les clusters identifies par TRANCLUS representent les communautes que nous cherchons a decouvrir. Notre approche est validee sur des donnees extraites de plusieurs forums de Yahoo! Answers.
机译:该出版物提出了研究两个不同的问题:(1)高维数据的无监督分类(聚类);以及(2)问答Web服务中的知识提取。我们的贡献分三章介绍。在第一章中,我们提出了一种称为PCKA的投影聚类算法(基于K均值算法的投影聚类)。与大多数现有方法不同,PCKA通过使用非常适合多维数据特定特征的相似性度量,可以发现存在于低维子空间中的簇结构。通过对各种合成和真实数据进行测试和与现有方法进行比较,可以说明PCKA的可靠性。第二章讨论在互联网问答论坛中识别专家用户的问题。我们的贡献包括开发一种概率方法,该方法基于伽玛定律分布的混合模型。我们的方法允许系统地将专家用户与非专家分开,而现有方法仅提供用户的有序列表。第三章研究了在互联网问答论坛中识别社区的问题。我们的贡献包括引入了“知识共享社区”的新概念。这些社区由专家和非专家用户之间的交互作用定义。为了识别这种类型的社区,我们以事务数据的形式表示我们的环境,并提出了一种称为TRANCLUS(TRAnsaction CLUStering)的聚类算法。由TRANCLUS标识的集群代表了我们正在寻找的社区。我们的方法在从多个Yahoo!提取的数据上得到了验证。答案。

著录项

  • 作者

    Bouguessa, Mohamed.;

  • 作者单位

    Universite de Sherbrooke (Canada).;

  • 授予单位 Universite de Sherbrooke (Canada).;
  • 学科 Information Science.;Computer Science.
  • 学位 Ph.D.
  • 年度 2009
  • 页码 119 p.
  • 总页数 119
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 信息与知识传播;自动化技术、计算机技术;
  • 关键词

  • 入库时间 2022-08-17 11:38:25

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号