首页> 中文期刊> 《计算机科学与探索》 >面向多源数据的可扩展主题建模分析框架

面向多源数据的可扩展主题建模分析框架

         

摘要

随着信息技术的不断发展和应用,大量信息系统积累了海量多源异构数据,这些数据中有很大一部分都是结构化数据,具有高维度、低质量、无标注等特点,难以进行特征提取与进一步的知识提炼.主题建模是文本处理和数据挖掘中的一个非常重要的方法,它是一种无监督学习算法,最初用于对无结构的自然语言文本进行建模,可以有效地从文本语义中提取主题信息,以进行特征提取和降维分析,然而主题建模技术尚不能很好应用在关系复杂的多源数据,尤其是结构化数据的处理中.提出了一个基于可扩展主题建模技术的针对结构化与非结构化多源数据分析框架,通过数据导入、数据分析、数据可视化三个步骤对多源数据进行基于主题建模技术的数据分析,并在此基础上实现了一个多源数据分析工具,最后通过两个数据集的实验证明了所提的多源数据分析框架的有效性.

著录项

  • 来源
    《计算机科学与探索》 |2019年第5期|742-752|共11页
  • 作者单位

    北京大学 信息科学技术学院;

    北京 100871;

    高可信软件技术教育部重点实验室;

    北京 100871;

    北京大学 信息科学技术学院;

    北京 100871;

    高可信软件技术教育部重点实验室;

    北京 100871;

    北京大学 信息科学技术学院;

    北京 100871;

    高可信软件技术教育部重点实验室;

    北京 100871;

    北京大学(天津滨海)新一代信息技术研究院;

    天津 300450;

    北京大学 信息科学技术学院;

    北京 100871;

    高可信软件技术教育部重点实验室;

    北京 100871;

    北京大学(天津滨海)新一代信息技术研究院;

    天津 300450;

    北京大学 信息科学技术学院;

    北京 100871;

    高可信软件技术教育部重点实验室;

    北京 100871;

    北京大学(天津滨海)新一代信息技术研究院;

    天津 300450;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    主题建模技术; 潜在狄利克雷分布(LDA); 结构化数据分析; 可视化;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号