首页> 中文期刊>情报杂志 >基于 PLSA 模型的 Web 页面语义标注算法研究

基于 PLSA 模型的 Web 页面语义标注算法研究

     

摘要

Efficient web-page semantic annotation is the key point to improve the efficient use of web information resource and knowledge innovation. This paper designs a web-page semantic annotation algorithm based on PLSA model according to the structural feature and the text feature existing in web-page to solve the problems of traditional annotation technology. The proposed algorithm constructs PLSA topic model for structural feature and text feature respectively, adopts an adaptive asymmetric learning approach to the integration and optimiza-tion of the PLSA model, forms a new comprehensive PLSA model to semantically annotate the unknown web pages automatically. Experi-mental results demonstrate that this algorithm dramatically improves the accuracy and efficiency of web-page semantic annotation, and can solve the problem of large-scale web-page annotation effectively.%  高效的 Web 页面语义标注方法是提高 Web 信息资源利用效率和知识创新的关键。针对当前 Web 页面语义标注方法存在的问题和 Web 页面表现出的结构特征和文本特征及其主题分布规律,设计了基于 PLSA 主题模型的 Web 页面语义标注算法。该算法分别对 Web 页面的结构特征和文本特征构建独立的 PLSA 主题模型,采用自适应不对称学习算法对这些独立的 PLSA 主题模型进行集成和优化,最终形成新的综合性的 PLSA 主题模型进行未知Web 页面的自动语义标注。实验结果表明,该算法能够显著提高 Web 页面语义标注的准确率和效率,可以有效地解决大规模 Web 页面语义标注问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号