首页> 中文期刊> 《天津科技大学学报》 >一种融合本体和最小二乘支持向量机的主题爬行方法

一种融合本体和最小二乘支持向量机的主题爬行方法

         

摘要

There are many implementation approaches to focused crawler. However,it is difficult to maintain a high and stable crawling process. To solve this problem,a focused crawling approach based on ontology and LS-SVM(least squares support vector machine)was proposed. An LS-SVM classifier was created using theproblematic food ontology and applied to the classification of web pages. Experimental results show that the proposed approach can get a higher harvest rate than other focused crawling approaches.%针对现有的主题爬行方法存在收益率不高和不稳定的问题,融合本体和最小二乘支持向量机理论,提出一种主题爬行方法Ontology-LSSVM.该方法将本体作为抓取主题的背景知识表示,得到一组主题相关概念的集合,再将其在网页文本中出现的词频作为输入,构造一个主题相关度 LS-SVM 分类器,用于网页的分类.使用舆论热点的食品安全问题作为爬行主题领域,建立问题食品本体,进行实验.结果表明:在本实验条件下,本文方法相比基于 LS-SVM、基于本体和基于关键字的主题爬行,能够维持更高的收益率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号