首页> 外文期刊>Hans Journal of Data Mining >基于WEB网页文本信息抽取研究与实现
【24h】

基于WEB网页文本信息抽取研究与实现

机译:基于WEB网页文本信息抽取研究与实现

获取原文
       

摘要

本文以传统的信息抽取理论和方法为基础,实现了一种基于XML特征的网页文本抽取方法。研究了一般网页的特征,实现了一种基于XML标签特征的网页提取方法,对网页进行HTML页面标准化,将其转成XML语言,并且根据XML语言的特点,对其内部语言进行转化,从GB转为UTF,并对其进行标准化,然后通过熟悉XML标签的各种特性,对网页文本根据标签进行抽取。
机译:本文以传统的信息抽取理论和方法为基础,实现了一种基于XML特征的网页文本抽取方法。研究了一般网页的特征,实现了一种基于XML标签特征的网页提取方法,对网页进行HTML页面标准化,将其转成XML语言,并且根据XML语言的特点,对其内部语言进行转化,从GB转为UTF,并对其进行标准化,然后通过熟悉XML标签的各种特性,对网页文本根据标签进行抽取。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号