首页> 中国专利> 一种基于快速傅里叶变换的网页正文提取方法

一种基于快速傅里叶变换的网页正文提取方法

摘要

本发明公开了一种基于快速傅立叶变换的网页正文提取方法,包括:读入HTML文件,并将该文件转换为Unicode格式,并存入一个字符数组;对字符数组进行窗口分段;对字符在文档中的位置进行统计学分析,根据结果对字符进行强度编码转换,得到正文强度值,每一个窗口字符段对应一个强度值序列;对强度值序列进行快速傅立叶变换,得到频域的F向量;计算任意两个窗口字符段之间的距离;为窗口字符段设定区间,所述区间是若干个连续的窗口的组合,用数字对(b,e)表示,根据任意两个窗口字符段之间的距离,计算每个区间的权值;对所有区间的权值排序,根据权值选择最佳正文区间。本发明对网页正文提取的准确率高,能有效地区分正文和网页的其他部分。

著录项

  • 公开/公告号CN101237465B

    专利类型发明专利

  • 公开/公告日2010-11-03

    原文格式PDF

  • 申请/专利权人 中国科学院声学研究所;

    申请/专利号CN200710063182.7

  • 发明设计人 王劲林;李蕾;李晔;白鹤;胡晶晶;

    申请日2007-01-30

  • 分类号H04L29/08(20060101);H04L27/26(20060101);G06F17/30(20060101);

  • 代理机构11280 北京泛华伟业知识产权代理有限公司;

  • 代理人高存秀

  • 地址 100080 北京市海淀区北四环西路21号

  • 入库时间 2022-08-23 09:05:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-03-26

    未缴年费专利权终止 IPC(主分类):H04L 29/08 授权公告日:20101103 终止日期:20130130 申请日:20070130

    专利权的终止

  • 2010-11-03

    授权

    授权

  • 2008-10-01

    实质审查的生效

    实质审查的生效

  • 2008-08-06

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号