首页> 中国专利> 一种基于Web页面的大规模数据生成方法及系统

一种基于Web页面的大规模数据生成方法及系统

摘要

本发明公开了一种基于Web页面的大规模数据生成方法,通过将原始小规模种子网页按长度分类的方式,依据原始网页的长度和词频信息生成大规模的文本数据,入出度生成和URL赋值,则根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值,利用已有入出度值向网页中插入URL,使得在生成的数据中,入度的总和是等于出度的总和。通过提取小规模的真实数据的特征来生成大规模的相对真实可靠的数据来提供给数据中心的应用,从而使得到的研究结果有更加真实。

著录项

  • 公开/公告号CN103678495B

    专利类型发明专利

  • 公开/公告日2017-04-12

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN201310576331.5

  • 申请日2013-11-18

  • 分类号G06F17/30(20060101);

  • 代理机构11006 北京律诚同业知识产权代理有限公司;

  • 代理人祁建国;梁挥

  • 地址 100190 北京市海淀区中关村科学院南路6号

  • 入库时间 2022-08-23 09:54:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-04-12

    授权

    授权

  • 2014-04-23

    实质审查的生效 IPC(主分类):G06F 17/30 申请日:20131118

    实质审查的生效

  • 2014-03-26

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号