首页> 外国专利> SELF-LEARNING BASED CRAWLING AND RULE-BASED DATA MINING FOR AUTOMATIC INFORMATION EXTRACTION

SELF-LEARNING BASED CRAWLING AND RULE-BASED DATA MINING FOR AUTOMATIC INFORMATION EXTRACTION

机译：基于自学习的爬网和基于规则的数据挖掘，用于自动信息提取

页面导航

摘要
著录项
相似文献

摘要

Methods and Systems for automatic information extraction by performing self-learning crawling and rule-based data mining is provided. The method determines existence of crawl policy within input information and performs at least one of front-end crawling, assisted crawling and recursive crawling. Downloaded data set is pre-processed to remove noisy data and subjected to classification rules and decision tree based data mining to extract meaningful information. Performing crawling techniques leads to smaller relevant datasets pertaining to a specific domain from multi-dimensional datasets available in online and offline sources.

机译：提供了通过执行自学习爬网和基于规则的数据挖掘来自动提取信息的方法和系统。该方法确定输入信息内的爬网策略的存在，并执行前端爬网，辅助爬网和递归爬网中的至少一种。对下载的数据集进行预处理以除去噪声数据，并进行分类规则和基于决策树的数据挖掘以提取有意义的信息。执行爬网技术会从在线和离线资源中提供的多维数据集中得到与特定领域相关的较小的相关数据集。

著录项

公开/公告号IN2015MU02345A

专利类型
公开/公告日2017-04-21

原文格式PDF
申请/专利权人
展开▼

申请/专利号IN2345/MUM/2015
发明设计人 SIMHA ANANTHA;A V ARUN KUMAR;RATH HEMANT KUMAR;NADAF SHAMEEMRAJ M;
展开▼

申请日2015-06-19
分类号G06F17/00;
国家 IN
入库时间 2022-08-21 13:38:44

相似文献

专利
外文文献
中文文献