我们建设的数据中台对多源异构数据进行实时采集.平台针对的多个业务数据源系统进行实时数据抽取,部分原始数据源表未做分区、分表,同时,存在没有主键、唯一键,数据变更频率快,表数量多的情况.原始的数据抽取方式为全量数据接入方式和基于全量对比的数据抽取技术.该方式处理效率低下,通常造成数据积压严重,无法达到数据的实时性抽取任务要求.针对该问题,提出一种Change Data Capture(CDC)结合GPKafka的实时数据接入抽取技术,提升了中台数据抽取实时性,达到了零数据积压的数据入库要求.
展开▼