5 月 24 日,英方数据万花筒在线课程十八期圆满落幕。本期课程以“赢在创新,英方 CDC 软件实践分享”为主题,由行业部资深技术经理钱哲宇担任讲师,围绕“CDC 日志分析技术、行业痛点与需求、典型场景与案例 ”等议题展开,为观众们带来了一场 CDC 技术的“知识盛宴”。
课程亮点回顾
01 什么是CDC?
CDC 全称为 Change Data Capture,是一种捕获增量数据的技术统称。目前主要应用在捕获数据库数据变更的技术。在数据备份容灾、数据分发、面向数仓的数据集成等场景中广泛应用。
目前,CDC 技术大体分为侵入式和非侵入式。所谓侵⼊式的是指 CDC 操作会给源系统带来性能的影响,基于时间戳、触发器、快照的 CDC 都属于侵入式的范畴;而非侵入式则反之,给生产系统造成的影响微乎其微,基于日志的 CDC 就属于非侵入式。
02 CDC行业的痛点
- 数据库容灾:Oracle、MySQL、MSSQL 等常见数据库的运维十分复杂,需要专业的 DBA,停机窗口过长且难以保障数据的一致性。
- 硬、软件平台升级、迁移:操作系统版本、数据版本各异,还涉及到数据的校验,难以满足金融等行业对于时间窗口的高要求。
- 数据汇总与分发:脚本、ETL 工具不能满足需求、时效性不达标、开源软件无保障、个性化需求无解决方案;
- 异构数据库同步与数仓投递:开源软件无保障、无法满足同步需求。
03英方CDC软件与实践应用
英方 CDC 软件基于数据库日志分析与数据共享技术,满足数据库之间的库级、schema 级、Table 级的数据同步,实现结构化数据的提取、复制、管理等,并且兼容 Kafka 等分布式消息队列,为用户提供灵活的高可用性方案,完美解决上述行业痛点与需求。
△CDC软件架构
该软件产品主要具有四大特点:
-
图形化管理:统一资源管理,支持用户分权分级;
-
流程可视化:支持数据库、业务可视化动态管理;
-
监控告警:可对节点、数据库、规则状态进行实时监控告警;
-
数据解耦:可实现同构、异构数据库以及到大数据平台的数据实时投递。
△CDC软件管理界面
英方作为业内专业的 CDC 技术公司,研发的 CDC 软件产品在同、异构数据库之间数据实时同步,数仓系统数据的实时、批量投递,数据解耦加工处理等场景均有着出色的落地案例。
以某头部券商为例,该券商在上海总部有着同城双活中心,在异地东莞有着灾备中心。英方软件为其建设了灾备项目,共分为两期实施。
一期项目为客户实现上海与东莞异地数据中心之间,Oracle/MySQL数据库之间的异构实时同步。并实现Oracle/MySQL抽取至TDH的kafka并实时消费至kudu数仓。
二期项目源端增加了增加MSSQL、DB2数据库和Hive数仓,为头部券商其实现大数据的实时同步服务。
△某头部券商项目架构
在课程尾声,特别设置了 Q&A 环节,为观众们进行答疑解惑,线上观众热情提问,就CDC技术原理、架构、部署等问题进行了深入探讨。由于课程时间有限,小伙伴们的更多问题我们将在“英方云”公众号后台进行问答回复,以期与更多观众参与,向我们提问互动。