异构复制的市场需求和难点
在开源软件及信息技术路线多样化发展潮流下,数据复制异构场景逐渐增多。在我国,随着国产化趋势的蓬勃发展,国内信息基础设施厂商百家齐放。如今,经过近二十年的积累和发展,我国信息技术产业整体国产化取得了较大的发展,涌现了大批国产存储、数据库、云资源等信息基础设施供应商。
据统计,2010 年以来,新成立的国产存储企业超 15 家,2015 至 2020 年间,新成立的国产数据库企业达 33 家,截至2021 年 5 月的国产数据库企业共计 80 家,且2020年国外数据库在我国数据库市场的市场份额已降至 52.6%。
存储方式和数据库类型的变革,以及厂商数量和品牌的增加使企业的信息系统日益复杂,再加上虚拟化和云化、数据安全要求提高和信创的快速发展,都给跨平台、跨品牌的数据复制异构市场带来巨大机遇。
但是,异构复制因为技术和产品架构的不同,数据复制过程中存在数据库、操作系统、桌面用户数据、迁移过程的复杂性、大量非结构化数据、迁移过程的安全性等诸多挑战,其中以数据库为代表的异构复制难题包括:
异构数据库差别大:异构数据库架构差距大,兼容性差。
数据一致性:如何对比数据,保障数据一致性。
异常处理:违反数据库规范。
存量数据庞大:存量数据巨大,内部数据情况不清晰,数据治理难度大。
字符集转换问题:字符集不兼容,中英文转换难。
空值和空字符串:⽬标端究竟⽤哪种值表⽰源端的空值/空字符。
特殊字符处理:特殊的字符,诸如单引号、双引号、换行、斜杠、反斜杠等。
复制性能要求高:存量、增量数据复制效率要求高。
工具本身的局限性:大/长事务、DDL、健壮性。
在实际异构复制场景中,遇到的挑战要比这些更为复杂,投入的资源也更多。为此,通过异构复制标准制定,以及挑选出适合项目本身的复制工具和服务团队,将有利于提升异构环境下的数据迁移和复制成功率,为复制后的容灾、备份、演练、测试、数据分析等打下坚实基础。
异构数据复制工具及实践
英方软件基于动态文件字节级、数据库语义级、卷层块级三大复制技术,为用户构建多层次的异构复制方案,并推出了多种组合、多层级的异构数据复制工具。
文件级复制工具:对应用透明,可实现连续实时数据复制,并严格保证数据的一致性和完整性。
数据库级复制工具:图形化操作界面,对生产库性能影响小,可实现各类异构数据库之间的数据实时复制,是一款面向异构数据库、大数据平台的数据库逻辑复制解决方案。
大数据平台级复制工具:可实现不同的Hadoop平台间的HDFS文件以及HIVE数据库的迁移和复制。
系统级迁移工具:在应用和系统迁移的过程中,源机无需停止应用或者系统,业务不受影响,且支持本地或者长距离远程迁移,以及兼容系统内的各类常见与不常见的应用。虚拟化方面支持无代理方式迁移VMware虚拟机到国产虚拟化平台。
NAS级和对象存储级复制工具:首先是面向对象存储数据复制工具,可实现NAS到对象存储、 对象存储之间、以及对象存储到NAS的数据迁移和复制。其次是面向NAS存储的复制工具,可实现异构NAS存储之间的迁移和复制;支持定时和准实时的复制。
上述不同层级的复制工具,在英方与用户的合作的实践场景中,其性能、稳定性、兼容性和复制成功率,都得到了很好的印证,具体如以下四大实践场景:
实践一:文件异构复制
以某头部证券 NAS 到对象存储的文件迁移项目为例,其生产系统是影像系统,包含3.3亿个海量小文件,总数据量高达60TB。英方按照不同桶或桶内路径拆分多条规则等方式并发传输,提高了券商的迁移效率。且方案支持全量和增量同步,迁移过程不影响前端生产。
实践二:数据库异构复制
异构数据库的复制,其应用场景可细分为“异构平台经Kafka或直接复制迁移、异构数据融合与异构数据库迁移”。
以某省医保数据上云项目为例,项目涵盖了全省八千多万人的医保数据,上云数据量超百 TB,且涉及到多种类型的数据同步,多种异构数据源。方案通过英方 i2Stream 数据流复制管理产品,将 Oracle 数据库同步至腾讯 TDSQL 分布式数据库中,将复杂分散的地市州医保数据同步到省医保核心数据库中,保证了数据完整性和一致性。且数据同步速度最快能够达到 20 万行/秒。
实践三:整机异构复制
整机迁移即操作系统迁移,该场景整合了字节级迁移与块级两种复制技术,可为用户提供整机在线热迁移。
以某大型运营商云存量资源海量迁移项目为例,通过英方多种迁移产品,为本次大规模迁移中的每个企业提供了 1 对 1 的专业的驻地迁移技术服务,将三个存量资源池中包括 4000+ 企业、100+ 自有业务在内总量 14000+ 的云主机迁移到新的资源池。英方软件帮助用户实现了“对接客户、迁移调研、资源开通、方案制定、迁移实施、迁移割接”等一站式全流程交付。
实践四:HDFS异构复制
以某城市银行大数据实时同步项目为例,该行基于 CDH 重新建设了全新的统一运维分析平台,英方通过 i2COOPY for HDFS 产品,为该客户基于 CDH 建设的大数据平台,实现 HDFS 以及 Hive 数据在跨 CDH集群之间的实时同步。预计方案实施后,该行全量同步性能可达534.7 MB/s,增量同步性能可达114.0 MB/s。
国产数据库容灾备份
异构复制的核心场景之一是数据库异构复制。目前得益于信创产业的快速发展,产生了很多从国外数据库到国产数据库复制的需求。然而,在海量业务数据通过类似英方i2Stream产品将数据复制到国产数据库后,如何通过国产灾备软件或一体机,将国产数据库数据容灾备份保护好,是企业 CIO 正在面临的课题。
但从技术维度看,国产数据库的容灾备份,与传统的 Oracle、MySQL、SQLSever、DB2 等数据库的容灾备份,在技术路线上并没有太多不同。例如备份还是依靠数据库开放的备份接口进行定时或持续的数据备份,只是在这个过程中,技术人员面对的场景是从国外数据库和容灾备份产品,转向 GaussDB、达梦、人大金仓、达梦集群、南大通用、神舟通用、易鲸捷、优炫、瀚高等国产数据库和英方软件等容灾备份产品。
而具体实现的功能,如备份领域还是包括诸如备份策略、传输压缩、加密、重删、归档、远程复制等基础功能,以及永久增量备份,快速挂载恢复等。如下所示英方针对数据库备份的架构图,在数据文件复制至备份服务器后,首先需要进行备份数据的合并,随后生成数据快照,在生产数据发生故障后,可通过快照克隆出副本后以挂载方式实现即时恢复。
小结
IDC 报告显示,2021 年中国数据复制与保护市场规模约合人民币 37.86 亿元。在国产基础软件逐渐增加和软硬件解耦的趋势下,异构复制正在迎来非常大的市场机遇,并对解决用户数据孤岛,实现数据互联互通,以及大量数据应用带来实实在在的帮助。
而基于安全发展的需要,异构复制后的灾备保护,将遵循行业发展规律,特别是在国产化备份、国产进口替代方面,拥有极大的发展潜力。
英方软件将一如既往围绕用户需求,通过多层次、多策略、全域的数据复制及容灾备份产品方案,帮助用户实现数据安全地传输,打造高可用的实时数据架构,最终提升用户业务的竞争力。