一万年前,第一次农业革命让人类从食物的采集和狩猎者,变为食物的生产和加工者。一万年后,已经到来的数字革命,则让企业从数据采集和获取者,变为数据的利用和管理者。昨天,数据只是稻草一样的堆叠:1+1+1…+1…而今天,数据正在以指数级的速度激增,并演变成一个不断向外扩张的圈:1<2<4…<65536…根据IDC的相关预计,到2025年,中国的数据总量(圈)将增至48.6ZB,占全球27.8%,成为最大数据圈。所有关于数据的采集、复制、提取、使用等都将被涵盖在这个巨大的圈中。
在数据圈的涟漪不断向外扩散时,也催生出一个异构数据库之间数据复制迁移的刚性需求。根据DB-Engines 发布的2018年9月份全球数据库排名中可以看到, Oracle、MySQL、MicrosoftSQL Server前三甲的位置相对稳定,而第四名到第十名的排名PostgreSQL、MongoDB、DB2、Elasticsearch、Redis、Microsoft Access、Cassandra的竞争则相对激烈,且各数据库之间的差距也在逐渐缩小。
如今,大数据已经进入2.0时代,投入了大量资源的企业已经有能力搭建符合自己的大数据平台,并且通过大数据平台的统计、分析、量化、转换、建模等功能构建自己的数据仓库、数据湖……不断挖掘数据规律,提升业务价值。因此更好的解决数据在不同平台之间的复制这一刚性需求也就成为企业数字化转型的关键。
一、传统数据复制的难点
第一:采集的时间点相对滞后,缺乏实时性。传统的数据采集是按照固定时间点进行采集,通过源端平台提供接入方式与权限发起数据收集动作。因此,获取的数据状态是一个结果为导向的状态,即数据已经落地并成为一个固定的状态。
第二:大数据采集的生产系统或者采集的备端系统,每一次采集都会对生产库进行一次全面的补充操作,对原有系统会产生一定的压力。比如说100G的数据量,读一次数据的时间往往往需要1-2个小时。
第三:数据库之间的不兼容对大数据采集也是一个极大的挑战。大数据采集需要一些外围组件的支配,且需要对不同数据库进行整合。
第四:权限问题。在一个企业中,不同部门的数据场景不同,所以使用权限也就不同。比如投资部门需要分析数据,那么就需要有专门的账号去进行分析。
二、解决思路
1)实时采集。首先,将原来的定时采集变成实时采集,即把数据从静态变成流式动态。利用一套实时的数据采集系统,减轻对生产系统的压力,并且让整个数据生产过程可追踪,并且过程足够的透明。
以英方在某金融机构实时数据复制项目为例,英方数据流同步软件将O32系统数据实时采集解析并发送至kafka集群,同时基于英方高性能、高可用架构,为后端大数据平台提供实时数据源。
2、数据转换。在这个采集的过程中,kafka等消息集群相当于数据的临时存储区或中转站。消息集群的另一个重要的作用就是可以很好地将数据归好类别(现在比较常用的“数仓”或者”数据湖”的作用是建立一个数据分析的语言和数据分析的功能,其核心价值就是为企业提供一种数据平台化运营机制)。要把大数据的增量信息捕捉并进行分析,需要将相关动作在技术层面变成大数据平台能够读懂的一种语言。在这个过程中,英方软件的价值就是将数据库语言转变成大数据平台所识别的消息语言,且这样的消息语言可以变成能够在消息集群上安装的轻量级语言。通过这个流程,大数据平台所扮演的角色实现了进一步的重塑和升华。
3、让数据有迹可循。传统的大数据平台使用的都是已经落地的数据,只能看到结果,但是对于数据产生的一些行为是无法进行推导的。而英方通过大数据平台,可以把所有产生的数据针对不同大数据工具(如hbase、kafka、hive、kudo)实现准实时的入仓,且不仅只传送数据库数据的变化,还能够动态更新数据表结构的变化,从而在时间维度上更及时的进行数据分析,在空间维度上更准确地进行数据推演。这在合规或者分析等场景中都有较大的作用。重要的不是获取数据,而是关于对数据进行分类以获得有价值的见解,大多数接受调查的企业管理人员都表示,通过正确的数据分析将能够改善整个工作流程。
如果说传统大数据采集是一个结果为导向的东西,那么现在大数据采集获取到的不仅仅是一个结果,而是数据落地产生的整个过程。比如,以往用户购买一只股票、一只基金,整个过程只能看到结果,不知道挑选、对比、支付的整个过程。现在,通过英方软件,不但可以知道数据库数据产生的过程,还能将这个过程产生的数据分门别类进行管理。对于审核部门来说,这样的可视化也可以清晰地判断交易流程是否合规的。
在已经到来的今天和即将到来的明天,一切都将转化为数据。这些无处不在的数据已经成为企业、组织生存和发展的源动力,如何保护这些数据,并且有效利用这些数据,将是每个处在数字化转型浪潮前沿的管理者需要考虑的首要问题,没有之一。