大数据迁移助力金融行业降本增效,提升多云灵活性和SLA
来源:《确定性运维2.0案例集第3期》
一、业务背景
Q公司是亚洲发展势头最为迅猛的金融科技集团之一,专注于开发金融移动应用程序,旨在让人们能够在符合规范的监管环境下,以非传统的方式获取金融解决方案。Q公司当前业务部署在不同云上,为实现降本增效,增加多云灵活性,提升SLA的目标,Q公司与华为云携手,进行数据中台业务迁移的工作,将源端位于某云的大数据服务Holo、MC,Dataworks 迁移至华为云DWS、DLI、DataArts。
对标方案
二、业务现状
大数据搬迁工作主要面临以下四项业务挑战:
1. 数据精度要求高:公司业务涵盖金融交易等核心数据领域,对数据的准确率要求必须达到100%。
2. 总任务数较高:大数据迁移所涉及的对数表数量级庞大,数据对数总表达6000余张;任务数量大,全量任务数达5000余个。
3. 组件Kyuubi在迁移业务中的首次应用:Kyuubi数据解析首次用于迁移业务,需完成0~1突破。
4. 兼容性问题:BI应用SQL语法适配问题。
共性问题适配对比表
三、方案实践
基于华为云在大数据搬迁项目中的丰富经验,针对特定项目开展兼容性调查,并构建了从迁移部署到后期割接的成熟流程。在各个阶段,均有详细方案与技术支持,有力保障项目高效落地。
迁移方案整体流程
1. 准备工作
1) 网络互通:在其他云环境与华为云之间搭建VPN通道进行数据同步。
2) 作业分层梳理:梳理迁移库数据表及其对应的写入作业,并以此作为作业迁移、数据校验以及修复的重要依据。
2. 平台部署
1) 云实例部署:开通数据湖探索(DLI)、数据治理中心 DataArts Studio、云数据迁移(CDM)服务、数据仓库服务(DWS)、对象存储服务(OBS)等。
云实例部署,分析源端业务架构
源端业务架构主要分为三部分。
第一部分数据库:RDS MySQL /PG。
第二部分数据中台:某云实时数仓Hologres、MaxCompute用于计算和存储;大数据平台DataWorks在源端业务架构中作为调度存在。
第三部分应用:MetabaseBI,风控,是基于云的商业智能工具。
最终业务架构
业务架构主要分为三部分。一部分和第三部分,既是数据库部分和数据最终应用部分,仍保留在原平台。第二部分数据中台,实时数仓需要从某云中Holo换至华为云DWS。主要用于计算和存储的某云MC由华为云DLI数据湖承担。DLI数据湖服务可用于海量日志分析、异构数据源联邦分析、大数据ETL处理等场景(数据抽取转换与加载)。其优势包括纯SQL操作,存算分离,以及企业级多租户支持。在业务架构中作为调度存在的DataWorks由华为云DataArts承担。DataArts 作为数据治理中心,为一站式数据开发环境,用户可在该平台上完成整个数据的处理分析流程,包括获取数据、清洗转换处理、分析挖掘和可视化等操作。
2) 集群参数定义与源框架调整:用户定义函数(UDF)和函数的编译、调试及部署。
3) 搭建和对接自建服务:进行DataArts Studio的作业部署及对接调试;实现Kyuubi与数据湖探索(DLI)的对接。详细搭建和对接结构,迁移工具选择方案如下图:
MC 数据迁移
历史数据:每个库表配置1到多个MGC作业迁移历史数据;
T-1增量数据:通过MGC服务查询MC元数据库获取变化的表,配置Spark作业迁移对应的表数据;
MC 元数据迁移
使用MGC服务导出源端MC建表语句,转换后导入华为侧DLI元数据库;
使用MGC服务对比两边元数据差异,同步增量元数据;
DataWorks 作业迁移
使用DataWorks迁移助手导出当前提交态作业,通过MGC作业转换功能转换成DataArts作业,导入作业到DataArts中;
DataWorks运维中心识别每日修改提交作业,同步到华为DataArts;
Holo 数据迁移
采用CDM工具完成历史数据全量迁移;
增量数据由华为侧离线Hive数据生成,定时任务每日导入DWS;
3. 元数据迁移
迁移建表:采用元数据迁移工具,将 MC的建表语句导出后在华为DLI进行重新建表。
4. 数据迁移
1) 存量数据迁移:存量数据由MGC服务迁移到华为云DLI;
2)双写增量数据:将某云各类数据同时双写至 MC 以及华为云数据湖探索服务(DLI),以此完成双云增量原始数据接入。
详细双跑结构如下图:
在大数据迁移中,双跑架构可确保数据的安全和连续性。双跑架构意味着在迁移过程中,数据会同时存在于本地环境和云环境中。这样做可以防止因单一故障点导致的数据丢失或服务中断。如果本地环境出现问题,企业仍然可以从云环境获取数据和服务,从而保证业务的连续性
5. 作业迁移
数仓作业分层:(ODS -> DWD -> DWS -> ADS)调试调度运行,完成作业迁移,并保证作业运行的SLA。
1)数据核对及修复
使用对比工具,从文件及业务两个层面,进行批量对比。
使用CDM服务或MGC工具,针对对比发现不一致的数据分区进行重迁修复。
2)流量切换,整体系统割接
大数据业务持续双跑1周以上,持续进行双跑结果校验比对。
相关数据应用切换数据源,对接至华为云大数据集群。
断开数据源到源端云数据平台连接,由华为云数据平台推数和提供服务。
四、业务提升
在本次迁移项目中,业务提升主要表现在以下方面:
迁移效率保障:为保证数据完整与一致,采用全量迁移、增量迁移、实时同步和定时迁移混合模式,安全地将数据从源系统迁至目标系统。本次项目的数据迁移的转换工具一次性成功率95+%,工期缩短比率约15.22%,人天节省比率约36.35%。
兼容性保障:迁移前充分测试和评估新环境,确保其能兼容现有业务系统,使系统兼容性风险可控。
性能保障:迁移前对新环境进行性能测试和优化,满足业务系统性能需求;迁移过程中密切关注响应时间、吞吐量等系统性能指标,及时解决性能问题。
多云选择优势:可按需选择云服务商,实现数据灵活部署和管理。
五、案例总结
为实现降本增效、增加多云灵活性与提升SLA的目标,Q公司携手华为云进行数据中台迁移。基于华为云在大数据搬迁项目中的丰富经验,从准备工作、平台部署、元数据迁移、数据迁移、作业迁移等阶段构建了从迁移部署到后期割接的成熟流程,最终数据迁移成功。
- 点赞
- 收藏
- 关注作者
评论(0)