大数据迁移助力金融行业降本增效,提升多云灵活性和SLA

举报
华为云确定性运维 发表于 2024/12/19 16:37:24 2024/12/19
【摘要】 本案例重点介绍某金融企业大数据搬迁项目,从迁移实施流程、实际调研实验,解决内置函数兼容问题,以及对云迁移部署架构解决方案进行分析,提升迁移效率,实现降本增效和多云灵活部署。

来源:《确定性运维2.0案例集第3期》

     一、业务背景

Q公司是亚洲发展势头最为迅猛的金融科技集团之一,专注于开发金融移动应用程序,旨在让人们能够在符合规范的监管环境下,以非传统的方式获取金融解决方案。Q公司当前业务部署在不同云上,为实现降本增效,增加多云灵活性,提升SLA的目标,Q公司与华为云携手,进行数据中台业务迁移的工作,将源端位于某云的大数据服务Holo、MC,Dataworks 迁移至华为云DWS、DLI、DataArts。

图片1.png

对标方案

     二、业务现状

大数据搬迁工作主要面临以下四项业务挑战:

      1. 数据精度要求高:公司业务涵盖金融交易等核心数据领域,对数据的准确率要求必须达到100%。

      2. 总任务数较高:大数据迁移所涉及的对数表数量级庞大,数据对数总表达6000余张;任务数量大,全量任务数达5000余个。

      3. 组件Kyuubi在迁移业务中的首次应用:Kyuubi数据解析首次用于迁移业务,需完成0~1突破。

      4. 兼容性问题:BI应用SQL语法适配问题。

图片2.png

共性问题适配对比表


      三、方案实践

 基于华为云在大数据搬迁项目中的丰富经验,针对特定项目开展兼容性调查,并构建了从迁移部署到后期割接的成熟流程。在各个阶段,均有详细方案与技术支持,有力保障项目高效落地。


图片3.png

迁移方案整体流程

      1. 准备工作

             1)   网络互通:在其他云环境与华为云之间搭建VPN通道进行数据同步。

             2)  作业分层梳理:梳理迁移库数据表及其对应的写入作业,并以此作为作业迁移、数据校验以及修复的重要依据

      2. 平台部署

            1)   云实例部署:开通数据湖探索(DLI)、数据治理中心 DataArts Studio、云数据迁移(CDM)服务、数据仓库服务(DWS)、对象存储服务(OBS)等。 

图片4.png

云实例部署,分析源端业务架构

       源端业务架构主要分为三部分。

       第一部分数据库:RDS MySQL /PG。

       第二部分数据中台:某云实时数仓Hologres、MaxCompute用于计算和存储;大数据平台DataWorks在源端业务架构中作为调度存在。

       第三部分应用:MetabaseBI,风控,是基于云的商业智能工具。

图片5.png

最终业务架构

 业务架构主要分为三部分。一部分和第三部分,既是数据库部分和数据最终应用部分,仍保留在原平台。第二部分数据中台,实时数仓需要从某云中Holo换至华为云DWS。主要用于计算和存储的某云MC由华为云DLI数据湖承担。DLI数据湖服务可用于海量日志分析、异构数据源联邦分析、大数据ETL处理等场景(数据抽取转换与加载)。其优势包括纯SQL操作,存算分离,以及企业级多租户支持。在业务架构中作为调度存在的DataWorks由华为云DataArts承担。DataArts 作为数据治理中心,为一站式数据开发环境,用户可在该平台上完成整个数据的处理分析流程,包括获取数据、清洗转换处理、分析挖掘和可视化等操作。

           2)  集群参数定义与源框架调整:用户定义函数(UDF)和函数的编译、调试及部署。

           3)  搭建和对接自建服务:进行DataArts Studio的作业部署及对接调试;实现Kyuubi与数据湖探索(DLI)的对接。详细搭建和对接结构,迁移工具选择方案如下图:

图片6.png

        MC 数据迁移

        历史数据:每个库表配置1到多个MGC作业迁移历史数据;

        T-1增量数据:通过MGC服务查询MC元数据库获取变化的表,配置Spark作业迁移对应的表数据;

        MC 元数据迁移

              使用MGC服务导出源端MC建表语句,转换后导入华为侧DLI元数据库;

              使用MGC服务对比两边元数据差异,同步增量元数据;

        DataWorks 作业迁移

              使用DataWorks迁移助手导出当前提交态作业,通过MGC作业转换功能转换成DataArts作业,导入作业到DataArts中;

              DataWorks运维中心识别每日修改提交作业,同步到华为DataArts;

        Holo 数据迁移

             采用CDM工具完成历史数据全量迁移;

             增量数据由华为侧离线Hive数据生成,定时任务每日导入DWS;

      3. 元数据迁移

            迁移建表:采用元数据迁移工具,将 MC的建表语句导出后在华为DLI进行重新建表。

    4. 数据迁移

          1)  存量数据迁移:存量数据由MGC服务迁移到华为云DLI;   

          2)双写增量数据:将某云各类数据同时双写至 MC 以及华为云数据湖探索服务(DLI),以此完成双云增量原始数据接入。

    详细双跑结构如下图:

图片7.png

 在大数据迁移中,双跑架构可确保数据的安全和连续性。双跑架构意味着在迁移过程中,数据会同时存在于本地环境和云环境中。这样做可以防止因单一故障点导致的数据丢失或服务中断。如果本地环境出现问题,企业仍然可以从云环境获取数据和服务,从而保证业务的连续性

      5. 作业迁移

 数仓作业分层(ODS -> DWD -> DWS -> ADS)调试调度运行,完成作业迁移,并保证作业运行的SLA。

图片8.png

      1)数据核对及修复

            使用对比工具,从文件及业务两个层面,进行批量对比。

            使用CDM服务或MGC工具,针对对比发现不一致的数据分区进行重迁修复。

      2)流量切换,整体系统割接

           大数据业务持续双跑1周以上,持续进行双跑结果校验比对。

           相关数据应用切换数据源,对接至华为云大数据集群。

            断开数据源到源端云数据平台连接,由华为云数据平台推数和提供服务。

      四、业务提升

       在本次迁移项目中,业务提升主要表现在以下方面:

       迁移效率保障:为保证数据完整与一致,采用全量迁移、增量迁移、实时同步和定时迁移混合模式,安全地将数据从源系统迁至目标系统。本次项目的数据迁移的转换工具一次性成功率95+%,工期缩短比率约15.22%,人天节省比率约36.35%。

       兼容性保障:迁移前充分测试和评估新环境,确保其能兼容现有业务系统,使系统兼容性风险可控。

       性能保障:迁移前对新环境进行性能测试和优化,满足业务系统性能需求;迁移过程中密切关注响应时间、吞吐量等系统性能指标,及时解决性能问题。

       多云选择优势:可按需选择云服务商,实现数据灵活部署和管理。

      五、案例总结

为实现降本增效、增加多云灵活性与提升SLA的目标,Q公司携手华为云进行数据中台迁移。基于华为云在大数据搬迁项目中的丰富经验,从准备工作、平台部署、元数据迁移、数据迁移、作业迁移等阶段构建了从迁移部署到后期割接的成熟流程,最终数据迁移成功。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。