【云驻共创】华为云助力加速构建企业数据资产和数据治理生产线
前言
华为云主要有四大生产线服务包含软件开发生产线DevCloud、数据治理生产线DataArts、AI开发生产线ModelArts以及数字内容生产线MetaStudio。
数据治理生产线DataArts主要包含两大部分:
- DataArts LakeFormation:负责整合所有云原生数据湖的组建工作,统一管理一系列数据引擎的源数据,方便上层开发者使用。
- DataArts Studio:面向数据域的开发者、管理者、架构师,涵盖数据生产、处理、使用的全流程生命周期,帮助开发者系统管理和使用数据。
本文数据治理生产线DataArts主要讲解以下三个部分:
- DataArts使能数据治理向自动化、智能化升级
- DataArts Studio典型场景应用预览
- 华为云DataArts帮助企业快速构建数字化运营能力
一、DataArts使能数据治理向自动化、智能化升级
本节内容主要讲解以下三个部分:
- 数据治理生产线DataArts全景介绍
- 核心产品DataArts Studio新特性发布
- DataArts生态伙伴合作策略
1.数据治理生产线DataArts全景介绍
1.1 进入数字经济时代,数据成为重要的生产资料,激发数字经济发展
数字经济已经渗透到各行各业,正在引领新经济发展,数字经济覆盖面广且渗透力强,与各行业融合发展,如大数据、云计算、互联网、人工智能等。因此,数据已经成为数字经济时代的重要生产资料。预计到2025年产业数字化机会将达到23万亿美元规模。
1.2 企业数字化转型升级,实现数据驱动业务的智能
所有的企业必须进行数字化转型,才能适用时代的发展,企业数字化转型升级的三大要求:
- 数据智能体验:每天亿级数据标签智能匹配(智慧新闻,精准用户体验)
- 数据智能决策:50年油田历史数据智能挖掘(石油开采,智慧决策钻井深度)
- 数据智能流程:每天10万+次数据碰撞(智慧差旅:智能流程合并)
1.3 数据智能面临三大挑战,数据价值很难得到充分挖掘
数据智能面临三大挑战主要有如下三点:
- 数据治理难:数据质量低,取数难、找数难、计算难、用数难
- 技术门槛高:数据处理到AI开发,到最终实现业务价值,涉及几十道工序,技术门槛高,协作难度大
- 业务仿真难:如何借助数据与模型,模拟、验证、预测、控制业务的全生命周期
1.4 数据治理生产线DataArts,让数据释放价值
数据治理生产线DataArts可以解决数据治理难、技术门槛高、业务仿真难的三大挑战,让数据释放价值。
华为云数据治理生产线DataArts就像生产线一样,能够把海量复杂,无序数据
,转化成为高质量的数据能源并输送给业务实现数据驱动,实时决策
。
数据治理生产线DataArts可以帮助企业的数据源进行(数据接入=》数据开发=》数据治理=》数据资产=》数据服务=》数据安全=》数据共享)转化成为数据应用。
数据治理生产线DataArts具有以下特性:
- 实时:
- ms级实时入湖
- s级实时分析,训练和推理
- 智能:
- AutoETL,高效数据准备
- 自动化标准和质量稽核,智能数据治理
- 安全:
- 采/存/管/用全链路数据安全
- 隐私数据保护、合规和审计
- 价值:
- 联接数据和业务,让数据从“资源”变为“资产”
- 行业konw-how,以数据驱动业务决策和创新
总的来说,数据治理生产线DataArts改变了传统“人拉肩抗”的数据处理方式,帮助提升效率;降低技术门槛,让“人人都是分析师”;让“数据‘慧’说话”,驱动高效决策。
1.5 华为云数据治理生产线DataArts全景
华为云数据治理生产线DataArts主要包含七步走:数据源=》数据入湖/仓=》数据开发=》数据治理=》数据资产=》数据服务=》数据应用。
华为云数据治理生产线DataArts全景架构图如下:
2.核心产品DataArts Studio新特性发布
2.1 DataArts Studio原有能力全面升级,一站式开发治理体验
DataArts Studio原有能力全面升级主要体现四个方面:编辑器优化、团队协作增强、调度引擎升级、图形化运维。
2.1.1 编辑器优化
- 更丰富的语法联想、快速补全SQL,自动格式优化
- 异常关闭脚本可恢复,防止代码丢失
- 支持全库代码检索
2.1.2 团队协作增强
- 作业和脚本的多版本管理,生产与开发环境隔离审核
- 多人开发抢锁、解锁机制,防止意外覆盖
- 跨空间依赖,方便多部门协作
2.1.3 调度引擎升级
- 调度机制优化,支持自然周期核心调度
- 调度性能升级,支持千万级/日任务调度
2.1.4 图形化运维
- 作业依赖关系自动解析,图形化展示作业依赖树
- DAG图形化运维,集中查看上下游的作业和运行结果、日志提高问题定位效率
2.2 数据入湖过程中,元数据自动发现和表格化存储
数据入湖过程中,自动元数据发现和表格化存储,便于数据的搜索、计算和分析:
- 支持OBS、HDFS/SFTP、Kafka、REST等数据存储上的文件、消息元数据自动发现
- 自定义分类器,支持CSV、JSON、文本、Parquet、ORC、Hudi等半结构化数据进行Schema自动模式推断和提取
- 构建表、字段、分区,并感知其变化等元数据信息,便于数据的搜索、计算和分析
2.3 智能增强的AutoETL能力,数据准备效率提升20%
智能增强的AutoETL能力,数据准备效率提升20%:
- 融合code模式与no-code模式:支持No-code模式开发流/批数据处理作业,作业节点数量降低20%,数据作业开发效率由天级别降到小时/分钟级别
- 丰富的数据处理算子库:支持清洗、过滤、合并、Join等数据处理类别10+,算子数量200+
2.4 智能增强的数据异常检测,提升数据质量稽核效率
智能增强的数据异常检测,万张表扫描速度提升5倍,提升数据质量稽核效率:
- 通过模糊索引、模式挖掘等方法发现潜在重复数据区块
- 通过相似性对比检查数据的语法差异,以及领域知识库的实体解析检查数据的语义差异
- 支持实时采样计算数据质量预览,支持高性能扫描计算数据质量,万张表扫描速度提升5倍
2.5 企业级数据目录,自然语言搜索和管理数据资产
企业级数据目录,像搜索引擎一样搜索和管理数据资产:
- 企业级数据目录:面向多云多Region逻辑数据湖的统一数据目录,技术元数据自动同步更新,并与业务元数据和管理元数据信息关联
- 自然语义搜索,智能推荐:支持以自然语言搜索数据资产,并智能给出搜索建议、资产推荐和排序
- 360全景“实体-关系”知识图谱,自动发现数据联系。智能导航,路径分析、社群分析等高级图分析,1W+点图分析响应时间200ms以内
2.6 全链路数据安全保护,中心化安全策略治理,智能识别隐私数据
全链路数据安全保护,中心化安全策略治理,智能识别隐私数据:
- 中心化数据安全治理,支持企业实现企业数据安全策略统一管控
- 智能数据安全:内置GDPR安全规则库、支持数据访问权限控制、敏感数据自动识别,智能数据保护(加密、脱敏、水印)
- 全链路数据安全保障,数据集成、传输、存储、数据架构设计、开发准备、资产搜索、服务开放等全链路都集成了数据安全能力
2.7 生态开发:云原生集成数据管理生态产品,持续增强DataArts
生态开发:云原生集成数据管理生态产品,持续增强DataArts:
- 面向生态开放,引入BI、主数据、数据建模、数据标签等数据管理行业TOP伙伴SaaS产品,并与数据治理生产线的DataArts
Studio、Lakeformation等云原生服务集成,为客户提供一致性体验 - 伙伴产品与华为云“联营联运”,支持客户一键购买开通,以及按需订阅消费
3.DataArts生态伙伴合作策略
目前,数据治理生产线DataArts在华为内外部有丰富的实践。在内部,基于DataArts,华为生产出10多万个高质量的数据资产;在华为外部,DataArts服务了1000家以上的政企客户,每天有千万级数据任务在云上DataArts运行。
二、DataArts Studio典型场景应用预览
以智慧门店营销场景应用为例,基于DataArts Studio实现数据开发和治理主要分为四阶段:
- 一键式数据湖构建
- 智能数据准备与开发
- 运维管理
- 企业级数据目录
1.DataArts Studio功能预览:一键式数据湖构建
一键式数据湖构建主要分为三部分:
- 入湖配置:订单信息表、商品信息表、门店信息、库存信息、客户信息入湖
- 密级识别:入湖的同时自动标识数据、表密级等,允许用户自定义修改
- 调度配置:灵活配置入湖任务调度管理,包括实时、周期和定时调度
2.DataArts Studio功能预览:智能数据准备与开发
智能数据准备与开发主要分为二部分:
- AutoETL智能数据准备:为用户分群建模进行数据准备,一个界面操作,智能算子推荐,结果实时呈现,质量和关系总览
- 数据加工全链路统一视图:数据入湖、用户分群、商品分析和门店分析数据准备数据流统一呈现
3.DataArts Studio功能预览:运维管理
运维管理主要分为三部分:
- 数据流运行状态管理:在作业流图上清晰的看到各个数据节点的运行状态
- 数据健康度管理:在作业流图中可以看到各个数据节点的质量评分,进行健康度管理
- 数据安全性管理:在作业流图中可以看到各个数据节点的密级、安全度以及权限管理情况
4.DataArts Studio功能预览:企业级数据目录
企业级数据目录主要分为四部分:
- 搜索推荐:打造交互式数据资产搜索引擎,根据输入的语句进行数据资产推荐
- 血缘关系:可视化数据图谱,支持通过主外键、血缘、相关性等多种关系进行关系挖掘:支持多种可视化布局方案进行可视分析
- 数据概览:支持快速数据预览、概要提供密级标签等的自动算法打标
- 权限申请:一站式权限申请,对搜索结果进行一键式申请权限、数据准备和数据洞察
三、华为云DataArts帮助企业快速构建数字化运营能力
本节内容主要讲解以下三个部分:
- 安永数据智能介绍
- 安永&华为数据智能解决方案
- 案例介绍
1.安永数据智能介绍
1.1 安永-全球领先的专业服务机构
安永是全球最大的专业服务公司之一,主要有审计、咨询、税务和战略与交易四大核心业务,其中咨询服务提供从业务规划、解决方案设计与实施,到业务运营的全方位端到端服务,以实现客户理念落地。
1.2 安永大中华区-数据智能咨询服务
数据智能咨询服务是将人工智能与洞察、业务数字化场景构建、数据分析与治理等方面的技术与咨询能力,与多专业领域如业务变革、运营与业务服务、技术变革、网络安全与隐私等的专业咨询服务相融合,并结合丰富的行业经验,形成如下的六大体系:
- 战略规划
- 数据治理
- 商业智能
- 技术实施
- 合规安全
- 培训分享
1.2.1 战略规划
数据战略作为数字化转型战略的重要组成,承接企业数字化转型需求,明确如何利用数据、信息和技术实现业务目标,设计企业需要具备的数据能力,制定组织范围内数据应用、共享和管理机制,并结合企业当前数据成熟度,规划转型策略与路线。
战略规划主要包含以下部分:
- 数据策略和成熟度评估
- 数据中间层规划
- 数字化转型与变革管理
- 数据安全规划
1.2.2 数据治理
数据治理是企业数据智能建设的一项基础性和持续性工作。安永数据治理服务从数据治理成熟度评估入手,帮助企业进行数据治理体系设计与实施、治理平台设计与建设等,助力客户构建完善的数据治理能力,从根源上提升数据质量。
数据治理主要包含以下部分:
- 数据组织与职责
- 数据标准与管理
- 数据模型及应用
- 数据架构、质量和安全
1.2.3 商业智能
新一代商务智能平台在传统平台的基础上融合更多前沿技术,以业务需求为驱动,向不具备技术能力的业务用户提供更灵活、更直观、更易理解、更有洞察的数据分析结果,在灵活多变的商业环境下快速准确地提供数据发现。
安永将利用数据可视化,融合机器学习、自然语言处理等技术,帮助企业建立具有解释性和预测性的企业数据分析平台。
商业智能主要包含以下部分:
- 商业智能驱动和洞察
- 实时检测与预测
- 业务流程优化(ML、NLP、RPA、知识图等)
- 分析即服务
1.2.4 技术实施
随着技术的变化,数据平台的设计理念和实施方式上发生着重大变革。传统的以数据仓库为核心的结构化数据应用形式,正在向以数据湖为核心的多源异构分布式数据应用形式转变。数据中台由概念逐渐变为商业实践,企业的数据架构将发生根本性改变,为数据管理模式和数据应用方式带来更多新方法。
安永数据智能应用实施服务将帮助企业设计并搭建数据分析环境,包括可视化平台、数据中台、数据分析与实时侦测平台、大数据平台、数据湖、主数据管理平台、治理平台,以及数据驱动的智能技术平台,帮助客户落地数据战略,提升数据价值收益。
技术实施主要包含以下部分:
- 商业智能仪表板和报告
- 数据分析与检测平台
- MDM、数据仓库、数据治理平台建设
- 数据体系结构
1.2.5 合规安全
安永的业务数据风险管理方法,基于业务端到端流程的打通,汇集融合风险识别的关键数据,通过高质量风险数据管理模型的建立,达到业务风险态势感知,实现端到端流程风险智能识别,提升风险管控效能。安永数据风险与保护解决方案将针对数据全生命周期保护过程中的安全策略、管理流程、技术设备等进行设计与落地,保证数据在稳定、安全的环境下运营。
合规安全主要包含以下部分:
- 数据合规规划
- 数据分类
- 数据保护
- 数字业务安全
1.2.6 培训分享
安永通过wavespaceTM数字化创新空间和线上线下渠道,向客户提供全面、多样、定制化的数据培训,培训内容涵盖数字化领导力、数字化思维、数据治理、数据技术、行业大数据应用等,帮助企业提升人员数据能力,构建数字化组织,营造数字化文化。
培训分享主要包含以下部分:
- 专业学术课程
- 短期业务培训计划
- 高端沙龙与现场活动
- 在线学习与培训
- 资格证书
1.2.7 小结
安永数据智能咨询服务,专注于各领域的数据服务和解决方案创新,致力于与各行业客户共同探索和实践数据智能如何更好赋能业务,推动行业数字化转型和智能化发展。
1.3 国家数字化发展趋势
- 面对数字经济领域激烈的国际竞争,党的十九大对建设网络强国、数字中国、智慧社会等作出了战略部署,加快数字中国建设,全面贯彻新发展理念,以信息化培育新动能,用新动能推动新发展,以新发展创造新辉煌
- 十三届全国人大四次会议规划纲要草案将建设数字中国作为独立篇章,意味着中国将把数字经济的转型升级作为未来10年关键的机会窗口,数字经济将成为整个中国经济转型的核心部件,规划纲要草案明确了未来5年发展目标;2025年数字经济核心产业增加值占GDP比重提升至10%
1.4 安永数据管理体系
安永在充分借鉴国内外数据资产管理先进理论的基础上,明确数据管理工作在数字化转型进程中的价值定位和支撑作用,针对企业在数据资产管理体制机制的构建提出了包括职能活动和保障手段在内的一整套运作体系, 用以统一企业对数据管理的认知、明确职责边界,并指导具体工作任务和资源配备的规划与开展。
2.安永&华为数据智能解决方案
2.1 数字化运营:通过IT&OT数据融合实现横向价值链打通,支撑全业务流综合分析
- 建立各领域价值链分析体系,利用各主题驾驶舱对战略执行、业务运营、风险状况进行监控预警、高效决策
- 实现集团所有工厂的数据分析,基于精细化数据辅助决策,支持管理改进
- 关联天眼查等第三方数据,动态预警伙伴及客户风险
2.2 基于华为云数字化产品,结合安永业务洞察积累实现数字化创新跨越
华为&安永联合解决方案融合了华为数字技术的优势和安永对业务洞察的深入理解,将助力实现数字化转型。
2.3 安永数据使能整体解决方案
基于先进的华为云平台和健全的数据管理体系,实现数据资产化、完善数据运营体系,为多业务场景赋能,提供数字化转型支撑。
3.案例介绍
3.1 典型案例介绍-某集团数字化生产中心
通过完成生产关键设备数据、环境信息的采集、基于ROMA实现各系统间数据分发,实现结构化、非结构化、实时、离线数据集成并构建大数据平台,通过DataArts Studio和DWS实现各类数据的整合处理,形成企业级数据底座。基于大数据平台数据实时分析能力,实现生产实时预警及监控,基于大数据平台支持BI企业综合营运分析和领导决策支持。
3.2 数据使能技术架构
3.3 数据架构示例
3.4 指标体系平台化管理
总结
本文主要介绍了数据治理生产线DataArts主要讲解以下三个部分:
- DataArts使能数据治理向自动化、智能化升级
- DataArts Studio典型场景应用预览
- 华为云DataArts帮助企业快速构建数字化运营能力
面对数字化时代大潮,制造企业数据资产越来越重要,数字化转型迫在眉睫。但数字化转型道阻且长,而且数据繁多不好处理,制造业亟需上云构建企业数据资产,华为云数据治理生产线DataArts有策略、技术和经验,将持续赋能制造企业实现数据治理和资产沉淀,为制造业数字化转型和智能化升级提速。
本文整理自华为云社区【内容共创】活动第18期。
查看活动详情:https://bbs.huaweicloud.cn/blogs/364560
相关任务详情:任务29.华为云之数据治理生产线,加速构建企业数据资产
- 点赞
- 收藏
- 关注作者
评论(0)