- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【云驻共创】华为云：数智融合驱动创新，让数智价值惠及千行百业

DS小龙哥发表于 2022/07/27 22:14:21 2022/07/27

【摘要】 2022年6月16日华为伙伴暨开发者大会期间，华为云EI服务产品部部长贾永利做了《数智融合驱动创新，让数智价值惠及千行百业》的主题演讲，分享了“数智融合”在驱动行业创新中的应用，并发布了全新的数据治理生产线DataArts和全面升级的AI开发生产线ModelArts等一系列创新成果，助力千行百业创造新价值。

一、前言

2022年6月16日，华为伙伴暨开发者大会 2022正式开幕。在线上举办的“创新无限，一切皆服务”技术论坛期间，华为云EI服务产品部部长贾永利做了《数智融合驱动创新，让数智价值惠及千行百业》的主题演讲，分享了“数智融合”在驱动行业创新中的应用，并发布了全新的数据治理生产线DataArts和全面升级的AI开发生产线ModelArts等一系列创新成果，助力千行百业创造新价值。

接下来我们一起进入会议现场。

二、数智融合驱动创新，让数智价值惠及千行百业

演讲人：贾永利华为云EI服务产品部部长

2.1 数字化深耕过程中所面临的关键挑战

随着数字化进程的加速，随着人工智能逐步走进千行百业，我们发现，数据和AI已经成为企业核心关注的一个问题。

数据和AI在下一阶段会有哪些新的创新呢？接下来就给大家来分享一下华为云EI在这方面的一些最新进展。

首先回顾一下数字化深耕的过程中，企业所面临的关键挑战。

通过实际的项目参与，总结下来主要有这四个方面：

第一个是企业用数和管理数据的难度在增加。

第二个是各种各样先进的技术层出不穷，但是类似于数据湖、数据仓库、人工智能这些不同的技术在使用数据的时候遇到了障碍，它们经常遇到了各类引擎之间的数据不容易打通的问题。

第三个是发现人工智能的最后一阶段，像生产部署过程中还存在很多的困难和挑战。

第四个是行业的专业知识能耗其实是非常深的，人工智能技术和这些行业的能耗怎么结合也是一个非常关键的问题。

2.2 数智融合驱动创新，让AI与数据源持续释放价值

接下来就分享针对数智融合方案的一些思考：

当前提出的观点就是用数据和智能进行融合的方案，就是所谓的数智融合，以此来驱动下一阶段的创新。这样让AI和数据真正释放更大的价值给企业，为了让数据和AI之间打通，首先要做到的就是需要有一个非常强大的底座。基于华为云，云原生的技术让数据之间全部打通一个底座是非常重要，非常关键。

在此之上，将构筑数据治理的生产线和人工智能开发的生产线，依托这两个生产线之间，让数据的开发者和AI的开发者之间可以进行高效的协同，进行联合创新。

为了加速人工智能面向行业的创新和应用，持续的强化智能中枢平台，让认知、感知、决策一系列的AI复杂功能进行预聚合，通过预聚合之后的大颗粒度功能和行业的能耗再进行结合，这样就极大地简化企业在使用人工智能过程中的问题。

2.2 数据治理生产线：DataArts

今天会正式发布一款一站式数据治理生产线：DataArts。

DataArts主要由两部分构成，第一个部分叫DataArtsLakeFormation。听到名字，大家可以想到，它是和数据湖和基础设施相关的；LakeFormation的目的就是整合所有的云原生数据湖的组建，包括大数据，包括AI，包括数据仓库等一系列的处理引擎，让引擎之间的源数据进行统一管理，为上面的开发者提供更方便的使用。

第二个部分是DataArtsStudio，Studio是面向给所有数据域的开发者，数据管理者，数据架构工程师使用的。通过Studio，可以全生命周期的从数据集成，到数据整个架构的设计，到数据的流水线，数据的作业任务开发，以及数据质量的管理和数据目录的服务提供等等一系列的活动，涵盖整个数据生产、处理使用全流程，全生命周期，能够帮助企业系统把数据管好，用好。

2.3 打通湖/仓/AI，让一份数据在多个引擎间高效流转

接着讲LakeFormation，Formation是面向数据湖。目的是把多种多样数据处理引擎的基础元数据给管理好，也就是常讲的引擎级源数据；比如：大数据的批量流处理引擎元数据Flink SparkMapreduce，包括云上的数据仓库，包括人工智能使用的AI训练等等，它们涉及到的元数据以前都是引擎独立管理的，使用过程中遇到一个很大的困难就是：上一个引擎做完了数据，下个引擎在使用的时候，它对它的一致性不好做管理校验，这个问题在业务应用特别复杂的场景下会更加突出。

有了统一引擎元数据管理部件Formation之后，就可以统一引擎元数据，统一权限控制，统一事务机制，做统一的数据索引等一系列的工作。

在这里，就可以一站式的把引擎相关的元数据处理动作全部打通。有了全局的事务控制，就可以非常高效的读写不同引擎之间的数据，这样就将数据真正无缝的衔接在一起，最终成为整个数据湖，湖仓一体，面向未来数据和智能融合的一个基础基石。

2.4 GaussDB(DWS): 全场景分析，湖仓一体

有了基础之后，接下来就从引擎测来看一下。比如，云上的数据仓库GaussDB(DWS)，以往的GaussDB(DWX)，它只管理自己自身的数据，看自己舱内的数据；现在通过Information的支持，它同时可以看到数仓之外MS产生的数据，不管它是用pad格式做的，还是CarbonData格式，它都可以看到；同时它可以和MS的处理过程进行数据对接。那这样就通过数仓这样统一的CPU入口进来，既可以分析舱内，也可以进行舱外舱内，进行湖仓一体联合数据任务开发和处理，甚至它可以协调到AICE引擎侧更多AI相关的开发工作，它可以让数仓和AI进行打通。有了这个能力之后，就可以从GWS，也就是大家熟悉的CQ数仓入口，去处理整个数据库相关的数据，极大的提升了真正在开发过程中的方便性和效率。

2.5 智能管理数据资产

现在企业确实都在深耕数字化，不同的部门，不同的场景都在加速做数字化的转型；这样产生的数据种类越来越多，数据的复杂度难度也在加大。在此基础之上，去开发一个新业务的时候，面临的挑战会更加大。那到底用哪一个部门的数据，我的数据到底是依赖于谁？数据处理之间的关系是什么样子的？其实是非常困扰数据工程师。

有的时候，数据科学家有个很好的想法想要做一下验证，但是找不到合适数据去使用。这成为一个用数据和处理数据之间很突出的一个GAP，这是一个冲突问题。

通过刚才讲的DataArts流水线，就提供了非常有效的工具 ArchITecture。

面向一个企业，首先要有一个很好的标准化数据体系，就是DataArts的ArchITecture部分，这部分可以让企业管理数据的架构师，制定企业级的信息架构，制定数据标准，制定数据建模的标准，制定管理体系，这样软性的一套体系有了之后，就可以通过企业级数据目录，结合刚才讲的原技术层的元数据管理LakeFormation做到集成一体化。

这样企业级的数据目录，就给整个数据使用界面，给科学家，数据工程师，数据管家们一个非常好的操作平台。

比方说：从下面图片中大家可以清晰看到，当有一个新的任务要开发，一个跟门店相关的服务时，我只要在企业级数据目录上去搜索门店，它就给你推荐门店相关的很多数据主题，选定其中一个之后，就可以看到它的上游依赖的元数据有哪些，然后是谁做处理，源数据之间的关系是什么，血缘关系，以及数据里面详细的权限管理，都有很清晰的描述，这样就非常方便数据工程师开发，方便数据分析师去查找它想要用的数据，极大的提升企业对整个资产的管理难度，极大的提升了效率。

当我作为一个数据工程师，知道开发任务的时候，要产生大量的数据处理作业和ETL工作，这部分以往也是制约企业进行数据开发，数据资产管理的一个关键，因为有大量重复的繁琐任务要去做。

面对问题，DataArts也提供了非常好的解决方案，首先把面向代码和非代码的方案进行结合，也就是说推出了大量可以不用写代码的方法，进行一些简单的编排拖拽，就可以实现一个数据流水线。另外一个就是在很多场景下提供了自动化的算子，现在已经预集成了有40多个算子，而且系统会根据内置的AI来推荐给开发者它需要哪一款算子，自动生成算子，自动生成pipeline，这样统计至少可以节省20%以上的时间，这样就极大的提升了数据工程师进行数据开发的效率。

刚刚讲到的DataArts流水线，已经大量在企业和互联网公司应用。其中梦想集团是一个新型面向下一代S2B，S2C的电商平台，它管理着非常大的数据量。它同时也是新电商基础设施的提供者，提供基于SaaS店铺工具，外加一体化的商品与服务结合的供应链解决方案。在数字化建设过程当中，构建了智能运营、智能营销、客户体验和风控的四大体系，这些数字化体系的建设都是需要构建在强大的用户感知能力基础上的，这对在数据基础能力方面提出了更高的要求。

总体来说，梦想集团在数据基础能力建设方面，面临着三方面的挑战。

第一，超强的算力，每天有大量的用户进入厂商进行各种行为，需要通过实时感知能力去理解这些用户的行为，并进行策略的触达及反馈，这需要具有超强的计算能力。

第二，数据资产管理的能力。有多种业务数据，有不同终端的数据来源，有结构化的数据，有非结构化的数据，对这些复杂的数据进行高效的处理、管理及使用是需要面对的挑战。

第三，成本优化，随着数字化建设的不断深入，对数据价值的挖掘应用越来越多，数据重复的计算和存储导致成本上升很快。面对这些挑战，迫切需要一套具备超强计算能力，能高效管理数据并且成本可控的整体解决方案。

经过梦想集团的团队深入研究，选择了华为云大数据解决方案，通过华为云大数据加AI全场景数据湖解决方案，在数据处理、感知、推荐和风控等方面提供了高效的算力支持，通过数据治理开发平台进行统一的调度和管理，让全力数据的处理过程和管理应用可视化，帮助高效的进行数据准备和治理，构建企业级数据资产，满足业务方对多元业务的敏捷创新和探索，通过数据分析的存算分离架构和弹性资源池，实现数据应用的降本、提质、增效；存算分离让数据实现一份存储，多种计算引擎共享降低存储成本和签约时间。随着公司业务的不断发展，数据已经成为驱动业务发展的核心要素，会持续通过数字融合等技术创新释放数据的巨大价值。

2.6 面向数据工程师，低代码完成数据准备

刚才把数据相关的所有重大创新给大家做了一个简单的介绍。有了丰富的数据和基于数据的强大开发平台之后，就要释放数据的价值；而人工智能是非常重要的一个环节。

这几年，通过持续增强AI开发的生产线，已经在训练、推理、开发、标注等各个过程进行了一些创新。但随着实际的项目的推进，发现还是存在最后一端一公里。末端效率提升的问题，比如，怎么样能够快速把AI技术构建到一个应用里面去，如何能够高效的协同云边端的开发效率，能不能快速的分享，利用别人的成果减少自己开发的工作量等等。

针对此，AI流水线重点升级了几个部件：一个是智能化的应用构建平台，帮助企业快速构建应用。另外一个是运行时的开发框架，一次开发可以全场景去部署。再有一个就是提供协同计划让更多的伙伴和开发者可以快速的能够生产更加高效的AI应用，构建一个很好的应用。

其实，都知道过程经过非常复杂，先可能是由产品经理和客户、伙伴去反复沟通生成草图，有了草图之后，会经历所谓的低保真阶段，高保真阶段，而且这些往往是反复的。当高保真原型稳定之后，才能真正的去开发真正的应用，整个过程非常繁琐，那这个过程能不能用AI去驱动呢？

通过盘古大模型，视觉大模型，自然语言大模型，生成了盘古驱动代码编写的大模型，重点编写应用类代码。通过实践发现效果还是不错的，比如，左边的同学正在绘制一个应用的草图，哪里放表格，哪里放顶图，什么数据放在哪里，系统自动把草图书收入进去之后，它就可以根据AI的推荐选择合适的开发组件把它配好。下一步可以对系统通过自然语言去交互，告诉它，我点击不同的组件的时候，我希望它产生什么样的效果，这些代码都可以自动的生成，就极大地加速了AI开发的过程，全程几乎是0代码，是一种全新的体验。有了这个体验之后，也畅想未来的应用开发会走向一个崭新的环节，把历史上的开发流程，很复杂的问题，有多个环节操作，高保真，低保真，草图什么，阶段都会缩短，也把角色变少。以前要有产品经理，要有客户，要有伙伴，要有什么SPA，要有开发者，要有UCD设计的人员等等一系列的人员组在这里才能把事情做好，大家只管自己的一段。有了这样一个平台，其实我作为一个产品经理，我自己就可以把全过程定义好，就可以生成最后我想要的东西，角色也会变少。整个效率上看到，可以大幅提升，它改变了以往的一个作业模式，面向应用的开发，可以从以前数月，缩短到甚至现在几天，把它需求搞清楚的话，我就可以把它做出来。

2.7 聚合数据与AI能力打造智能中枢

ModelBox是一个低代码开发技术，使用了ModelBox之后，所有的AI开发人员不用重复的去考虑AI应用是在什么样的环境下使用，是CPU，是GPU还是哪一款操作系统，下面用的GPU是哪一个种类等等，这些问题不用去思考，可以通过编排把一些成熟的算子用起来，可以极大的丰富开发过程。目前已经预置了40多个相关的流单元，通过编排就可以实现。

另外一个就是，用ModelBox开发出来的AI应用模型整个会更加高效。比普通开发人员自己写的性能高，简单来讲就是用更少的硬件支撑更多的并发调用，可以真正让企业在生产的时候有更好的性价比。

目前可以看到一般推理的场景能够提升二到十倍的性能并发量，另外，ModelBox可以很好的协同端边云三者之间的算力分配，实验要求极低，效率极高，运行在端侧，比如，AR眼镜上的摄像头，机器人的本体上面；有一些复杂一点的，但是对数据有要求的场景，可以运行在工厂内的边缘节点上面，运行在园区的边缘节点上面，既保证了数据的可控的问题，又提升整体的作业效率。还有一些非常大的，比如，整个园区的建模，复杂的场景识别这些问题，可以留在云端，这样协同起来，整体的AI面向生产的最后一公里，才做到真正的扎实可控。

ModelBox也会持续把南北向生态加强，目前已经把它全面开源了，大家可以通过两个地方去获取源码，一个是码云仓库，另外一个就是和鹏城实验室联合的开源平台都可以获取，更加欢迎有更多的开发者和生态伙伴加入到生态社区中，共同来构建，让它支持的硬件种类更多，这样它就变得越来越强大，也欢迎大家的加入。

前面讲了很多ModelBox相关生产线的能力，是不是面向企业就足够了？

其实，刚才谈到的AI技术种类非常繁多，如果想把它运用到企业去，运用到行业去，行业的专业能耗又非常多，为了把GAP弥补上，我们做了一个智能中枢，智能中枢就是把预聚合方案进行再一层收敛，然后和企业进行聚合使用。比如，把所有视觉类的服务收敛为一个全域感知服务，服务里面，不只是能结合数百种以上的感知模态能力，而且，它还有感知之间的调度能力，还有边云协同部署的能力。

同样，把认知相关的知识计算相关服务，把知识图谱和运算相关的能力也进行整合，把RK相关的技术整合，把做最优化决策调度的技术也整合，形成了几个大颗粒度的服务。这几个大颗粒度服务就非常方便企业去运用。

比如，在哈尔滨智慧供热场景下，就通过智能中枢把伙伴的应用，供热管理的软件和AI进行了高效的结合，就可以非常好的精准预测整个管理片区的热能损耗消耗和它的整体的供热平衡情况，一个一个实践综合能耗下降了百分之12，这同样也可以用在水治理，政务等众多场景，能够加速整个行业进行创新。

2.8 物理世界与数字世界融合，构建智慧城市数字孪生底座

在智能中枢下有一个新服务，叫时空计算服务。我们知道，物理世界和数字世界在加速融合，特别在整个城市维度，有一个数字化的城市底座，才能在此基础上做更多的AI应用，更多的数据驱动应用，如何快速构建一个城市级的时空引擎非常重要。

这里和很多合作伙伴，包括大事科技也一起进行了设计，做了实景三维建模服务，同样也有通过遥感测绘数据进行快速标定识别解译服务，这样就可以很快的帮助城市构建一个区域性，一个园区的或者整个城市的规模数字化的时空引擎。

华为云也非常荣幸在沙特的红海新城进行了实施，通过实施的效果，发现一个基于云的，基于AI的全新时空计算服务，能够相比传统的城市级数字化建模提高效率至少300%以上，而且它的精度也非常高，识别的准确率也大幅提升。整体的开发周期，从以往的数月，缩短到以周为单位的快速迭代，这样就极大地帮助城市的管理者能够构建自己的数字化城市服务，也欢迎合作伙伴们和广大开发者来使用。

三、总结

此次大会上，华为云为开发者们展示了全新的技术路线。在数字城市建设方面，为了将ModelArts生产线的能力应用到更广泛的场景中，华为云打造了一系列的"智能中枢"服务，加速了整个行业的创新进程。当今物理世界和数字世界在加速融合，特别在整个城市维度，有了数字化的城市底座，才能在此基础上运行更多AI应用和数据驱动的应用。下一阶段，华为云将打通AI Gallery和华为云市场，并进一步打通面向个体开发者的商业闭环，与广大合作伙伴一路同行，持续打造领先的一站式数据治理和AI行业应用方案，赋能千行百业向万物互联的智能世界加速前行，应对行业挑战，抓住时代机遇，做AI时代的领航者。

本文参与华为云社区【内容共创】活动第18期。

https://bbs.huaweiCloud.com/blogs/364560

任务13: 华为云：数智融合驱动创新，让数智价值惠及千行百业

https://bbs.huaweicloud.cn/live/partner-developer2022_live/202206161400.html

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入