【云驻共创】突破传统,AI在加速“孵化”你的数字人
虚拟数字人一直是业界的热点研究问题,广泛应用在营销、直播、AR、VR等场景中。而传统的数字人制作流程非常依赖于美术人员,制作周期长、成本高、生产效率低。本次分享主要介绍华为云数字内容生产线MetaStudio中的数字人制作管线背后的一些关键技术,利用计算机视觉和图形学等技术,来提升数字人模型制作和动画制作的效率,具体包括高精度三维人脸重建、个性化人脸自动绑定、实时面部表情捕捉等技术,最后介绍一下基于隐式表示的数字人建模和驱动相关前沿技术和应用前景。
背景
数字人的定义
美国作家尼尔·斯蒂芬森在1992年出版的科幻小说《雪崩》中创造了两个概念:元宇宙(Metaverse)和虚拟分身 (Avatar)。
“虚拟分身”在中国发展至今拥有更广泛的称呼 “虚拟数字人”,被视为未来人们进入“元宇宙”的入口
- 拥有人的外观具有特定的相貌、性别和性格等人物特性
- 拥有人的行为具有用语言、面部表情和肢体动作表达的能力
- 拥有人的思想,具有识别外界环境、并能与人交流互动的能力
数字人的应用
传统高精度数字人制作流程
- 缺点:强依赖美术人员、周期长、成本高、缺少制作标准、动画制作复杂
- 目标:基于计算机图形学和计算机视觉技术,提升制作效率,降低制作成本
数字人趋势:生于云、长于云、用于云
流程
1、生产:原画、建模、驱动、渲染。
2、成长:
- 综艺技能(舞蹈、唱歌)
- 教育技能(内容理解、智能答题)
- 新闻技能(播报、手语)
- 电商技能(商品展示、智能交互)
3、应用:
- 电视、动漫
- 教育、展会
- 直播、协作
- 金融、游戏
挑战
如何批量生产
- 超写实数字人,制作周期长(柳夜熙模型制作耗时8个月)
- 捏脸类/照片扫描类数字人,不像真人,动作僵硬
如何持续成长
- 新皮肤、发型、服饰 (云笙新服装,2人2月)
- 新表情、动作(云笙舞蹈,2人1月)
- 新知识、性格(云笙新情绪,2人2月)
如何规模应用
- 数字人物走入实拍视频,虚实融合 (云笙进入HC大会现场直播,2分钟视频制作时长1个月)
- 数字人走进教育课堂、综艺直播、线上展厅等需要行业能力
1.华为云数字内容生产线简介
华为云数字内容生产线 MetaStudio
资产体系
- 数字人模型库:数字人模型(几何纹理、贴图) 10万+
- 数字人材质库:数字人材质(皮肤眼球、牙齿、毛发) 10万+
- 行业模型库:行业模型(家具文物、车等) 10万+
开发者体系
- Demo(50+):数字人名片、产品宣讲、虚拟社交、虚拟试衣、数字人驱动、智能交互、智能问答、小游戏
- API & SDK:应用类API & SDK,生产、训练、运行类API & SDK
应用体系
视频平台:芒果、华为视频、B站、抖音、快手等20+平台。
教育平台:VIVA畅读、IT大咖说等10+平台。
互娱直播:抖音、快手、虎牙、映客等20+平台。
企业直播:保利威、目睹、微赞等10+平台。
新闻网站:搜狐新闻、央视新闻、腾讯新闻等10+平台。
智能客服:中信银行、泰康人寿等10+平台。
华为云数字内容生产线 —— 核心能力
华为云数字内容生产线 —— 风格化数字人
华为云数字内容生产线 —— 超写实数字人
华为云数字内容生产线 —— 虚拟直播解决方案
预置多直播平台连接
连接多个主流直播平台,一键开启数字人直播
单摄像头视觉驱动
普通RGB摄像头动捕驱动,无需专业动捕/面捕设备
2.高精度三维人脸采集和材质计算
计算机图形学
计算机图形学是一种使用数学算法将二维或三维图形转化为计算机显示器的栅格形式的科学,主要研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。[wiki]
广泛应用于游戏、电影、动画、设计、可视化、虚拟现实、增强现实、物理模拟、图形用户接口GUl …
轻量级人脸几何材质采集系统
- 搭建轻量级人脸采集设备,快速采集人脸的几何模型和材质贴图,加速静态人脸资产制作;
- 通过拍摄多个视角图像,基于多视图几何算法,求解人脸的几何信息;
- 通过模拟不同的光源方向和视角方向,求解人脸皮肤的材质信息;
- 通过硬件进行光源和相机的同步,同步误差小于5ms,全部采集时间约100ms;
多视图几何重建
- 通过多张有一定视角重叠的RGB照片,来恢复出场景的几何结构信息。
- MVS算法流程: 特征提取、特征匹配、稀疏重建 (Structure From Motion)、深度图估计、稠密重建。·
- 商业软件: Agisoft Metashape、Reality Capture;开源流程: Colmap稀疏重建 + PMVS稠密重建。
三维人脸关键检测
二维人脸关键点检测器;
通过多视图几何,从多个视角的二维人脸关键点得到三维人脸关键点坐标;
- 耳朵关键点数据集:公开数据集+自标注数据;
- 基于Faster-RCNN进行耳朵区域检测;
- 利用主动外观模型来拟合耳朵关键点;
非刚性配准
- 给定一个标准网格模板模型X 和一个目标模型Y,如何通过形变,将模板模型和目标模型进行对齐?
如何在变形过程中保持局部形状?
基于多视图的镜面反射分离
光度立体视觉
通过采集物体不同光照方向下的图像 (三张以上),重建出物体表面的法向量和反射率;
基于该算法,利用采集得到的不同光照条件下的人脸图像,求解出各个视角下人脸的漫反射率、镜面反射法线和镜面反射率。
多视图纹理映射
已知相机位姿,将各个视角下得到的材质信息融合到同一张纹理贴图中
人脸重建结果
动态人脸重建
- 目标:在静态人脸重建的基础上,加上时间维度,每都是一个同拓扑的三维模型
- 4D 动态人脸数据的作用:
面捕只能跟踪有限的面部细节,丢失很多信息,而4D数据可以还原演员本身的表演
传统的利用Maya制作面部绑定是线性变形,4D数据用于面部绑定能加入非线性的肌肉变形;
基于深度学习的人脸应用需要大量高精度动态人脸数据,而传统采集方案成本高,且需要大量手工交互:
- 非刚性配准+参数化模型约束+光流约束
3.个性化人脸自动绑定
三维人脸自动绑定
制作了静态人脸模型,如何让角色生成表情动画,即脸部如何动起来?
面部动作编码系统
- 面部动作编码系统(FACS)是一种基于解剖学结构的系统,用于描述面部的肌肉运动。通过对肌肉运动进行编码,来了解面部运动的方式和原因,是一种可靠的面部运动和表情编码分析技术。
表情基动画
什么是表情基动画?中性表情 B0,以及K个表情BK(每个表情基存储与中性表情之间的差值);
如何去制作关键表情
- 艺术家通过maya等软件,使用绑定的脸部或者使用“形变编辑器” 和雕刻工具来创建表情。非常耗时!
- 给定角色的中性表情(或一些极端夸张表情),能否通过自动化算法生成该角色的表情基?
表情迁移
- 给定一个静态人脸几何,自动生成一组表情基,支持不同风格、不同个数的表情基模板。
- 核心思想:将一组表情基模板的变形,迁移到目标人脸模型上;
用途:
为艺术家提供超写实数字人表情基,方便后续调整;
帮助普通用户快速生成可驱动个性化人脸表情基;
表情迁移:将参考模型上的形状变化迁移到目标模型上
表情基自动绑定
4.总结与展望
传统数字人制作流程复杂
- 数据扫描:静态扫描+几十个FACS表情作为面部绑定的参考;
- 模型清理和制作:Zbrush雕刻细节,Xgen制作头发,MD制作衣服;
- 模型绑定:面部绑定+身体绑定;
- 模型驱动:面部表情捕捉+身体动作捕捉;
- 物理动画:头发模拟、布料模拟;
- 高品质渲染:实时渲染UE、Unity,离线染 Arnold、Keyshot等;
华为云数字内容生产线 MetaStudio
主页: https://support.huaweicloud.cn/metastudio/index.html
本文参与华为云社区【内容共创】活动第23期。
- 点赞
- 收藏
- 关注作者
评论(0)