MIMO

阿里巴巴的高级视频到视频模型

2024-09-26

MIMO
MIMO,一种可推广的可控视频合成模型,能够在复杂的物体交互动作中模仿任何人在任何地方的动作。
MIMO由阿里巴巴智能计算研究院开发,是一种高级视频合成模型,旨在复杂、互动的场景中创建逼真、可控的角色视频。与传统方法不同,MIMO采用了一种新颖的空间分解方法,无需多视角捕捉,也不受姿势和场景互动的限制。它将2D视频帧编码为3D空间代码,分离出角色、动作和场景等组成部分,以实现精确控制。用户只需输入一张图片、姿势序列或场景视频,就能生成具有可定制属性的逼真动画。MIMO的框架结合了层次化的3D深度分析和基于扩散的解码,为多样化的现实世界应用提供了可扩展、可推广且互动的视频合成能力。这一突破为以最小输入创建动态、高质量角色视频提供了统一的解决方案。
Artificial Intelligence GitHub