开云(中国)kaiyun网页版登录入口开云体育比如无信号灯路口让行：路边起步变谈：以及夜间行车等-开云(中国)kaiyun体育网址-登录入口

发布日期：2025-06-16 06:05 点击次数：85

可控视频生成，关于自动驾驶时候而言，通常十分紧迫。

比如，生成高质地、长时代且可控的高质地街景视频，不错中意建立自动驾驶欺诈的数据缺口。

当前，香港汉文大学、香港科技大学和华为联手向这一恒久挑战发起了冲锋：推出MagicDriveDiT，再行界说自动驾驶视频生成的尺度。

当前该责任同期赈济昇腾 Ascend NPU 以及 NVIDIA GPU 磨练和推理。

具体而言，MagicDriveDiT 基于 DiT 架构谋略。通过流匹配时候和渐进式磨练战略，MagicDriveDiT 不仅晋升了系统的推广智商，还能灵验生成复杂场景。这一身手极地面提高了视频生成的质地，尤其是在生成高分辨率和长时代视频方面贯通杰出。

精准场景落幕

先来看 MagicDriverDiT 的生成落幕。

通过精准的场景落幕，MagicDriveDiT 不错生成许若干见的行驶路况。

比如无信号灯路口让行：

路边起步变谈：

以及夜间行车等。

值得一提的是，MagicDriveDiT 既赈济单个物体的精准落幕：

也赈济复杂的自车 3D 轨迹落幕。

MagicDriveDiT 的举座谋略框架

架构谋略方面，率先，MagicDriveDiT 将跨视角一致性模块引入 STDiT3 的基础模块中，建议了 MVDiT 模块来处置多视角视频合成。

其次，关于自动驾驶场景中常见的多种落幕，MagicDriveDiT 在 STDiT3 的基础上取舍绝顶的落幕分支以及交叉崇拜力分辩处置不同的落幕种类信号。

此前的视频生成齐是基于 2DVAE 编码落幕的，落幕条款的空间编码模块并不适用于 3DVAE 的时空潜变量。针对现存身手在可推广性和落幕条款整合方面的不及，MagicDriveDiT 取舍空间 - 时代条款编码时候，落幕了对时空潜变量的精准落幕。这种身手使得生成的视频在视觉落幕上愈加传神，大致中意自动驾驶欺诈对高质地街景视频的需求。

以下视频空间编码和时空编码对比，此前的视频落幕身手并不适用于 3DVAE 的时空潜变量：