开云(中国)kaiyun网页版登录入口开云体育比如无信号灯路口让行:路边起步变谈:以及夜间行车等-开云(中国)kaiyun体育网址-登录入口
可控视频生成,关于自动驾驶时候而言,通常十分紧迫。
比如,生成高质地、长时代且可控的高质地街景视频,不错中意建立自动驾驶欺诈的数据缺口。
当前,香港汉文大学、香港科技大学和华为联手向这一恒久挑战发起了冲锋:推出MagicDriveDiT,再行界说自动驾驶视频生成的尺度。
当前该责任同期赈济昇腾 Ascend NPU 以及 NVIDIA GPU 磨练和推理。
具体而言,MagicDriveDiT 基于 DiT 架构谋略。通过流匹配时候和渐进式磨练战略,MagicDriveDiT 不仅晋升了系统的推广智商,还能灵验生成复杂场景。这一身手极地面提高了视频生成的质地,尤其是在生成高分辨率和长时代视频方面贯通杰出。
精准场景落幕
先来看 MagicDriverDiT 的生成落幕。
通过精准的场景落幕,MagicDriveDiT 不错生成许若干见的行驶路况。
比如无信号灯路口让行:
路边起步变谈:
以及夜间行车等。
值得一提的是,MagicDriveDiT 既赈济单个物体的精准落幕:
也赈济复杂的自车 3D 轨迹落幕。
MagicDriveDiT 的举座谋略框架
架构谋略方面,率先,MagicDriveDiT 将跨视角一致性模块引入 STDiT3 的基础模块中,建议了 MVDiT 模块来处置多视角视频合成。
其次,关于自动驾驶场景中常见的多种落幕,MagicDriveDiT 在 STDiT3 的基础上取舍绝顶的落幕分支以及交叉崇拜力分辩处置不同的落幕种类信号。
此前的视频生成齐是基于 2DVAE 编码落幕的,落幕条款的空间编码模块并不适用于 3DVAE 的时空潜变量。针对现存身手在可推广性和落幕条款整合方面的不及,MagicDriveDiT 取舍空间 - 时代条款编码时候,落幕了对时空潜变量的精准落幕。这种身手使得生成的视频在视觉落幕上愈加传神,大致中意自动驾驶欺诈对高质地街景视频的需求。
以下视频空间编码和时空编码对比,此前的视频落幕身手并不适用于 3DVAE 的时空潜变量:
MagicDriveDiT 建议的条款时空编码模块:
磨练身手上,MagicDriveDiT 发现,提高视频分辨率关于生成骨子的质地晋升最显豁。
因此,MagicDriveDiT 取舍了分辨率优先的渐进式的磨练战略,加快模子磨练敛迹,况兼慢慢适配更高分辨率和更长的视频。此外,通过混杂数据磨练,MagicDriveDiT 还落幕了视频长度外推的智商,不错告成生成卓著磨练长度的视频。
△MagicDriveDiT 取舍的渐进式磨练战略
执行落幕显现,MagicDriveDiT 在生成确切街景视频方面的贯通优于现存的其他身手,不仅在分辨率上有所冲破,还在帧数上落幕了显赫晋升,落幕了前所未有的视频生成落幕。
与关联责任的分辨率、时长对比落幕如下:
更多骨子请见论文:
https://arxiv.org/abs/2411.13807
款式地址:https://github.com/flymin/MagicDriveDiT
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿骨子
附上论文 / 款式主页贯穿,以及干系形状哦
咱们会(尽量)实时回话你
点这里� � 关怀我,铭记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日相遇 ~