[科技] 中国首个！全面对标Sora

[复制链接]

20043 0

大悟 发表于 2024-4-27 15:52:40 | 只看该作者

27 日，在中关村论坛未来人工智能先锋论坛上，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。

该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。
据介绍，Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。
多维度模拟真实世界02全球首个U-ViT融合架构
Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。
2023年3月，团队开源全球首个基于U-ViT架构的多模态扩散大模型UniDiffuser，在全球范围内率先完成融合架构的大规模可扩展性（Scaling Law）验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型，支持图文模态间的任意生成和转换。在架构上，UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。
自今年2月Sora发布推出后，团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型，显著提升视频的连贯性与动态性。
从图文任务的统一到融合视频能力，作为通用视觉模型，Vidu能够支持生成更加多样化、更长时长的视频内容，同时面向未来，灵活架构也将能够兼容更广泛的模态，进一步拓展多模态通用能力的边界。
清华大学教授、生数科技首席科学家朱军在论坛上表示，快速突破源于长期积累和多项原创成果。Vidu的命名不仅谐音“Video”，也蕴含“We do”的寓意。Vidu的问世，不仅是U-ViT融合架构在大规模视觉任务中的又一次成功验证，也代表了生数科技在多模态原生大模型领域的持续创新能力和领先性。
他表示，模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合。希望与产业链上下游企业、研究机构加强合作，共同推动视频大模型进展。
编辑：闫嘉欣
责编：阚枫

上一篇：不炒作、不营销人设、被央视点名的《浪姐5》4位姐姐，个个是宝
下一篇：全球首个！纯电驱拟人奔跑全尺寸人形机器人来了，能以6公里时速稳定奔跑

@
免
责
声
明

1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义，请点击“举报”按钮，其他联系方式或无法及时处理。