VideoScene一步生成3D场景视频颠覆传统重建效率瓶颈

分类：开源社区
大小：未知
支持：

发布： 2025-07-29 14:54:08
人气： 14
评论： 0

标签：

开源社区有哪些

应用介绍

　　始智区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。A800/H20等算力6.25元/卡时，支持在线微调训练，及线部署和。

　　随着VR/AR、游戏娱乐、自动驾驶等领域对 3D 场景生成的需求不断攀升，从稀疏视角重建 3D 场景已成为一大热点课题。但传统方法往往需要大量图片、繁琐的多步迭代，既费时又难以保证高质量的 3D 结构重建。

　　来自清华大学的研究团队首次提出VideoScene：一款 “一步式” 视频扩散模型，专注于 3D 场景视频生成。它利用了 3D-aware leap flow distillation 策略，通过跳跃式跨越冗余降噪步骤，极大地加速了推理过程，同时结合动态降噪策略，实现了对 3D 先验信息的充分利用，从而在保证高质量的同时大幅提升生成效率。现已上线始智AI-wisemodel开源社区，欢迎体验。

　　在稀疏视角重建领域，从少量图像中精准恢复 3D 场景是个极具挑战性的难题。传统方法依赖多视角图像间的匹配与几何计算，但当视角稀疏时，匹配点不足、几何约束缺失，使得重建的 3D 模型充满瑕疵，像物体结构扭曲、空洞出现等。

　　为突破这一困境，一些前沿方法另辟蹊径，像 ReconX 就创新性地借助视频生成模型强大的生成能力，把重建问题与生成问题有机结合。它将稀疏视角图像构建成全局点云，编码为 3D 结构条件，引导视频扩散模型生成具有 3D 一致性的视频帧，再基于这些帧重建 3D 场景，在一定程度上缓解了稀疏视角重建的不适定问题。

　　不过，当前大多数 video to 3D 工具仍存在效率低下的问题。一方面，生成的 3D 视频质量欠佳，难以生成三维结构稳定、细节丰富、时空连贯的视频。在处理复杂场景时，模型容易出现物体漂移、结构坍塌等问题，导致生成的 3D 视频实用性大打折扣。

　　另一方面，基于扩散模型的视频生成通常需要多步降噪过程，每一步都涉及大量计算，不仅耗时久，还带来高昂的计算开销，限制了其在实际场景中的应用。

　　此前研究团队提出 video-to-3D 的稀释视角重建方法 ReconX，核心在于将 3D结构指导融入视频扩散模型的条件空间，以此生成 3D 一致的帧，进而重建3D场景。它通过构建全局点云并编码为3D结构条件，引导视频扩散模型工作，在一定程度上解决了稀疏视角重建中 3D 一致性的问题。

　　VideoScene 继承了 ReconX 将 3D 结构与视频扩散相结合的理念，并在此基础上实现了重大改进，堪称 ReconX 的 “turbo 版本”。

　　在 3D 结构指导方面，VideoScene 通过独特的3D跃迁流蒸馏策略，巧妙地跳过了传统扩散模型中耗时且冗余的步骤，直接从含有丰富 3D 信息的粗略场景渲染视频开始，加速了整个扩散过程。同时也使得 3D 结构信息能更准确地融入视频扩散过程。

　　在生成视频帧时，VideoScene 引入了更强大的动态降噪策略，不仅仅依赖于固定的降噪模式，而是根据视频内容的动态变化实时调整降噪参数，从而既保证了生成视频的高质量，又极大地提高了效率。

　　通过在多个真实世界数据集上的大量实验，VideoScene 展示出了卓越性能。它不仅在生成速度上远超现有的视频扩散模型，而且在生成质量上也毫不逊色，甚至在某些情况下还能达到更好的效果。这意味着 VideoScene 有望成为未来视频到 3D 应用中的一个重要工具。在实时游戏、自动驾驶等需要高效 3D 重建的领域，有潜力能发挥巨大的作用。

　　wisemodel社区上线了“VideoScene”的镜像，支持一键创建在线体验或者API服务，选中“VideoScene”的镜像，点击部署在线体验或者部署API服务。

　　进入后，选择相应的硬件配置，其他信息已经预填写，可以根据需要调整，如果无需调整，直接点击“提交订单”按钮，体验进入后台的启动阶段。大概等待1-2分钟左右，体验进入运行中的状态。

　　公开状态的在线体验可以直接在“在线体验”的页面上点击相应的体验，进入体验的页面；私有状态的在线体验需要前往“用户中心-我的资源-体验”进入体验的页面。

　　论文有两位共同一作。汪晗阳，清华大学计算机系本科四年级，研究方向为三维视觉、生成模型，已在CVPR、ECCV、NeurIPS等会议发表论文。刘芳甫，清华大学电子工程系直博二年级，研究方向为生成模型 (3D AIGC和Video Generation等)，已在CVPR、ECCV、NeurIPS、ICLR、KDD等计算机视觉与人工智能顶会发表过多篇论文。

　　开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

　　始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：

　　欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到，也可以扫码添加wisemodel微信。

　　始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。