首页 > 基础资料 博客日记

首个开源世界模型,李飞飞点赞:把视频直接变成一个可探索的 4D 世界

2026-04-08 15:00:01基础资料围观1

本篇文章分享首个开源世界模型,李飞飞点赞:把视频直接变成一个可探索的 4D 世界,对你有帮助的话记得收藏一下,看极客资料网收获更多编程知识

点个 Star,开源项目地址:https://github.com/inspatio/inspatio-world

首个开源世界模型,李飞飞点赞:把视频直接变成一个可探索的 4D 世界

image.png

这两天看到一个很炸的项目,叫 InSpatio-World

一句话说清楚它在干嘛:

把一段普通视频,直接变成一个可探索、可导航、可回溯的 4D 世界。

这个点为什么值得聊。

因为过去大多数视频模型,解决的是生成一段能看的内容。
你看到的是画面、镜头、运镜、动作。

InSpatio-World 想做的,已经不是把视频变得更像视频。
它想做的是:把视频背后的场景,变成一个你可以走进去探索的世界。

2.png

官网:https://www.inspatio.com/zh/models/world


这项目牛在哪

官方给它的定义很直接:

首个以参考视频为条件的 4D 世界模型。

输入是一段单视频。
输出不是简单补帧,也不是换个镜头看看。
输出是一个动态世界,你可以自由探索、导航,甚至重新回到某个时刻继续看。

这个差别很大。

过去的视频,更像一条已经录好的河流。
你只能站在岸边看它流过去。

现在这个项目想做的是:

把整条河,连同河岸、石头、水流方向和时间变化,一起交给你。

你不只是观众。
你开始变成进入世界的人。


它不是在模拟像素,它是在试着模拟世界

这件事最关键的技术点,叫 State-Anchored World Modeling

大白话理解,就是很多生成模型其实只是在连续地生成看起来合理的画面。
它们擅长让你觉得像,未必真的维护了一个持续存在的世界状态。

所以就会出现很多老问题:

  • 物体出了镜头就容易失真
  • 长时间生成容易漂
  • 换个视角,空间关系可能崩
  • 时间拉长后,因果和连续性很难稳住

InSpatio-World 想解决的,就是这些问题。

它的思路是把参考视频锚定成一个局部世界状态,然后随着时间去维护和演化这个状态,让生成结果在空间和时间上尽量保持一致。官方也明确把这个方法概括为 World State Anchoring、Spatiotemporal Autoregression 和 Joint Distribution Matching Distillation。

说得更直白一点:

很多视频模型是在画连续截图,
InSpatio-World 更像是在维护一个持续运转的小世界。

这就是它最值得开发者关注的地方。


为什么开发者会对它上头

因为这个项目不是那种看完一句牛逼就结束的 Demo。
它天然就带着很强的可玩性。

你可以很自然地想到这些东西:

  • 能不能加键盘控制
  • 能不能加手柄交互
  • 能不能自己定义视角轨迹
  • 能不能做时间回放和重走
  • 能不能做成小游戏
  • 能不能给 Agent 当交互环境

而 GitHub 仓库里,项目也确实把这条路留出来了。

README 公开了完整推理流程,包含视频 caption、深度估计、点云渲染和最终 v2v inference 三个步骤;同时还提供了轨迹控制方式,用户可以通过 --traj_txt_path 来控制新视角合成路径,内置了如 x_y_circle_cycle.txtzoom_out_in.txt 这样的预设轨迹。

开源项目地址:https://github.com/inspatio/inspatio-world

官网:https://www.inspatio.com/models/world
交流群:https://discord.com/invite/SyyjR3Z57w

这意味着什么。

意味着它不是一个只适合围观的研究项目。
它已经有了很明显的二次开发入口。

你完全可以在它上面继续往外长:

  • 交互式世界浏览器
  • 4D 相册
  • 视频可探索化产品
  • 轻量小游戏
  • Agent sandbox
  • 自动驾驶仿真场景
  • 具身智能训练环境

而这些方向,也正是官方明确写出来的应用场景,包括 Embodied Intelligence、Autonomous Driving、4D Photo Album、Toward World Simulation


它最有意思的地方,是把视频这件事往前推了一大步

过去大家对 AI 视频的理解,大多还是:

  • 生成视频
  • 看视频
  • 转发视频

但世界模型这条路,真正更大的想象空间是:

  • 进入视频
  • 控制视角
  • 控制时间
  • 改变交互方式
  • 让人和 Agent 都能在里面活动

官网里有一句话写得很好:

Beyond the Frame. Into the World.
以及另一句更狠的:

From simulating pixels to simulating worlds.

这两句话其实已经把它的野心讲透了。

它不是想做一个更花哨的视频生成器。
它是在往下一代交互媒体和世界仿真的方向探。


指标层面,它也不是空讲概念

根据官方页面公开信息,InSpatio-World 的 1.3B 参数模型WorldScore-Dynamic 排行榜上位列实时方法第一,运行速度达到 单 GPU 24 FPS 实时生成。技术页还写到,它在单张 RTX 4090 上能跑到 10 FPS。

这件事很重要。

因为很多听起来很未来的系统,实际只能离线慢慢跑。
离实时、交互、开发者上手,还隔着很远。

但 InSpatio-World 公开强调的,就是:

它已经在往实时可交互的方向走。

这就让它从研究展示,开始接近真正的开发底座。


站在开发者视角,我为什么觉得这个项目值得 Star

我会给四个理由。

1. 它不只是又一个视频生成项目

它在重新定义一件事:

视频,能不能直接成为世界的入口。

2. 它有明显的 Fork 价值

仓库公开了模型权重下载方式、推理流程、轨迹控制和代码结构,已经具备继续做交互层、玩法层和工具层的基础。仓库当前也已经公开在 GitHub,采用 Apache 2.0 许可证。

开源项目地址:https://github.com/inspatio/inspatio-world

官网:https://www.inspatio.com/models/world
交流群:https://discord.com/invite/SyyjR3Z57w

3. 它兼顾研究深度和社区传播性

很多研究项目很强,但普通开发者接不住。
这个项目的好处是,你看完很容易立刻想到:

我能拿它做点什么。

4. 它踩在一个更大的趋势上

世界模型真正有价值的,不只是生成内容。
而是让系统拥有对空间、时间、状态和因果的持续理解。

官方在技术页里把长期愿景也写得很明确:

  • Persistent Worlds
  • Causal Interaction
  • Agent-Centric Learning

这就说明,InSpatio-World 不是终点。
它更像一个起点。


这类项目,接下来会越来越重要

如果说前几年大家主要在卷谁更会生图、谁更会生视频。
那往后一个更值得看的方向,一定是:

谁更会维护世界状态。

因为内容生成只是第一步。
真正更大的价值在后面:

  • 能不能长时间稳定
  • 能不能支持交互
  • 能不能支持控制
  • 能不能支持 Agent 学习
  • 能不能从播放内容,走向模拟世界

InSpatio-World 至少把这件事,做成了一个开发者可以摸到、跑起来、继续改的开源项目。
这就已经很难得了。


最后

很多项目让人觉得厉害。
少数项目会让开发者有一种很直接的冲动:

这玩意我想自己 Fork 下来试试。

InSpatio-World 就属于后者。

以前我们只是看视频。
现在,视频开始变成一个你可以真正走进去的世界。

这件事,本身就足够让人兴奋。


项目地址


文章来源:https://www.cnblogs.com/Alandre/p/19835410
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!

标签:

相关文章

本站推荐

标签云