豆包发布VideoWorld模型，引领AI视觉学习新突破

期货要闻 2025-02-10 16:31:20 来源：科创板日报作者：网络

AI导读：

2月10日，豆包发布的VideoWorld模型在A股市场引发关注，该模型首次实现无需依赖语言模型仅凭视觉信息认知世界。基于潜在动态模型，VideoWorld在保留丰富视觉信息的同时压缩关键决策和动作相关视觉变化，显著提升知识学习效率。AI视觉学习能力的提升有望催发更多AI应用。

2月10日，A股市场中的视觉认知概念板块表现抢眼，尤其是创业板上的星宸科技午后直线拉升直至涨停，同时，全志科技、富瀚微、虹软科技等个股也纷纷大幅冲高。这一波行情的背后，与豆包发布的视频生成实验模型“VideoWorld”密切相关。

据悉，VideoWorld模型在业界首次实现了无需依赖语言模型，仅凭“视觉信息”即可认知世界的突破。这意味着，通过浏览视频数据，机器能够掌握推理、规划和决策等一系列复杂能力。尤为值得一提的是，在仅300M参数量的情况下，VideoWorld已展现出了令人瞩目的模型表现。

目前，该项目已经开源了代码与模型，为行业内的研究者提供了宝贵的资源。

以往，大多数模型在学习知识时都依赖于语言或标签数据，而很少涉及纯视觉信号的学习。VideoWorld则打破了这一常规，通过去掉语言模型，实现了统一执行理解和推理任务的能力。这一创新不仅提升了模型的学习效率，更为AI视觉学习领域带来了新的突破。

那么，VideoWorld是如何实现这一突破的呢？据豆包大模型团队介绍，该模型基于一种潜在动态模型（Latent Dynamics Model，LDM），能够高效压缩视频帧间的变化信息。在保留丰富视觉信息的同时，它还压缩了关键决策和动作相关的视觉变化，从而显著提升了知识学习的效率和效果。

在不依赖任何强化学习搜索或奖励函数机制的前提下，VideoWorld已经达到了专业5段9x9围棋水平，并能够在多种环境中执行机器人任务。这一成果不仅展示了VideoWorld的强大能力，更为AI视觉学习领域的发展注入了新的动力。

然而，VideoWorld模型并非完美无缺。在真实世界环境中的应用，它仍面临着高质量视频生成和多环境泛化等挑战。视频中存在的大量冗余信息会大大影响模型的学习效率，使得视频序列的知识挖掘效率显著落后于文本形式。因此，如何克服这些挑战，进一步提升模型的性能，将是未来研究的重点方向。

AI视觉学习能力的提升，有望催生出更多的AI应用。随着国内AI大模型多模态能力的持续提升，如快手可灵AI大模型、字节豆包AI大模型等视频生成效果的不断优化，AI应用将从中受益。这些底层技术能力的升级，将推动国内AI应用的持续迭代和token调用量的持续增长。

总之，豆包发布的VideoWorld模型为AI视觉学习领域带来了新的突破和发展机遇。随着技术的不断进步和应用场景的不断拓展，AI视觉学习有望在未来发挥更加重要的作用。

（文章来源：科创板日报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。