AI导读:

2月10日,豆包发布的VideoWorld模型在A股市场引发关注,该模型首次实现无需依赖语言模型仅凭视觉信息认知世界。基于潜在动态模型,VideoWorld在保留丰富视觉信息的同时压缩关键决策和动作相关视觉变化,显著提升知识学习效率。AI视觉学习能力的提升有望催发更多AI应用。


2月10日,A股市场中的视觉认知概念板块表现抢眼,尤其是创业板上的星宸科技午后直线拉升直至涨停,同时,全志科技、富瀚微、虹软科技等个股也纷纷大幅冲高。这一波行情的背后,与豆包发布的视频生成实验模型“VideoWorld”密切相关。

据悉,VideoWorld模型在业界首次实现了无需依赖语言模型,仅凭“视觉信息”即可认知世界的突破。这意味着,通过浏览视频数据,机器能够掌握推理、规划和决策等一系列复杂能力。尤为值得一提的是,在仅300M参数量的情况下,VideoWorld已展现出了令人瞩目的模型表现。

目前,该项目已经开源了代码与模型,为行业内的研究者提供了宝贵的资源。

以往,大多数模型在学习知识时都依赖于语言或标签数据,而很少涉及纯视觉信号的学习。VideoWorld则打破了这一常规,通过去掉语言模型,实现了统一执行理解和推理任务的能力。这一创新不仅提升了模型的学习效率,更为AI视觉学习领域带来了新的突破。

那么,VideoWorld是如何实现这一突破的呢?据豆包大模型团队介绍,该模型基于一种潜在动态模型(Latent Dynamics Model,LDM),能够高效压缩视频帧间的变化信息。在保留丰富视觉信息的同时,它还压缩了关键决策和动作相关的视觉变化,从而显著提升了知识学习的效率和效果。

在不依赖任何强化学习搜索或奖励函数机制的前提下,VideoWorld已经达到了专业5段9x9围棋水平,并能够在多种环境中执行机器人任务。这一成果不仅展示了VideoWorld的强大能力,更为AI视觉学习领域的发展注入了新的动力。

然而,VideoWorld模型并非完美无缺。在真实世界环境中的应用,它仍面临着高质量视频生成和多环境泛化等挑战。视频中存在的大量冗余信息会大大影响模型的学习效率,使得视频序列的知识挖掘效率显著落后于文本形式。因此,如何克服这些挑战,进一步提升模型的性能,将是未来研究的重点方向。

AI视觉学习能力的提升,有望催生出更多的AI应用。随着国内AI大模型多模态能力的持续提升,如快手可灵AI大模型、字节豆包AI大模型等视频生成效果的不断优化,AI应用将从中受益。这些底层技术能力的升级,将推动国内AI应用的持续迭代和token调用量的持续增长。

总之,豆包发布的VideoWorld模型为AI视觉学习领域带来了新的突破和发展机遇。随着技术的不断进步和应用场景的不断拓展,AI视觉学习有望在未来发挥更加重要的作用。

(文章来源:科创板日报)