字节跳动推出OmniHuman,引领AI数字人新潮流
AI导读:
字节跳动数字人团队推出全新AI数字人模型OmniHuman,实现从单张图像到逼真全身动态视频的跨越,引领AI数字人新潮流。同时,全球数字人产业蓬勃发展,市场前景广阔。
在AI技术蓬勃发展的浪潮中,初创公司与创新项目层出不穷,而头部互联网企业在AI领域的探索同样如火如荼。2025年2月6日,字节跳动数字人团队再次引领潮流,推出了革命性的多模态数字人方案——OmniHuman。这一方案能够基于任意尺寸和人物占比的单张图片,结合输入的音频,生成生动自然的人物视频,效果令人赞叹。
字节跳动发布OmniHuman,开启AI数字人新篇章
OmniHuman-1,这一由字节跳动公司研究人员精心打造的人工智能模型,实现了从单张图像到逼真全身动态视频的跨越。该模型不仅能够根据图片和音频生成自然流畅的说话、唱歌人类动作视频,而且在动画生成过程中保持了极高的真实感,精准捕捉面部表情、身体动作、手势变化及物体交互等细节,超越了以往AI模型的局限。
OmniHuman支持多种类型的输入信号,包括单一的人物图片、音频和视频等,能够生成涵盖面部表情到全身动作的逼真真人视频动画。无论是说话、唱歌还是跳舞,都能呈现出令人信服的效果。这一突破得益于其采用的基于DiT架构的多模态运动条件混合训练策略,有效解决了高质量数据稀缺的问题。通过结合文本、音频和人体动作等多种输入,并采用“全条件”训练的创新方法,OmniHuman得以从更大、更丰富的数据集中学习,从而实现了质的飞跃。
经过与多个现有模型的定量对比,OmniHuman算法在多项评估指标上均展现出显著优势。这得益于其超过18700小时的人类视频数据训练,以及引入的多种条件信号(如文本、音频和姿势)。这些努力不仅提升了视频生成的质量,还有效减少了数据的浪费。
业内人士指出,OmniHuman的成功推出,标志着AI视频生成技术竞争进入了一个全新的阶段。谷歌、Meta和微软等科技巨头也在积极追逐类似技术,以期在这一领域占据一席之地。
数字人产业蓬勃发展,市场前景广阔
当前,全球数字人产业正迎来高产时代,相关产业规模持续扩大。互联网巨头们纷纷布局这一领域,以期抓住市场机遇。百度、腾讯、阿里巴巴等互联网公司,以及华为云、京东云、字节跳动、科大讯飞、商汤科技、小冰公司等厂商都已参与到虚拟数字人的生产中。
据天眼查数据显示,截至2024年9月底,中国与数字人相关的企业数量已达114.4万家。仅2024年前五个月,就新增注册企业17.4万余家,充分显示了数字人产业的市场潜力与活力。浙商证券认为,数字人有望成为AI大模型的服务入口,在帮助企业实现降本增效的同时,实现toB服务在toC侧的变现闭环。
IDC最新发布的报告也指出,中国虚拟数字人市场规模呈现高速增长趋势。预计到2026年,这一市场规模将达到102.4亿元。随着AI技术的不断进步,智能驱动型虚拟数字人将成为市场主流。未来,随着自然语言处理、深度学习算法等AI技术的不断突破,智能驱动型虚拟数字人的感知能力、表达能力与认知能力都将得到大幅提升,成本也将进一步降低。
在性能与成本优势不断显现的背景下,智能驱动型虚拟数字人将逐步取代真人驱动型虚拟数字人,成为市场主流。尤其是AIGC技术的兴起,将为智能驱动型数字人的个性化定制及智能化交互能力注入新的活力,推动其应用领域的不断拓展和深化。
(文章来源:中国基金报,经编辑整理)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。