字节把GPT-4o级图像生成能力开源了!

美羊羊3个月前教育资讯26

一水 发自 凹非寺

量子位 | 公众号 QbitAI

字节最近真的猛猛开源啊……

这一次,他们直接开源了GPT-4o级别的图像生成能力。

(轻松拿捏“万物皆可吉卜力”玩法~)

字节跳动开源图标_字节跳动开源图标库_

不止于此,其最新融合的多模态模型BAGEL主打一个“大一统”, 将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

虽然活跃参数只有7B(总计14B),但它已经实现了图像理解、生成、编辑等多冠王,实力超越或媲美一众顶尖开源(如Stable Diffusion 3、FLUX.1)和闭源(如GPT-4o、Gemini 2.0)模型。

模型一经发布,不仅迅速登上Hugging Face趋势榜,还立即在引发热议。

有网友见此连连感慨,“字节像领先了整整一代人”。

_字节跳动开源图标_字节跳动开源图标库

OpenAI研究员也公开赞赏, 字节Seed团队在他心目中已经稳居顶级实验室之列。

字节跳动开源图标__字节跳动开源图标库

Okk,我们直接来看BAGEL模型有哪些玩法。

一个模型实现所有多模态功能

作为多模态模型,掌握带图推理算是如今的一个入门级挑战。

扔给它叠放整齐的一块布料,让它想象出布料展开后的样子。

字节跳动开源图标__字节跳动开源图标库

可以看到,生成之前BAGEL模型会自动进行推理,并规划出可行方案:

字节跳动开源图标__字节跳动开源图标库

最终生成的图片如下,一眼看去布料的拼图和花纹没有明显错误:

字节跳动开源图标_字节跳动开源图标库_

换成其他例子,还能看到BAGEL模型支持无缝多轮对话。

先是按照文字提示生成符合要求的图片:

_字节跳动开源图标库_字节跳动开源图标

然后紧接着生成人物的公仔形象,并推出销售口号。

_字节跳动开源图标_字节跳动开源图标库

当然,除了上面这些,懂推理的BAGEL模型还支持复杂图像编辑。

最方便的,当属一键试妆了:

_字节跳动开源图标库_字节跳动开源图标

展开其思考过程,不难发现它是真懂(doge)。

字节跳动开源图标_字节跳动开源图标库_

其他我们相对熟悉的技能,如人物表情转换、凭空造物等更是不在话下。

字节跳动开源图标库__字节跳动开源图标

最后,BAGEL模型超越传统图像编辑,还具备多视角合成和导航等“世界建模”能力。

360°全自动观赏装在盒子里的手办:

字节跳动开源图标_字节跳动开源图标库_

又或者开局一张图,视角一步步推进,沉浸式走进小巷:

字节跳动开源图标__字节跳动开源图标库

总之,正如字节团队所强调的,BAGEL模型已经展现出统一多模态能力。

那么接下来的问题是——

它怎么做到的?

重新定义“涌现能力”

据论文介绍,BAGEL模型采用了MoT(Mixture-of-Transformer-Experts)架构。

它由两个Transformer专家组成,一个专注于多模态理解,另一个专注于多模态生成。作为对应,模型也使用了两个独立的视觉编码器,分别用于捕捉图像的像素级和语义级特征。

简单来说,像素级编码器专注于图像的底层细节,如颜色、纹理等;语义级编码器则关注图像的高层语义,如物体的类别、场景的含义等。

整体框架遵循“下一个token组预测范式”,即模型根据已有的多模态输入,学习预测后续的token,从而不断优化自身对多模态数据的理解和生成能力。

字节跳动开源图标库_字节跳动开源图标_

顺便一提,BAGEL基础模型是基于Qwen2.5-7B-Instruct和siglip-so400m-14-384-flash-attn2模型进行微调,并使用了FLUX.1-schnell VAE模型。

基于上述架构,团队在模型训练中得出了一项重要发现。

随着规模化数据与模型参数的双重扩展,BAGEL模型表现出了一种“涌现能力(Emerging Properties)”——多模态理解和生成能力较早出现,随后是基础编辑能力,而复杂的智能编辑能力则在后期显现。

所谓的涌现能力,其实早已在大型视觉或语言模型中被广泛探讨。不过在论文中,聚焦于统一多模态基础模型的背景下,团队重新定义了涌现能力:

结合BAGEL模型的表现,团队认为其揭示了一种新兴模式,即高级多模态推理是在完善的基础技能之上逐步形成的,而非某种“突变”。

另外论文中提醒,将VAE(变分自编码器)与ViT(视觉Transformer)特征相结合,可以显著提升智能编辑能力。

字节跳动开源图标库__字节跳动开源图标

最后,更多基准测试结果也展现了BAGEL模型领先的图像理解、生成、编辑能力。

例如在图像理解任务中,在激活参数规模相当(7B)的情况下,BAGEL模型优于现有的统一模型Janus-Pro。

同时与专用理解模型(如Qwen2.5-VL和InternVL2.5)相比,BAGEL在大多数基准测试上表现更优。

字节跳动开源图标库_字节跳动开源图标_

在GenEval和WISE这两个评估图像生成能力的测试中,BAGEL实现了88%的整体得分,优于专用生成模型(FLUX.1-dev:82%、SD3-Medium:74%)和统一模型(Janus-Pro:80%、MetaQuery-XL:80%)。

字节跳动开源图标__字节跳动开源图标库

在图片编辑能力测试中,BAGEL的表现可与Step1X-Edit(当前领先的专用图像编辑模型)相媲美,并且优于Gemini 2.0。

_字节跳动开源图标_字节跳动开源图标库

当然,也有更直观的对比:

_字节跳动开源图标库_字节跳动开源图标

目前模型已在Hugging Face上架,采用相对宽松的Apache 2.0许可证。

项目主页:

https://bagel-ai.org/

论文:

https://arxiv.org/abs/2505.14683

相关文章

麻烦大了,曾毅到底碰了谁的“蛋糕”,凤凰传奇再次遭受“重创”

麻烦大了,曾毅到底碰了谁的“蛋糕”,凤凰传奇再次遭受“重创”

手表的这个事情直接让曾毅陷入了公关危机,让他从“国民老好人”变成了“油腻大叔”。特别讽刺的是,曾毅此前在《苍茫的天涯是我的爱》扮演的司机赵天涯是个特别深情的角色,与女友分手后,多年保持单身,依然深爱...

注意!2025北京中招志愿填报问题解答发布

注意!2025北京中招志愿填报问题解答发布

中招志愿填报于2025年7月13日8:30—17日17:00进行,考生须在志愿填报时间截止之前完成志愿信息提交。2025年7月17日17:00志愿填报系统关闭后,不能以任何理由修改志愿信息。为了更好的...

美代表安理会上大骂以色列 话音刚落发现搞混了

美代表安理会上大骂以色列 话音刚落发现搞混了

伊朗展示"破坏力最强导弹" 仅弹头就长4米重达1.5吨 继公开使用“泥石”导弹打击以色列后,伊朗又公布了“霍拉姆沙赫尔-4”弹道导弹发射相关画面,该导弹是伊朗破坏力最强的导弹。 据CCTV国际时讯6月...

考试院破例为救人考生补考,网友:善意不该被辜负,规则也有温度

考试院破例为救人考生补考,网友:善意不该被辜负,规则也有温度

姜昭鹏同学,这位充满正义与勇气的少年,因为义无反顾地投身救人行动而遗憾缺考。这一事件引起了广泛的社会关注和热议。 山东省教育招生考试院在面对这一特殊情况时,迅速给出了最新回应:同意姜昭鹏同学补考,并...

“24小时的电子哨兵”,移动看家让牵挂有迹可循

“24小时的电子哨兵”,移动看家让牵挂有迹可循

“妈,现在要关火了。”“妈,水龙头没有关紧。”穿行在步履匆匆的上班人潮中,谷成良习惯性地点开手机,通过移动看家摄像头查看家里的实时情况。这个小小的摄像头,像一双跨越千里的眼睛,让他在钢筋水泥的写字楼里...

刘强东送外卖,请外卖员吃火锅,本人头发白显沧桑憔悴,东哥老了

刘强东送外卖,请外卖员吃火锅,本人头发白显沧桑憔悴,东哥老了

让身价千亿的大佬给普通人送外卖,这是不可想象的事,恐怕比中大奖还要难。 不过,有人却获得了这样的待遇。 谁是这样的幸运儿? 这位阴先生便是其中之一了。 近日,阴先生晒出了和刘强东的合照,图片中刘强东手...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:hnyanshan点击复制并跳转微信