2025-11-03
新!
BLIP3o-NEXT:原生圖像生成的下一個前沿
Salesforce Research 嘅研究員最近發表咗 BLIP3o-NEXT,係一個完全開源嘅基礎模型,屬於 BLIP3o 系列,專門推進原生圖像生成同編輯。呢個模型採用咗 autoregressive 加 diffusion 嘅混合架構,先用 autoregressive 模型根據文字提示同參考圖像生成離散圖像 token,之後用 diffusion 模型利用呢啲 token 嘅隱藏狀態生成高質素圖像。呢種設計結合咗 autoregressive 模型嘅推理能力同 diffusion 模型嘅細節渲染能力。研究團隊發現咗四個關鍵洞見:大部分架構選擇性能差唔多,只要有效擴展同快速推斷就得;強化學習(RL)可以進一步提升原生圖像生成;圖像編輯仍然係挑戰,但透過後訓練同數據引擎可以大大改善指令跟從同一致性;數據質素同規模仍然係決定模型性能上限嘅關鍵因素。BLIP3o-NEXT 喺多個文字轉