谷歌Fluid新突破:AI文生图自回归模型优于扩散模型?

   发布时间:2024-10-23 14:38 作者:陆辰风

谷歌DeepMind团队与麻省理工学院(MIT)携手,近日推出了一款名为“Fluid”的全新模型,该模型在文生图领域取得了显著突破。当模型参数规模达到105亿时,其表现尤为出色。

在文生图技术中,自回归模型与扩散模型一直备受关注。其中,扩散模型因能生成高质量图像而备受瞩目,而自回归模型则常用于文本生成。

然而,谷歌DeepMind与MIT团队的研究发现,通过采用连续tokens和随机生成顺序,自回归模型的性能和可扩展性得到了显著提升。

连续tokens的使用减少了信息丢失,使模型能更好地重建图像。而随机生成顺序则让模型在理解整体图像结构时表现更为出色。

在重要基准测试中,Fluid模型超越了Stable Diffusion 3扩散模型和谷歌此前的Parti自回归模型。与Parti相比,Fluid在参数规模较小的情况下仍取得了相同的FID分数。

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群