通义千问推出图像生成模型Qwen-Image
8月5日,通义千问系列推出首个图像生成基础模型Qwen-Image并开源,该模型参数达200亿,采用MMDiT架构,其超强文本渲染能力引发关注。
据介绍,Qwen-Image擅长复杂图文混合布局生成,在书籍封面、海报、PPT等场景中,生成图像中的文字准确度高,能随物体角度自然变化,中英文均支持高保真输出。实测显示,其生成的“李白写诗”古典插画中,诗句与画面融合自然;企业级PPT页面虽有细微瑕疵,但主体文字和布局符合要求;面包店宣传图能精准将“动物奶油”文字对应到蛋糕上。
此外,该模型具备一致性图像编辑能力,支持风格迁移、文字修改等操作,在GenEval、GEdit等多个公开基准测试中均获SOTA。目前,模型已在Qwen-Chat上线,开源资源同步发布于Model-Scope、Hugging Face等平台,用户可直接体验或二次开发。(里欣)
(编辑:索朗次仁)






