3月4日,智谱发布“智谱2025开源年”的第一个模型:首个支持生成汉字的开源文生图模型——CogView4,其在DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA(State-of-the-art股票线上配资开户网,指通过实验证明优于现有所有方案的方法或模型)。该模型也是首个遵循Apache 2.0协议的图像生成模型。
DPG-Bench(Dense Prompt Graph Benchmark)是一个用于评估文本到图像生成模型的基准测试,主要关注模型在复杂语义对齐和指令跟随能力方面的表现。
智谱称,CogView4具备较强的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能够生成在给定范围内的任意分辨率图像,同时具备较强的文字生成能力。
CogView4技术上的领先性在于,其支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型,能更好地满足广告、短视频等领域的创意需求。
在技术实现上,CogView4将文本编码器从纯英文的T5 encoder换为具备双语能力的GLM-4 encoder,并通过中英双语图文进行训练,使CogView4模型具备双语提示词输入能力。
其次,CogView4支持输入任意长度提示词,能够生成范围内任意分辨率图像,不仅使用户创作更加自由,也提升了训练效率。
智谱表示,CogView4模型支持Apache2.0协议,后续会陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也即将推出。
“智谱作为国内最早的开源大模型公司股票线上配资开户网,始终致力于推动AI普惠。2025年是智谱开源年,我们还将陆续开源基础模型、推理模型、多模态模型、Agent模型等。”智谱相关负责人说。