我们选取了国内市面上主流的6款免费AI模型,从以下9个方面对它们进行评测:图像质量、文本与图像的语义一致性、多样性、鲁棒性、生成速度、模型可控性、主观用户体验、软件易用性以及第一次生成准确率。这些模型的免费版本目前均可随时使用,没有明显的使用限制。
作为对比,我们还另外找了两位特殊选手进行对比评测
一次生成完全符合描述的图片:5分
多次生成后完全符合描述:4
多次生成后仅部分符合:2分
部分 | 分数 |
1. 图像质量 | 15 |
2. 文本与图像的语义一致性 | 15 |
3. 多样性 | 15 |
4. 鲁棒性 | 15 |
5. 生成速度 | 5 |
6. 模型可控性 | 15 |
7. 主观体验 | 10 |
8. 软件易用性 | 5 |
9. 第一次生成准确率 | 5 |
总分 | 100 |
我们首先测试了各模型生成图像的基本质量,包括图片的清晰度、细节丰富性以及是否接近真实场景。设定了以下三个场景:
简单场景:
在这一场景下,豆包、通义和元宝表现最佳,生成的图像符合描述。而文心3.5、清言和星火生成的图片更像多云的晴天,没有突出中央的那朵白云。多次生成后,星火虽然有所改善,但云的形状显得不自然,与周围的云层不协调。
复杂场景:
这里,除文心3.5外,其他模型都成功生成了符合描述的场景。文心3.5生成的图片表现较差,未能展现出繁忙的街道场景。
细节要求高的场景:
在这个场景中,文心3.5没有生成带有水珠的苹果,而清言只生成了苹果局部,无法体现完整特写。
第一轮分数统计
大模型 | 字节豆包 | 阿里通义 | 百度文心3.5 | 智谱清言 | 讯飞星火 | |
得分 | 15 | 15 | 15 | 6 | 9 | 12 |
此轮测试中,我们输入了一些从简单到复杂的描述,查看各模型生成的图像是否符合文本的语义。
简单描述:
所有选手在这一场景下都生成了符合要求的图片。
包含具体细节的描述:
在这一场景中,通义、文心3.5和星火的表现不佳,生成的图像未能完全符合描述,要么眼睛颜色不正确,要么没有下雨的场景
复杂描述:
这一场景的第一次生成中,只有豆包的结果完全符合描述。通义和元宝经过第二次生成勉强符合,其他模型多次尝试后仍未生成符合的图片。
第二轮分数统计
大模型 | 字节豆包 | 阿里通义 | 腾讯元宝 | 百度文心3.5 | 智谱清言 | 讯飞星火 |
得分 | 15 | 11 | 14 | 9 | 12 | 9 |
测试模型对同一输入文本的多次生成是否存在多样性,避免每次生成的图像过于相似。
同一输入多次生成:
豆包、通义、元宝、文心3.5、清言、星火:5分
相似输入的对比:
在这三个场景的测试中,大部分模型都展示出了较好的多样性表现。文心3.5在生成错误时需要重新开始对话,导致体验有所下降。
第三轮分数统计
大模型 | 字节豆包 | 阿里通义 | 腾讯元宝 | 百度文心3.5 | 智谱清言 | 讯飞星火 |
得分 | 15 | 15 | 15 | 14 | 15 | 15 |
在这一轮中,我们输入带有拼写错误、不完整句子以及复杂描述,查看模型是否能够应对出错的情况,生成合理的图像。
各模型对拼写错误的处理都较好,能够自动纠正并生成合理图像。
各模型对不完整句子的处理也都较好,能够自动生成默认的合理图像。
对于复杂场景,只有豆包生成的结果完全符合描述,其余模型生成的图像偏离了战场场景。
第四轮分数统计
大模型 | 字节豆包 | 阿里通义 | 腾讯元宝 | 百度文心3.5 | 智谱清言 | 讯飞星火 |
得分 | 15 | 12 | 12 | 12 | 12 | 12 |
评分标准
生成速度 | 得分 |
5s以内 | 5 |
5s-10s | 4 |
10s-15s | 3 |
15s-20s | 2 |
20s-30s | 1 |
大于30s | 0 |
分数统计
大模型 | 字节豆包 | 阿里通义 | 腾讯元宝 | 百度文心3.5 | 智谱清言 | 讯飞星火 |
生成速度 | 10s | 18s | 15s | 8s | 8s | 9s |
生成速度 | 9s | 19s | 12s | 9s | 10s | 10s |
最终得分 | 4 | 2 | 3 | 4 | 4 | 4 |
我们测试了颜色、场景布局和风格控制,观察模型是否能够根据描述准确生成不同的风格和布局。
在颜色控制方面,各位选手的表现都非常出色,能够精准地生成符合颜色描述的图像。
场景布局方面,大多数模型能够较好地把控布局的细节,不过豆包在生成时,默认一次生成四张图,结果导致部分图片包含了三到四套餐具,不完全符合要求。文心3.5、清言和星火则出现了无法准确生成符合描述的布局。
风格控制方面,虽然有一些用户提出通义和文心3.5的输出在抽象立体主义上可能稍有偏离,但在评测过程中,大家对这两位模型的表现给予了认可,因此在风格评测上,所有模型均记满分。
大模型 | 字节豆包 | 阿里通义 | 腾讯元宝 | 百度文心3.5 | 智谱清言 | 讯飞星火 |
得分 | 14 | 14 | 14 | 12 | 12 | 12 |
在这一场景中,大部分模型都成功生成了包含壁炉、书架和雪景的温馨客厅,但文心3.5始终未能生成出带有壁炉的画面。
在这个场景下,各大模型的表现都很优秀,所有生成的图像都符合水彩风格的描述。
第七轮分数统计
大模型 | 字节豆包 | 阿里通义 | 腾讯元宝 | 百度文心3.5 | 智谱清言 | 讯飞星火 |
得分 | 10 | 10 | 10 | 7 | 10 | 10 |
在软件易用性方面,豆包和星火在对话框内提供了操作提示和模板,方便用户了解模型的功能,使用体验友好。不过,星火在查看历史对话记录时不够便利。清言将功能分成多个部分,但对话框中缺少明确的操作提示。而通义、元宝和文心3.5相比之下,操作体验稍显不便,没有提供明确的提示。
分数统计
大模型 | 字节豆包 | 阿里通义 | 腾讯元宝 | 百度文心3.5 | 智谱清言 | 讯飞星火 |
得分 | 5 | 3 | 3 | 3 | 4 | 4 |
第一次生成准确率反映的是模型在首次生成时,完全符合用户描述的概率。这个部分直接体现了模型的生成质量和语义理解能力。
评分标准
准确率 | 得分 |
100% | 5 |
90% | 4 |
80% | 3 |
70% | 2 |
60% | 1 |
小于60% | 0 |
分数统计
大模型 | 字节豆包 | 阿里通义 | 腾讯元宝 | 百度文心 | 智谱清言 | 讯飞星火 |
一次生成准确率 | 94% | 79% | 84% | 53% | 74% | 74% |
得分 | 4 | 2 | 3 | 0 | 2 | 2 |
免费AI | 付费AI | ||||||||
满分 | 评测环节 | 字节豆包 | 腾讯元宝 | 阿里通义 | 智谱清言 | 讯飞星火 | 百度文心3.5 | 百度文心4.0 | ChatGPT |
15 | 1. 图像质量 | 15 | 15 | 15 | 9 | 12 | 6 | 15 | 15 |
15 | 2. 文本与图像的一致 | 15 | 14 | 11 | 12 | 9 | 9 | 15 | 15 |
15 | 3. 多样性 | 15 | 15 | 15 | 15 | 15 | 14 | 15 | 15 |
15 | 4. 鲁棒性 | 15 | 12 | 12 | 12 | 12 | 12 | 15 | 15 |
5 | 5. 生成速度 | 4 | 3 | 2 | 4 | 4 | 4 | 3 | 5 |
15 | 6. 模型可控性 | 14 | 14 | 14 | 12 | 12 | 12 | 14 | 15 |
10 | 7. 主观体验 | 10 | 10 | 10 | 10 | 10 | 7 | 10 | 10 |
5 | 8. 软件易用性 | 5 | 3 | 3 | 4 | 4 | 3 | 3 | 3 |
5 | 9. 一次生成准确率 | 4 | 3 | 2 | 2 | 2 | 0 | 4 | 5 |
100 | 总分 | 97 | 89 | 84 | 80 | 80 | 67 | 94 | 98 |
我们接下来看看参照选手的表现。
在所有测试场景中,文心4.0仅在一个场景中表现欠佳,即“一个摆放了两人餐具的餐桌,桌子中央有一瓶花”的场景,经过3次生成才得到了符合描述的图像。除了这一点,其它场景都在第一次生成时符合了要求,准确率整体表现极佳,与豆包不相上下。然而,生成速度明显比豆包慢一倍。最终得分:94分。
无论是准确性还是生成速度,ChatGPT GPT-4都表现得十分优秀。生成时间约为10秒左右,且首次生成的图像准确率达到了100%。在图像质量上,其生成的效果肉眼可见地优于豆包,并且图像右下角没有水印。最终得分:98分。
综上所述,在免费模型中,字节跳动的豆包以碾压式的优势战胜了其他竞争对手,几乎所有场景都能一次生成符合描述的图像,生成速度约为10秒,与收费模型文心4.0相比,豆包在性能上甚至超越了它。而在图像质量上,ChatGPT GPT-4的表现优于豆包,尤其是画质更佳且没有水印。
因此,最终推荐:
AI文生图 | 缺点 | 优点 |
ChatGPT |
|
|
字节豆包 |
|
|
百度文心4.0 |
|
|