10大免费AI图片生成工具推荐,原来这些最好用!

发表时间: 2024-09-19 21:11

我们选取了国内市面上主流的6款免费AI模型,从以下9个方面对它们进行评测:图像质量文本与图像的语义一致性多样性鲁棒性生成速度模型可控性、主观用户体验、软件易用性以及第一次生成准确率。这些模型的免费版本目前均可随时使用,没有明显的使用限制。


作为对比,我们还另外找了两位特殊选手进行对比评测

  • 百度 文心一言4.0 Turbo(每3小时免费提供100次问答)
  • OpenAI ChatGTP GTP-4o(每天提供2次免费图像生成)


参评选手

  • 字节 豆包
  • 阿里 通义千问
  • 腾讯 元宝
  • 百度 文心一言3.5
  • 智谱 清言
  • 讯飞 星火
  • 百度 文心一言4.0
  • OpenAI ChatGTP GTP-4o


评分标准:满分100分

一次生成完全符合描述的图片:5分

多次生成后完全符合描述:4

多次生成后仅部分符合:2分

部分

分数

1. 图像质量

15

2. 文本与图像的语义一致性

15

3. 多样性

15

4. 鲁棒性

15

5. 生成速度

5

6. 模型可控性

15

7. 主观体验

10

8. 软件易用性

5

9. 第一次生成准确率

5

总分

100


1.图像质量评测(总分值:15分)

我们首先测试了各模型生成图像的基本质量,包括图片的清晰度、细节丰富性以及是否接近真实场景。设定了以下三个场景:


简单场景

  • 输入文本:“一片晴朗的蓝天,中央有一朵白云。”(分值:5分)

在这一场景下,豆包通义元宝表现最佳,生成的图像符合描述。而文心3.5清言星火生成的图片更像多云的晴天,没有突出中央的那朵白云。多次生成后,星火虽然有所改善,但云的形状显得不自然,与周围的云层不协调。


复杂场景

  • 输入文本:“夜晚繁忙的城市街道,路灯和霓虹灯照亮着街道,车流和人群川流不息。”(分值:5分)

这里,除文心3.5外,其他模型都成功生成了符合描述的场景。文心3.5生成的图片表现较差,未能展现出繁忙的街道场景。


细节要求高的场景

  • 输入文本:“一只红色苹果的特写,上面有一片绿叶,表面有水滴。”(分值:5分)

在这个场景中,文心3.5没有生成带有水珠的苹果,而清言只生成了苹果局部,无法体现完整特写。


第一轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

15

15

15

6

9

12


2. 文本与图像的语义一致性评测(总分值:15分)

此轮测试中,我们输入了一些从简单到复杂的描述,查看各模型生成的图像是否符合文本的语义。


简单描述

  • 输入文本:“一只在绿地上奔跑的棕色狗。”(分值:5分)

所有选手在这一场景下都生成了符合要求的图片。


包含具体细节的描述

  • 输入文本:“一只蓝眼睛的白猫坐在红色靠垫上,靠垫旁边的窗外正下着雨。”(分值:5分)

在这一场景中,通义文心3.5星火的表现不佳,生成的图像未能完全符合描述,要么眼睛颜色不正确,要么没有下雨的场景


复杂描述

  • 输入文本:“一座未来城市的景象,有飞行的汽车,高耸的玻璃建筑反射着夕阳的光辉,透明的人行道上有人行走。”(分值:5分)

这一场景的第一次生成中,只有豆包的结果完全符合描述。通义元宝经过第二次生成勉强符合,其他模型多次尝试后仍未生成符合的图片。


第二轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

15

11

14

9

12

9


3. 多样性评测(总分值:15分)

测试模型对同一输入文本的多次生成是否存在多样性,避免每次生成的图像过于相似。


同一输入多次生成

  • 输入文本:“秋天的森林中一间小木屋,周围是五彩缤纷的树叶。”(分值:5)

豆包、通义、元宝、文心3.5、清言、星火:5分


相似输入的对比

  • 输入文本1:“一处山间风景,河流穿过山谷。”(分值:5分)
  • 输入文本2:“一处山间风景,山谷中有一个小湖,湖面反射出周围的山峰。”(分值:5分)

在这三个场景的测试中,大部分模型都展示出了较好的多样性表现。文心3.5在生成错误时需要重新开始对话,导致体验有所下降。


第三轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

15

15

15

14

15

15


4.鲁棒性评测输入事例(总分值:15分)

在这一轮中,我们输入带有拼写错误、不完整句子以及复杂描述,查看模型是否能够应对出错的情况,生成合理的图像。


  • 拼写错误或不完整输入
  • 输入文本:“一只蓝色的蝴d飞翔在一片花海上。”(包含拼写错误:蝴d)(分值:5分)

各模型对拼写错误的处理都较好,能够自动纠正并生成合理图像。


  • 不完整句子
  • 输入文本:“一个人站在大树下,穿着...”(不完整描述)(分值:5分)

各模型对不完整句子的处理也都较好,能够自动生成默认的合理图像。


  • 复杂文本
  • 输入文本:“一个穿着闪亮盔甲的中世纪骑士站在战场上,手持大剑,背景中有一座城堡,头顶上是乌云密布的天空。”(分值:5分)

对于复杂场景,只有豆包生成的结果完全符合描述,其余模型生成的图像偏离了战场场景。


第四轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

15

12

12

12

12

12

5.生成速度评测(总分值:5分)

  • 短文本
  • 输入文本:“一朵红玫瑰。”

  • 长文本
  • 输入文本:“一群人在大公园里享受野餐,有孩子在玩游戏,大人们在交谈,食物铺在大树下的一张大毯子上。”

评分标准

生成速度

得分

5s以内

5

5s-10s

4

10s-15s

3

15s-20s

2

20s-30s

1

大于30s

0

分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

生成速度

10s

18s

15s

8s

8s

9s

生成速度

9s

19s

12s

9s

10s

10s

最终得分

4

2

3

4

4

4


6.模型可控性评测(总分值:15分)

我们测试了颜色、场景布局和风格控制,观察模型是否能够根据描述准确生成不同的风格和布局。

  • 颜色控制:(分值:5分)
  • 输入文本1:“日落时分,海面上方的天空被染成橙色和粉色。”
  • 输入文本2:“日落时分,海面上方的天空被染成紫色和红色。”

在颜色控制方面,各位选手的表现都非常出色,能够精准地生成符合颜色描述的图像。


  • 场景布局控制:(分值:5分)
  • 输入文本1:“一个摆放了两人餐具的餐桌,桌子中央有一瓶花。”
  • 输入文本2:“一个摆放了两人餐具的餐桌,桌子中央有一根蜡烛。”

场景布局方面,大多数模型能够较好地把控布局的细节,不过豆包在生成时,默认一次生成四张图,结果导致部分图片包含了三到四套餐具,不完全符合要求。文心3.5清言星火则出现了无法准确生成符合描述的布局。


  • 风格控制:(分值:5分)
  • 输入文本1:“一个现实主义风格的女人肖像。”
  • 输入文本2:“一个抽象的、立体主义风格的女人肖像。”

风格控制方面,虽然有一些用户提出通义文心3.5的输出在抽象立体主义上可能稍有偏离,但在评测过程中,大家对这两位模型的表现给予了认可,因此在风格评测上,所有模型均记满分。


  • 第六轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

14

14

14

12

12

12


7.主观用户体验评测(总分值:10分)

  • 用户感兴趣的场景
  • 输入文本:“一个温馨的客厅,有壁炉,书架上摆满了书,大窗户外能看到雪景。”(分值:5分)

在这一场景中,大部分模型都成功生成了包含壁炉、书架和雪景的温馨客厅,但文心3.5始终未能生成出带有壁炉的画面。

  • 个人风格化的输入
  • 输入文本:“一个平静海滩的画作,有棕榈树在风中摇曳,用水彩风格描绘。”(分值:5分)

在这个场景下,各大模型的表现都很优秀,所有生成的图像都符合水彩风格的描述。


第七轮分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

10

10

10

7

10

10

8.软件易用性(总分值:5分)

在软件易用性方面,豆包星火在对话框内提供了操作提示和模板,方便用户了解模型的功能,使用体验友好。不过,星火在查看历史对话记录时不够便利。清言将功能分成多个部分,但对话框中缺少明确的操作提示。而通义元宝文心3.5相比之下,操作体验稍显不便,没有提供明确的提示。


分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心3.5

智谱清言

讯飞星火

得分

5

3

3

3

4

4

9. 第一次生成准确率(总分值:5分)

第一次生成准确率反映的是模型在首次生成时,完全符合用户描述的概率。这个部分直接体现了模型的生成质量和语义理解能力。


评分标准

准确率

得分

100%

5

90%

4

80%

3

70%

2

60%

1

小于60%

0


分数统计

大模型

字节豆包

阿里通义

腾讯元宝

百度文心

智谱清言

讯飞星火

一次生成准确率

94%

79%

84%

53%

74%

74%

得分

4

2

3

0

2

2


最终评测分值详细统计


免费AI

付费AI

满分

评测环节

字节豆包

腾讯元宝

阿里通义

智谱清言

讯飞星火

百度文心3.5

百度文心4.0

ChatGPT

15

1. 图像质量

15

15

15

9

12

6

15

15

15

2. 文本与图像的一致

15

14

11

12

9

9

15

15

15

3. 多样性

15

15

15

15

15

14

15

15

15

4. 鲁棒性

15

12

12

12

12

12

15

15

5

5. 生成速度

4

3

2

4

4

4

3

5

15

6. 模型可控性

14

14

14

12

12

12

14

15

10

7. 主观体验

10

10

10

10

10

7

10

10

5

8. 软件易用性

5

3

3

4

4

3

3

3

5

9. 一次生成准确率

4

3

2

2

2

0

4

5

100

总分

97

89

84

80

80

67

94

98

参照选手

我们接下来看看参照选手的表现。

文心4.0:

在所有测试场景中,文心4.0仅在一个场景中表现欠佳,即“一个摆放了两人餐具的餐桌,桌子中央有一瓶花”的场景,经过3次生成才得到了符合描述的图像。除了这一点,其它场景都在第一次生成时符合了要求,准确率整体表现极佳,与豆包不相上下。然而,生成速度明显比豆包慢一倍。最终得分:94分


ChatGPT(GPT-4):

无论是准确性还是生成速度,ChatGPT GPT-4都表现得十分优秀。生成时间约为10秒左右,且首次生成的图像准确率达到了100%。在图像质量上,其生成的效果肉眼可见地优于豆包,并且图像右下角没有水印。最终得分:98分

总结

综上所述,在免费模型中,字节跳动的豆包以碾压式的优势战胜了其他竞争对手,几乎所有场景都能一次生成符合描述的图像,生成速度约为10秒,与收费模型文心4.0相比,豆包在性能上甚至超越了它。而在图像质量上,ChatGPT GPT-4的表现优于豆包,尤其是画质更佳且没有水印。

因此,最终推荐

  • 免费选手豆包完全能够满足大部分用户的需求。
  • 付费选手:若对图像质量有更高要求,且有特殊方法,ChatGPT GPT-4是最佳选择。

AI文生图

缺点

优点

ChatGPT

  1. 需要特殊方法才能使用
  2. 免费每天只能生成两张
  3. 使用不方便


  1. 生成图片准确率非常高
  2. 生成速度快,需要10s左右
  3. 生成质量高
  4. 没有水印,可以直接使用

字节豆包

  1. 生成质量没有ChatGTP高
  2. 右下角带有水印


  1. 生成图片准确率较高
  2. 生成速度快
  3. 一次生成4张图片

百度文心4.0

  1. 生成质量没有ChatGPT高
  2. 右下角带有水印
  3. 免费为每3小时100次对话
  4. 生成速度慢,需要20s左右
  1. 生成图片准确率较高
  2. 一次生成4张图片