AIGC工具深度解析:探索生成式AI的性能

发表时间: 2024-03-25 10:32

过去这一年,全球涌现出了众多生成式AI产品。在这篇文章中,我们将探讨这些工具的表现,通过实际体验和评估,为读者提供一个关于当前AI工具的全面视角。

2023年,AI技术迎来了其发展史上的一次重大飞跃。随着技术突破和令人瞩目的产品陆续亮相,AI不仅成为了技术界的焦点,也深深吸引了资本的目光。这一年,AI展现出了前所未有的发展势头,无论是在基础模型能力、实际应用场景,还是资本投入方面都取得了显著进展。

特别是在2022年11月30日,OpenAI发布了ChatGPT,标志着AI技术的一个新纪元。紧接着,在2023年1月,ChatGPT的月活跃用户数突破1亿大关,创下了历史新高,彰显了全球AI市场的爆发潜力。

伴随这股势头,全球范围内涌现出众多创新的生成式AI工具,它们按功能可以划分为:文本生成、图像创作、音视频处理等多个类别。在这篇文章中,我们将探讨这些工具的表现,通过实际体验和评估,为读者提供一个关于当前AI工具的全面视角。

一、ChatGPT-4

2023年3月15日,OpenAI宣布推出GPT-4,这标志着大型语言模型进入了一个新阶段。相较于前代产品GPT-3.5,GPT-4不仅在处理自然语言方面取得了显著提升,而且在多语言处理能力上也有了重大突破。更值得一提的是,GPT-4引入了“多模态”功能,支持图像和语音输入,甚至可以输出图片,大大拓宽了其应用范围。

界面体验

ChatGPT-4的用户界面呈现了现代化和直观的设计风格,其简洁的设计语言和优化的用户操作流程极大地便利了用户与系统的交互。界面的清晰度和直观性使得用户即便是初次使用,也能轻松上手。

使用感受

作为商业化应用的初代大型语言模型,ChatGPT-4在专业知识获取、文案生成、上下文理解等方面表现出色。答案的完整性和连贯性同样值得称赞。然而,最近的使用体验中发现模型在生成答案时偶有不稳定现象,可能与OpenAI目前的资源分配有关。

不过,总体来说,ChatGPT-4在提供高效、准确回答方面依然表现卓越。

二、通义系列

阿里巴巴旗下的通义系列包含多款AI大模型,如通义千问(语言模型)、通义万相(艺术创作模型)、通义听悟(音视频模型)和通义智文(AI阅读助手),它们在多个领域如电商、设计、对话和法律分析中发挥着重要作用。

平时工作生活中使用的较多的是通义千问、通义万相、通义听悟、通义智文几种,帮助我获取整理专业知识,获取灵感以及快速阅读:

通义千问:多模态 AI 大模型

界面体验:

通义千问拥有简洁而一致的页面布局,提供沉浸式的问答体验。界面无过多修饰,专注于核心功能,使用户更易于集中注意力在问题与回答上。

使用感受:

在语义理解和答案准确度方面,通义千问表现优异,尤其在处理千字以内的查询时,回答流畅且无明显间断。

通义万相:AI 艺术创作模型

界面体验:

万相的界面以深色模式为主,突出了图片生成区域,同时提供了关键词选项,便于用户快速进行创作。

使用感受:

虽然在人物图像创作方面表现较好,但在抽象图标和文本引导的图片生成方面仍有提升空间。图片细节处理方面也存在一定的挑战。

通义听悟

一个非常好的在线会议、视频学习、播客学习等音视频转文字并且整理以及摘要的平台。

界面体验:

听悟的界面设计强调智能感,功能入口明确,降低了用户学习成本。其功能覆盖了视频转录、实时解析等多种场景。

使用感受:

  • 实时记录场景:语音识别以及文本转录的内容准确度挺高,较为嘈杂的场景也能比较准确的识别文字;
  • 视频场景:能够提取摘要,并且能区分讲话人进行总结,以及生成 PPT且定位,但是PPT仅仅是截取视频的整个画面;
  • 播客场景:暂不支持摘要提取,只能复制文本内容,需要自行加工;

通义智文:一个文档电子书籍快速整理阅读的 AI 平台

界面体验:

智文的界面简约,主要聚焦于阅读体验。

使用感受:

阅读场景覆盖全面,对于电子书籍,智文能够提供准确的全文摘要和章节总结,极大地提高了阅读效率。(移动端推荐 “Cubox” 对于间断的公众号、网页文章体验不错,就是需要付费体验摘要、问答等 AI 能力)

三、天工 AI

所属公司:北京昆仑万维科技股份有限公司 发布时间:2023年7月5日 榜单:#15 数据来源:点点数据

天工AI是由奇点智源和昆仑万维联合开发的一款综合型大模型平台,它集成了搜索、对话和创作等多种功能。

界面体验:

  • 天工AI采用了浏览器式的界面布局,这种设计贴合了产品的功能定位。然而,其背景设计较为复杂,可能会对用户造成视觉疲劳。
  • 功能入口清晰,便于新用户快速熟悉并使用各项功能。

使用感受:

  • 在回答问题方面,天工AI展现出了较高的答案完整性。它能够结合全网搜索,提炼并展示相关的新闻资讯链接,这不仅提高了回答的可信度,也增强了专业性。
  • 答案生成过程中,天工AI能够准确标注信息来源,这是其一个突出的特点,帮助用户理解答案的依据。
  • 天工AI在处理各类信息时表现出色,能够快速匹配并提供丰富的背景资料,满足用户的多元化需求。

四、kimi

Kimi Chat是Moonshot AI推出的一款功能丰富的工具,专注于整理资料、处理文件和提供快速网址访问。它在简化日常工作流程方面展现出了显著的优势。

界面体验:

  • Kimi Chat采用了简洁而清晰的界面设计,以浏览器形式呈现,为用户提供了舒适和直观的使用体验。
  • 背景设计干净且现代,这不仅降低了视觉干扰,也增加了用户操作的便捷性。

使用感受:

  • Kimi Chat在速读新闻和总结文章方面表现突出。它能够快速解析和归纳大量信息,极大地提高了工作效率。
  • 与天工AI相似,Kimi Chat在回答问题时会联网搜索相关新闻资讯,尽管它在信息来源的广度上不如天工AI全面,但在文章链接和电子书籍的快速解析上则表现更为出色。
  • 综合来看,Kimi Chat在快速处理和总结大量文本资料方面具有明显优势,尤其适合于快节奏的工作环境。

五、文心一言

文心一言,作为百度研发的全新一代知识增强大语言模型,不仅在对话互动上表现出色,还在问题解答和创作协助方面提供了高效的帮助。该模型特别擅长文案生成和润色,以及帮助用户制定计划和获取信息。

界面体验:

  • 文心一言的界面设计采用了直观简洁的布局,减少了视觉上的干扰,使用户能够专注于问答交互。
  • 界面上无多余修饰,提供了沉浸式的用户体验,使得信息检索和交互过程更为流畅。

使用感受:

  • 在专业知识回答方面,文心一言的表现略逊于通义千问,但在文案润色和计划制定等方面的能力却十分出色,特别适合用于日常的文案处理任务。
  • 独特之处在于,文心一言在用户输入完毕后能够提供一键优化指令的功能,这一点在用户体验上极为便捷。
  • 尽管在生成过程中偶有卡顿,但整体而言,文心一言在帮助用户高效获取信息和知识方面发挥了显著的作用。

六、讯飞星火

讯飞星火是科大讯飞推出的新一代认知智能大模型,它凭借其跨领域的知识库和语言理解能力,为用户提供自然对话方式的任务理解和执行。这一模型不断从海量数据中学习,致力于解决问题的全流程闭环,从提出问题到规划解决方案。

界面体验:

讯飞星火的界面设计遵循了AI大模型的常规布局,提供了沉浸式的问答体验。界面简洁,无过多修饰,便于用户专注于与模型的交互。

使用感受:

  • 虽然在专业知识方面的表现略显不足,但其在逻辑推理、解题和写作等教育相关领域表现出色。
  • 在实际应用中,讯飞星火特别适合于教育和学习场景,其对问题的理解和答案的提供都表现得十分专业。

七、智普清言

智普清言,由智谱AI公司在2023年训练的GLM-4语言模型,是一款基于深度学习技术的自然语言处理模型。通过学习大量文本数据,它能够理解和生成自然语言,针对用户问题和需求提供适当的答复和支持。

界面体验:

  • 智普清言的界面遵循AI大模型的常规布局,提供沉浸式问答体验。界面设计集中在功能性和易用性,助于用户快速理解并使用各项功能。
  • 智普清言特别增加了功能入口和灵感大全,提升了操作便利性,使用户易于接触和探索更多功能。

使用感受:

  • 在处理一些专业或深层次问题时,表现有较大的惊喜,其回答的准确性和深度表现不错。
  • 智普清言在生成式的回答方面也表现不俗,可以生成较为流畅和通顺的回答。
  • 智普清言在回答完成之后还会根据历史提问智能推荐相关问题或知识,帮助用户更加深入了解。
  • 智普清言还能自己定制智能助手,并且按照自己的专业喜好进行训练,帮助用户更好的完成专业工作或者处理生活事项。

八、Gemini

Gemini 是 Google 推出的原生多模态大模型,Google 称 Gemini 是其历史上最强大、最通用的模型,在许多基准测试中都具有最先进的性能。Google DeepMind 的 CEO Demis Hassabis 称 Gemini 可以像人类一样理解我们周围的世界,并吸收任何类型的输入和输出,包括文本、代码、视频、音频和图像。Gemini 模型从大到小分为 Ultra,Pro,Nano 三个版本。其中 Pro 版本已经整合到谷歌的 Bard 平台中,但目前仅支持英文地区的用户使用。

界面体验:

  • Gemini的界面设计紧随其功能多样性,呈现出极简风格,便于用户专注于与模型的互动。
  • 虽然在模型能力介绍方面的信息不如其他平台详尽,略增加了用户学习成本,但整体上为用户提供了清晰、直观的交互体验。

使用感受:

  • Gemini背靠Google强大的搜索引擎,特别在基于网络搜索的问题处理方面表现出色。它能够整合网络资源,提供全面、多样的答案。
  • 对于专业性较高的问题,Gemini的表现尚有提升空间,可能与语言处理能力相关。在答案的完整性和专业度方面相比通义千问有所不足。
  • 总体来看,Gemini在多模态处理和网络资源整合方面展现了显著的优势,尤其适合处理需要广泛信息整合的查询。

九、Claude

Claude是Anthropic开发的一款人工智能聊天机器人,Claude可以理解自然语言并生成相应的回复,和人类进行基本的对话与交流,相比其他大模型语言更加人性化,Claude具有一定的情感理解能力,可以从对话中解析出对方的情绪变化和态度,并在一定程度上调整自己的回应语气。Claude的知识和理解能力还比较有限,它更类似于一个知识图谱+搜索引擎,可以在已有知识上快速匹配和检索信息,但还无法进行复杂的推理或深入分析。

界面体验:

  • Claude的界面设计保持了简约风格,便于用户进行流畅的交互。这种设计虽不复杂,但却充分满足了与AI进行自然对话的需求。
  • 用户界面注重功能性和易用性,使得即使是初次接触的用户也能快速上手。

使用感受:

  • Claude在自然语言处理方面表现出色,尤其是在理解用户输入和生成人性化回应方面具有显著优势。
  • 尽管知识和分析能力相对有限,它更像是结合了知识图谱和搜索引擎的工具,能在已有知识范围内快速匹配和检索信息。
  • 在实际使用中,Claude尤其适合于需要情感理解和基本信息检索的场景,提供了友好和自然的交流体验。

十、Perplexity AI

Perplexity AI是一个先进的AI工具,专注于提供深入的、以问题为中心的搜索和分析。它通过理解和分析用户的查询,提供相关和深度的答案,不仅仅是传统搜索引擎的结果列表。

界面体验:

  • Perplexity AI的界面简约,突出搜索功能,减少了视觉干扰,使用户更易于专注于搜索任务。
  • 所有功能都是直观的,提升易用性。

使用感受:

  • 整个搜索和获取答案的流程是流畅的,响应时间非常迅速,即使是复杂查询也能迅速回应。用户从提出问题到得到答案的体验是无缝的。
  • Perplexity AI在提供深度、有针对性的搜索结果方面表现出色,但是,它在理解一些极其复杂或模糊的查询方面仍有提升空间。

十一、Poe

Poe(Platform for Open Exploration)是由Quora开发的一个人工智能聊天机器人平台。这个平台汇集了多种AI聊天机器人,如ChatGPT、Sage、Dragonfly和Claude,使用户能够与它们进行互动并获取信息。

界面体验:

  • Poe的界面设计契合自身功能定位,充分考虑到用户导航需求,旨在减少用户的认知负担,使用户能够迅速开始与AI的互动。
  • Poe的阅读体验不佳,文字内容的字号以及行间距不太合理,使得文本过于密集,阅读舒适性过低。

使用感受:

  • Poe展现了一定程度的个性化,用户可以根据自己的需求,选择相应的AI 助手或者自定义AI机器人进行对话。
  • Poe的语音识别技术非常先进,可以准确识别用户的语音指令,并进行相应的回复,但是在语义理解方面有待提高。

十二、豆包

所属公司:春田智韵(抖音) 发布时间:2023年8月24日 榜单:#3 数据来源:点点数据

AI工具“豆包”是由抖音集团推出的一款免费的智能对话和创作助手。它基于云雀大模型,可以实现文本生成、图像生成、语音交互等多种功能。

界面体验:

  • 豆包的界面设计简洁且直观,没有过多的繁琐元素,让人一目了然。
  • 导航清晰明确,新用户也能快速上手,降低学习成本。

使用感受:

  • 在学习场景、辅助阅读方面表现出色,能快速响应,并流畅生成答案,但是在语义理解以及知识库的广度略显不足。
  • 左侧导航栏提供了更加专业的“智能体”,用户可以选择其进行定向、专业的解决问题,主要是学习、写作、情感聊天方面表现出色。

十三、PopAI

PopAI 是一款由美国人工智能公司 PopAI Inc. 开发的 AI 工具,它基于 GPT-3 大模型,可以帮助用户进行内容创作,也可以帮助用户阅读和理解现有内容。用户可以上传各种格式的文档,包括 PDF 文件。

界面体验:

  • 界面上的排版清晰,主次功能区分明显,层次感强,便于阅读。
  • 导航结构清晰,用户可以很容易地找到他们需要的功能。

使用感受

  • PopAI在阅读 PDF 并生成摘要和图表上表现优异,准确率以及处理速度都不错;
  • PopAi 还可以帮助您制作演示幻灯片或用于其他目的的草稿文本,并且提供了一些PPT、Word等类型模板供用户选择,并且能帮助用户优化生成ppt、pdf等,极大程度上方便用户。

十四、chitchop

ChitChop是抖音集团发布的一款人工智能辅助工具海外产品,可为用户提供多达200+智能机器人服务,通过提供创意灵感、提高工作效率来服务用户的工作和生活。它是基于Skylark大语言模型创建的AI工具集合。

界面体验:

  • 界面布局符合产品定位,卡片颜色与背景形成鲜明对比,突出重要功能;
  • 将所有工具通过瀑布流卡片的形式展现,方便用户精准选择;

使用感受:

  • 和豆包同属抖音集团,覆盖场景比豆包更全,当选择不同智能体的时候会自动帮用户发送提示语,可以直接发送当前场景下的问题,降低用户学习成本。
  • 在响应时间上表现良好,但是答案的完整性上略有欠缺;
  • 在文案比如工作日报、周报、写作、扩写、润色等方面表现更佳;

十五、腾讯混元

腾讯混元大模型是腾讯公司推出的一款基于Transformer架构的预训练语言模型,拥有超千亿参数规模,预训练语料超2万亿tokens。具有强大的自然语言处理能力。它能够理解和生成人类语言文本,同时支持多语言,为开发者提供了丰富的API接口和工具,方便集成到各类应用中。

界面体验:

混元大模型的用户界面简洁直观,优化的用户操作流程极大地便利了用户与系统的交互。界面的清晰度和直观性使得用户即便是初次使用,也能轻松上手。

使用感受:

  • 文生图方面表现优异,生成时间以及对语义的理解上表现不错,但是在生成的风格上效果欠佳,和表达的不太一致。
  • 在专业知识方面,表现尚可,生成速度以及连贯性表现不错,答案完整性以及专业度有待提高。

十六、360智脑

360智脑大模型是由360自行研发的AI大语言模型。它规模庞大,参数达到千亿级别,使其具备了跨模态生成的能力。它能够处理各种形式的数据,包括文字、图像、语音和视频等,因此在文本生成、图像生成以及文本到视频的转换等多个领域都能发挥重要作用。

界面体验:

  • 360智脑的界面设计采用了直观简洁的布局,减少了视觉上的干扰,使用户能够专注于问答交互。
  • 适用场景以及场景模板外漏,降低用户学习成本。

使用感受:

  • 360 智脑背靠360搜索引擎,问答的广度以及时效性表现不错。
  • 在专业度上的效果欠佳,目前的答案完整性有待提高。
  • 创新性以及个性化上体验不错,以数字人的概念来包装不同专业场景,让用户对话感受上更加人性化。

十七、其他 AI 工具探索

除了上述详细评测的主要工具外,还有许多值得一提的AI工具在特定领域展现出了独特的价值。这里简要介绍一些我个人认为非常出色的平台:

创作类工具

  • 如广为人知的Midjourney,它在创意艺术生成方面展现了令人赞叹的能力,尽管学习成本较高。
  • Stable Diffusion同样引人注目,提供了丰富的创意激发和艺术创作功能。
  • 国内的Vega AI则在本地化创作上有着出色表现。

音视频类工具

  • Google的MusicLM引领了将文本转化为音乐的新趋势,为创意音乐制作提供了全新的可能。
  • Rask则在提升口语能力方面表现突出,尤其适合于英语学习者。
  • Sora和Runway等工具在视频编辑和处理方面提供了高效和创新的解决方案。

综合评价

2024年注定是AI产业快速发展的一年,也是AI工具逐渐普及的一年。这些工具不仅能提升我们的工作效率,处理复杂任务,也正在逐步改变我们的日常生活和创作方式。从大型互联网公司到智能手机制造商,都在积极布局AI市场,推出了众多具有创新性和实用性的AI功能和应用。我们有理由相信,未来AI将在更多领域展现其独特的价值和影响力。

十八、总结

回顾2024年AI领域的发展,我们见证了从大型语言模型到多模态工具的飞速进步。这些AI工具不仅为专业人士带来了前所未有的便利,也逐渐渗透到了我们日常生活的每个角落。

本篇文章中,我尝试评测了市面上的一些主流AI工具,从ChatGPT-4的深度交互到通义系列的广泛应用,再到Gemini等工具的创新能力。每一款工具都以其独特的方式对我们的工作方式和思维模式产生了影响。

值得一提的是:这些工具仍在不断进化。随着技术的发展和市场需求的变化,我们可以期待未来它们将带来更多惊喜和可能性。同时,我们也应警惕这些工具可能带来的挑战,如信息安全和隐私保护等问题。

总体而言,2024年标志着AI技术的一个新里程碑。除了各大互联网公司研发各类大模型平台,手机厂商也在投入大量的资源去布局 AI 市场。并且去年各大手机已经推出了一些 AI 智能功能:像我们 OPPO 推出了通话摘要、智能消除、合影优化等智能、实用且广受好评的功能。今年我们也将推出基于 OPPO 自研大模型有关于图像创作、通话以及办公等场景的一系列便捷、实用且智能的功能与能力来方便用户的生活、工作,大家可以期待一下。

作者:咚咚

本文由 @咚咚 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务