AI行业观察 | 一览OpenAI、谷歌、微软最新动态

发表时间: 2024-05-27 10:10

5月无疑是名副其实的“AI月”，从OpenAI直播演示ChatGPT更新内容，到谷歌的I/O开发者大会2024，再到微软的Build年度开发者大会。这些活动向世界进一步展示了AI生产力的无限可能。今天，我们为大家精心整理了这三场重磅发布会的亮点，帮助您迅速把握即将问世的新技术以及正在迅速崛起的行业趋势。

Open AI春季更新发布会

图源：现场截图

此次Open AI仅是在线上举办了“春季更新”活动。虽然活动没有精美的ppt，也没有震撼的demo，连Sam Altman都没有露面，但是它推出的新旗舰模型“GPT-4o”真实地震撼了大家。

1. 推出多模态大模型GPT-4o。它可以接受文本、音频和图像任意组合的输入，可以实时对音频、视觉和文本进行推理，并生成这些格式的相应输出。

2. 新模型使ChatGPT能够处理50种不同的语言，速度和质量同时得到提高。它可以在短短232毫秒内处理音频输入，平均耗时320毫秒，与人类对话中的反应时间相当。

3. GPT-4o允许ChatGPT以更加逼真的方式与用户交流。它不仅能检测用户声音中的情绪，分析面部表情，还能根据用户需求改变语调和节奏。如果想听睡前故事，它可以用耳语说话。如果需要来一段带“酸味儿”的对话，它就能以轻松、讽刺的语气与人交谈。它甚至还可以按要求唱歌，一会儿是高亢的女高音，一会儿又能变成迷人的女低音；甚至还能表达自我，例如对示爱表现出害羞的样子。

4. 拥有了新能力后的GPT-4o，也拥有了与硬件结合的更多可能性。例如，以穿戴设备为载体，借助摄像头来帮助视障人士；通过智能眼镜、智能耳机等，成为人们的生活助理。

5. 除了推出新模型，在产品上Open AI也做出了诸多更新。首先，未来ChatGPT免费用户的默认模型将升级成GPT-4o，不过使用额度是有限的；此外，大量的付费功能开放给免费用户；最后，Open AI推出了macOS的客户端，并表示Windows客户端有望在下半年推出。

Google I/O 2024

图源：现场截图

在Open AI发布会的24小时后，2024年Google I/O全球开发者大会如期召开。在长达两个小时的开幕主题演讲中，谷歌展示的Project Astra和Veo，直接对标了目前Open AI领先的GPT-4o与Sora。此外，谷歌还展示了最新版Gemini加持的搜索能力，AI Overviews工具更是颠覆了搜索的逻辑。

1. 发布了GPT-4o同类产品Project Astra——基于Gemini模型开发，它可以通过摄像头“看到”周围环境并做出解说，能几乎没有延迟地与人互动，也能通过摄像头解读代码和做数学题。除了语音交互外，它借助Gemini和谷歌丰富的应用生态，链接更多谷歌应用，让用户“只用一句简单的prompt”，就能把信息链接起来，实现规划；另外还有记忆功能——对摄像头扫描过的地方形成记忆，即便当下视野不同，也能“根据记忆”告诉你想要找的东西。

2. 推出Gemini 1.5 Flash轻量级模型，速度更快，效率更高，从而能覆盖更多的用户。它擅长总结、聊天、凝练图像和视频，从长文档和表格中提取信息。Gemini 1.5 Flash通过Gemini 1.5 Pro“蒸馏”得来——“知识蒸馏”是一种模型压缩技术，让小模型学习大模型，将重要的知识和技能迁移过来。

3. Gemini 1.5 Pro（和1.5 Flash）支持100万tokens理解（年底，这个数字将直接翻番增至200万），是目前大模型服务中所能支持的最长上下文输入——它能充当“数据分析师”，从你上传的表格中“及时”发现洞察，构建自定义的可视化图表。全面接入Gemini的“谷歌办公全家桶”，也将在未来几个月内陆续上线“智能问答”“智能邮件回复”“表格图像化总结”等新功能。模型的推理更进一步，改进了对模型对具体用例响应的控制，遵循用户复杂和微妙的执行。

4. 发布了让用户自定义模型的Gems，对标Open AI的GPTs。

5. AI搜索现身，被命名为AI Overviews。这个功能可以“简化”用户提问，拥有更强大的多步推理能力。面对一个复杂问题，它会先将其拆解成多个简单问题，再将简单问题拆解成多个关键词——反馈给用户的页面中，将是高度格式化的解释、简洁实用的行动指引、直接引导后续行为的链接等。未来的搜索产品逻辑可能会被彻底颠覆，人们不需要一个单独的“搜索引擎”。

6. 更新了图像模型——Imagen 3，团队表示它生成的图片细节更好，错误更少；推出了新的音乐模型，但并没有透露模型名称，只提到正在和一些音乐人合作试用。

7. 对标OpenAI Sora的模型推出了文生视频模型Veo。官方称，Veo模型可以生成超过一分钟的1080p分辨率视频，并具有多种电影和视觉风格。

8. 此外，Android有了更多系统级AI功能。除了年初发布的画圈搜索功能外，新添加了TalkBack与诈骗电话实时监测两个功能：前者主要针对视力障碍人群，你可以让AI助手读取你手机屏幕的内容，并且用语音描述给你；后者用AI分析电话内容，当存在诈骗等风险时会弹窗提醒用户。

微软Build 2024开发者大会

图源：现场截图

“三十多年来，微软对于计算机一直有两个梦想——一是让计算机理解我们，而不是我们去理解计算机；二是在信息不断增加的世界中，让计算机帮助我们根据信息有效地进行推理、计划和行动。人工智能浪潮已经为我们的梦想找到了答案。”微软CEO萨蒂亚・纳德拉在发布会上说道。

在发布会上，微软一口气宣布了50多项AI能力更新，从推出新的Windows机器“Copilot+PC”，到Recall等AI驱动的生成式AI功能，每一项都在告诉我们“AI 将如何重塑你的未来”。

1. 推出内置AI的新电脑——Copilot+PC。新设备配备了一个名为Prism的模拟层，承诺与Windows的x86应用程序无缝兼容。最直观的变化是，新的键盘上会有一个Copilot键——用户只要按下按钮就能召唤Copilot，开启人工智能辅助功能。而这也是微软近三十年来首次调整键盘布局，上一次他们在键盘上加入的按钮是Windows键。

2. Microsoft Copilot。在本次大会上，微软展示了Copilot如何提升组织的团队协作和业务效率。主要介绍了以下三个升级：

a) Team Copilot：Copilot从幕后的个人AI助手，扩展为团队成员。用户将能够在Teams、Loop、Planner等协作工具中调用Copilot。Team Copilot能够在会议中担任会议主持人，管理会议议程、跟踪会议时间并记录会议要点；也可以在聊天中作为协作者，提供重要信息、跟踪行动项目并解决未决问题；它还可以担任项目经理，帮助确保每个项目顺利推进，并及时通知团队进行输入。微软宣布，Team Copilot将在今年晚些时候推出预览版。

b) Copilot Studio：推出类似Agent代理功能，开发者能够根据特定任务和功能，构建主动响应数据和事件的Copilot。基于这类新功能的Copilot可通过记忆和知识了解上下文、推理操作和输入，基于用户反馈进行学习，并在不知道如何处理时寻求帮助，从而独立管理复杂、长期运行的业务流程。例如，一个“订单处理”Copilot可以处理从接单、订单处理、智能推荐替代缺货商品到发货的全过程。这就意味着，Copilot已经具有了自主性，将有希望进化为全自动的AI Agent。

c) Copilot扩展和Copilot连接器使定制和扩展Copilot变得更加容易，以满足特殊的业务需求。前者可以让任何人都轻松地自定义Copilot操作并将Copilot扩展到他们的数据和业务线系统；后者支持连接业务数据、工作流以及第三方SaaS应用程序，让开发人员可以更轻松、更快速地构建和定制Copilot。

3. AI编排和工具链：

a) Copilot Workspace：一个新的Copilot特性，是一个很强的编程&自动部署Agent。当你需要对项目做出修改的时候，比如更新某些样式，只需要通过Copilot的Workspace功能，将这个任务给到，然后就是等待它自己完成了。

b) GitHub Copilot Extensions，即GitHub Copilot的插件生态。纳德拉把它描述为“这个AI时代的第一款热门产品”，是一间属于开发者的“生产力应用商店”。在这个生态下，开发者可以使用Copilot Studio或Teams Toolkit，通过新引入的Copilot连接器快速自定义扩展。选择自己喜欢的工具和服务，直接在workspace用自然语言调用并一站式构建和部署到云端，无需离开IDE或GitHub.com，从而更长时间地保持稳定通畅的工作流。

4. 模型生态：

a) 宣布GPT-4o在Azure AI上普遍可用，并引入Cohere、Databricks、Meta、Mistral等公司以及开源社区Hugging Face的多个大模型，一边手握Open AI，一边狠抓第三方模型及开源模型。

b) 推出42亿参数多模态SLM（小语言模型）Phi-3-vision，支持图像理解与交互。它是4月份宣布的Phi-3 AI模型的新版本，可以在移动设备上工作。同时，微软还会提供70亿参数的Phi-3小型模型和140亿参数Phi-3中型模型，支持跨操作系统及云边端运行。

c) 推出最新端侧小模型Phi-Silica，专为Copilot+PC中的NPU设计，在SLM中取得SOTA。

d) Azure AI Studio平台将推出自定义模型功能，包含如API集成、完整的工具链以及部署全家桶等。并且，现在GPT-4o现在可以通过Azure AI Studio以API的形式访问它。

e) 数据分析平台Microsoft Fabric增加了全新的实时智能功能，使数据处理和分析变得更加简单和高效。数据可以进一步与Power BI结合，创建互动报告和可视化图表，帮助用户实时监控重要趋势并做出数据驱动的决策。例如，用户可以创建折线图来跟踪水位变化，或者使用地图显示传感器的地理位置。

5. 其他惊喜小功能：

a) 图像：Windows新功能“超级分辨率”可通过自动放大旧照片来恢复旧照片；Copilot可以分析图像，为用户提供创意构图的灵感；通过一项名为Cocreator的功能，用户可以生成图像，还可以让AI模型按照他们所绘制的内容来更改或重新设计图像。

b) 实时翻译：带有实时翻译的实时字幕可以将通过PC传输的任何音频翻译成用户选择的语言。实时翻译最初将支持大约40种语言。

c) Windows 11即将推出的Recall功能可以“记住”用户几周甚至几个月前在PC上访问的应用程序和内容，它可以在颜色、图像等之间建立关联，让用户可以用自然语言搜索PC上的几乎所有内容；开发人员将能够通过向应用程序添加上下文信息来提高召回率。

d) 在Teams中使用自己创造的Emoji。

e) 高通版“Mac Mini”。

6. Sam Altman也出席了大会，表示模型将会变得越来越聪明，速度和成本都很重要，但最最重要的是「整体智能（overall intelligence）」。

Sam Altman建议开发者：“现在可能是自移动互联网诞生以来最激动人心的时机，不管是做一个产品，还是创建一家初创公司，做点新东西的最大机遇往往孕育于平台范式变革的时刻。我们已经很长时间没见到平台范式变革了，现在看起来平台范式变革真的到来了。所以，我最大的一个建议是，这是很特别的时机，把握住它吧。”

此外，他还提醒，“AI并不意味着可以轻轻松松就创造一个伟大的产品，或者一家伟大的公司，或者伟大的服务，你还是得干活，AI是一种加持，但单单AI是不会自动打破一些商业规则的，你可以利用这个新东西，但你还是得找到你做的东西的价值，这是在狂热的AI淘金热中很容易被忽视的。”

AI行业观察 | 一览OpenAI、谷歌、微软最新动态

热门阅读

推荐阅读