Google I/O 大会在OpenAI压力下:AI行业巨星的价值或许被轻视

发表时间: 2024-05-16 09:50

在开始分析今天凌晨的2024 GoogleI/O大会之前,我们先来看下OpenAI 是如何连续三次精准狙击Google 的:

  • 23年3月15日,Google PaLM API (谁还记得它) 发布同一天推出GPT-4。
  • 今年2月16日,谷歌发布Gemini Pro 1.5当天发布大杀器Sora,让谷歌大招反响平平。

  • 然后就是本次,在谷歌每年最重要的I/O大会前一天,发布GPT-4o。

OpenAI每次都抢尽风头,让Google的发布会激不起一点水花,导致业内戏称Google为AI界汪峰,简直虾仁诛心。

01

Project Astra

先说说本次个人认为最有看头的多模态 AI 助手 Project Astra ,实际功能与昨日OpenAI基于 GPT-4o 的 AI 助手极其类似。

下面分享两段演示视频,Google 特别标注每段视频均为单次拍摄、实时录制完成。

另一个视频演示,陪你一起看 Google I/O 直播并解说。

效果其实挺不错的,能完整介绍会议的内容,甚至还拥有过目不忘的记忆能力。

美中不足的是语音的感情色彩仍略显机械,另外响应时间似乎比 GPT-4o 要稍长一些。

这样的效果,假如是在昨天之前发布的话,定会让整个世界沸腾。

可惜,仅仅只是晚了一天,就被套上“像 GPT-4o 的标签”,令人难免有些意兴阑珊

另外,正如昨天分析 GPT-4o 会带来哪些机遇的文章中提到的:

iPhone 和 Andriod 也一定不会示弱,苹果的vision pro和其他的VR或许真的将迎来重大机会

果然,在发布完Project Astra,会后彭博社便通过采访谷歌高层透露,Google Glass 增强现实眼镜项目即将在 AI的帮助下重返市场。

02

多领域成果,涵盖方方面面

除了上文提到的Project Astra ,本次 Google 主打一个量大管饱,处处提及 AI,甚至在大会最后官方还玩了一把去年的「说了多少次 AI」的梗,他的解决方案是将演讲脚本直接扔给 Gemini 统计,答案是 121 次。

总的来说发布的一系列AI相关的新产品和功能,涵盖方方面面,比如:

  • Google Search AI更新:发布了AI Overviews,一个加强版的AI搜索概要功能,以及多步推理能力。
  • Gemini大模型:介绍了Gemini 1.5 Flash(支持100万上下文)和Gemini Pro(支持200万上下文)。
  • Gemini App:即将推出支持与AI视频对话的手机版Gemini应用程序。
  • AI Review:一个新功能,用户可以通过AI大模型生成的摘要来简化搜索过程。
  • Multi-step reasoning:一个重磅功能,能够帮助用户简化生活、工作和出行的计划。
  • Planning in Search:帮助用户减少负担,例如根据特定需求生成一周食谱。
  • Ask with Video:一个创新功能,允许用户通过视频与AI交互,获取问题的解决方案。
  • Imagen 3:Google发布的最新图像生成模型,能够创建逼真的图像。
  • Music AI Sandbox:一个音乐生成模型,可以根据一小段音乐demo进行拓展和创作。
  • Veo:一个视频生成模型,能够根据文本、图像或视频提示创建高质量的视频。
  • AI与Google产品整合:Google强调了AI技术与现有产品如Google相册、Gmail、Google地图的整合,提供了更丰富的用户体验。
  • AI与Android的结合:Google计划将AI集成到Android操作系统底层,改变用户与手机的交互方式。


另外,个人也比较期待会后这个消息,Chrome 将在m126版本中内置Gemini Nano模型,以Chrome 全球20亿的设备装机量,意味着全球超过10亿的设备都将内置一个大模型

03

争议与思考

Google的发布会在AI领域的实际影响力似乎被外界低估了。

很多媒体对此次发布会的评价似乎并未触及实质,尤其近来年来 Google 在大众的眼中变得不酷了,有大公司病了,甚至认为谷歌现在只是一个拙劣的跟随者。

但我认为Google本次所展示的AI应用层面的深度和实践程度实际上远超过昨天OpenAI所展示出来的。

OpenAI 真正的应用层面能力可能还是需要看今年 6 月份 WWDC 大会上,与苹果能合作到什么地步,在 iOS/iPadOS/macOS/versionOS 上能有多深度的融合。

但目前为止,Google基于其自身庞大生态的优势,在AI应用的落地方面已经展现出了其独特的优势。

未来,随着大模型能力的提升,应用界面必然变得更加简洁,在大部分场景下仅需一个图标或窗口即可实现多项功能,这种情况下应用的发展空间只会越来越小,而Google能够获取到开发者难以触及的底层和隐私数据,如Gmail、通话内容等之类,并将其优雅地整合进原有产品体系中。

在人机交互路径越发简单的情况下,再想要做出体验层面的交互壁垒越来越难。在没有体验交互壁垒,只需要后端技术能力的情况下,很难想象有哪些场景是Google实现不了,而创业者、开发者却能实现的。

也许以后会有一大批创业公司,独立开发者会被创死。

这就像裁判带口哨下场打比赛,你怎么赢?