Google发布最新AI成果：强力回击GPT-4o 苹果生态或将被碾压-IT商业科技网

　　全场共提到 “ AI ” 121 次，平均一分半提一次。

　　今天凌晨 1 点( 太平洋时间 5 月 14 日上午 10 点 )，Google I/O 2024 大会的开幕主题演讲，在美国山景城正式举行。大会演讲在网络上公开直播的同时，也有部分媒体和观众来到了大会现场。

　　知危编辑部的前线同事，也到达了美国山景城参加了本次大会，全程观看了本次开幕主题演讲。

　　这位同事曾在 Google 前几年的鼎盛时期参加过一次 I/O 大会，用他的话来讲，那时候的 Google I/O 可以用四个字形容：万国来朝。

　　而如今，Google 的光环全都被 OpenAI 抢了去，本届 I/O 大会虽然依旧有很多人参加，但相较早年难免显得有些 “ 人丁不旺 ”。( 以前还卖票的，这次没卖 )

　　不过，在这场 I/O 大会上，Google 依然秀出了一些肌肉，对昨天的 GPT-4o 做出了强力回击。

　　谷歌 CEO 劈柴哥在演讲的一开始就坦然直言：目前正是整个行业正处于 AI 发展的早期，谷歌有信心和实力打这场持久战。

　　话里话外，一副 “ 你 OpenAI 别高兴得太早 ” 的味道。

　　纵观整场演讲，知危编辑部认为，如果去年谷歌的 I/O ，我们看到的是谷歌在 AI 领域的孤注一掷，那么今年，我们则发现谷歌这么一只巨无霸，正在 AI 的赛场上全方位一路狂奔，逐渐找回自己的状态。

　　本次主题演讲的内容，主打的是一个大而全，内容包含但不限于新基础模型、AI Agent、文生图模型、文生视频模型、TPU芯片、AI app、Android 与 AI 、新开源大模型等等等等。

　　知危编辑部也准备挑选其中几个比较亮眼产品，进行详细的介绍。

　　首先，知危编辑部觉得 OpenAI 昨日的春季发布会，有意狙击谷歌的的可能性非常之高。

　　因为谷歌本次重点推出的多模态 AI 助手 Project Astra ( 基于 Gemini )，功能与昨日横扫科技圈媒体头版的基于 GPT-4o 的 AI 助手极其类似。

　　同样拥有低延时的丝滑语音对话体验，同样也能用摄像头，让 AI 处理视觉信息。

　　在谷歌的演示视频中，Project Astra 能迅速认出音响的发声部位、彩笔，还能对屏幕上的代码进行一定程度上的解释。

　　它甚至还能根据箭头，提出在服务器和数据库之间添加缓存，能提高速度的建议，还能看懂画板上 “ 薛定谔的猫 ” 的梗图。

　　若不是昨日 GPT-4o 已经抢先亮相了一波，Project Astra 一定会被各路媒体打上 “ 炸裂 ”、“ 史诗 ”、“ 颠覆 ”、“ 改写历史 ” 等标签。

　　可惜，仅仅是晚了一天，现在大家对 Project Astra 的形容只有一个标签：“ 跟 GPT-4o 好像 ”。

　　不过，如果仔细观察演示视频，你会发现Project Astra 的视频对话交互功能展现了一个 GPT-4o 并没有展示的功能：视频对话的过程是带有记忆的，即便是一个你可能从未向它提及的点。

　　这样形容起来有些抽象，看一下视频你就能明白了。

　　在视频中，Project Astra 注意到并记住了镜头经过的桌子上的眼镜，在与测试者进行多轮对话后还能指出眼镜在桌子上，并且还指出了 “ 旁边有一个苹果 ” 这样的细节，可以说是过目不忘，比人类强了不少。

　　而在文生视频领域，谷歌也对 Sora 发起追赶，在本次的主题演讲中，谷歌正式发布了视频生成大模型 Veo。

　　根据介绍，Veo 能以各种电影和视觉风格生成高质量的 1080p 分辨率视频，时长可以超过一分钟。Veo 能凭借对自然语言和视觉语义的深入理解，生成紧密代表用户创意愿景的视频。

　　此前我们曾介绍过，OpenAI 的 Sora 是基于 Diffusion Transformer，也就是 DIT 架构而成的。

　　但根据谷歌官方的介绍，Veo 采取的却是 GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere 等 “ 老模型 ” 所组合而成的结合架构。

　　非常值得一提的是，谷歌在 Veo 的生成视频之下，标注了一行小字 “ All videos were generated by Veo and have not been modified. ”（所有视频均由 Veo生成，未经修改）。

　　这个举动，应该是意在阴阳 OpenAI，OpenAI 的 Sora 正因被爆出演示视频经过了大量的人为后期修改而遭受广泛的质疑。

　　另外，对标 Midjourney 等文生图片大模型的 Imagen 3、对标 Suno 等音乐生成大模型的 Lyria、对标 GPT-4 Turbo 等轻量性能大模型的 Gemini 1.5 flash、对标 llama 3 等开源大模型的 Gemma 2.还有 Google 自家的新 TPU 等都在谷歌的本次开幕主题演讲上一一亮相。

　　看起来，谷歌似乎不愿放弃 AI 领域的任何一个赛道，想把自己打造成一个 AI 界的六边形全能战士。

　　而更可怕的是，在各个领域里，Google 相比友商虽然都不一定是最好的，但也并不落后多少。

　　同时，谷歌的上限和野心，肯定不限于此。本次的开幕式主题演讲中，谷歌还拿出来些不少其他 AI 厂家单打独斗绝对拿不出来的东西。知危编辑部认为，正是这些东西，有机会能让谷歌从 AI 领域的追赶者，跻身为领跑者。

　　因为谷歌，拥有其他 AI 巨头所没有的成熟系统与应用生态。

　　在演讲中，谷歌就展示了一波 Gemini 和 Google 相册的结合。

　　记不清自个儿车的车牌号，在 Google 相册里搜索 “ 查找车牌号 ”，拥有多模态能力的 Gemini 会从你的图片库中，找到你车的照片，并告诉你车牌号。

　　在谷歌 Gmail 邮箱里，你也能通过 AI 迅速提取邮箱里航班信息，同时 Google 地图以获取您酒店附近的餐厅和旅游景点，再给计划相应的日程。谷歌的老本行搜索，也在和 AI 相结合，你可以直接用文字进行搜索，也可以给图片画个圈儿，让搜索引擎自动搜索你圈出的部分。

　　甚至，你还可以上传视频对搜索引擎进行提问。比如在演示中，谷歌的员工就拍视频问问了 Gemini，相机上的那个杆卡住了咋办。

　　Gemini 马上就给出了基于搜索引擎的答案，看上去体验很好，可惜就是回答有些翻车，回答中的一个建议是 “ 把胶卷取出来看看 ”，而这样只会让整卷胶卷直接报废。。。

　　不过，我们只能说贵在真实吧，大模型乱讲话这事儿确实一直存在，自然展现比造假强一些。

　　总之，按照谷歌的说法，Gemini 大模型正在全面整合谷歌的那一大家产品中，包括在未来，他们将把 AI 直构建到 Android 操作系统的底层之中，准备改写用户和手机之间的交互方式。

　　他们举了一些例子，比如在用手机看书的时候，你可以直接给书里内容画圈儿，问 AI 圈儿里的提名怎么解;刷视频的时候，也有可以直接问 AI ，视频里这运动员的动作是不是犯规;打电话的时候，AI 也能从你们的对话里，判断出对方是不是有可能是个骗子。

　　这样一来，在全面集成 Google 原生 AI 并且与原生 Google 应用打通的 Android 阵营面前，苹果如果不和 OpenAI 深度合作的话，我们只能说 Android 将在 AI 时代，对 iOS 进行一场降维碾压式打击。( 不过，6 月的 WWDC 上我们相信苹果肯定会搬出自己的 AI 方案来抵御这场进攻 )