谷歌AI春晚宣告Gemini时代将至 10倍能效10倍上下文碾压OpenAI？-IT商业科技网

　　看过了昨天OpenAI虽然短但是科幻感极强的发布会，相信所有人都在期待一天后的谷歌将会给出怎样的回应。

　　如果说前一天OpenAI的发布会是一道精致的法餐，谷歌的I/O大会绝对算得上是一道量大管饱，诚意满满的满汉全席——谷歌端出了最新的大模型，全模态AI助手，开源视觉模型，视频生成模型，再到算力芯片等等一系列AI行业中最顶级的产品和技术前来应对。

　　整场发布会看下来，谷歌一洗前两年发布会结束都会给自己造成公关危机的“前耻”，通过自己深厚的技术积累，强大的工程能力和丰富的产品生态，向世人展现了一个自信且目标远大的AI大厂应该有的样子。

　　具体来说，谷歌是唯一一家同时拥有自己的原生支持从文字到视频的多模态大模型，触及全球几十亿用户的AI应用场景，完全自主的AI算力芯片的科技大厂。谷歌在AI领域中提前下的这些“硬功夫”，一定会在未来继续奔涌的AI大潮中结出丰硕的果实。

　　被OpenAI截胡的Project Astra，不够惊喜但足够惊艳

　　纵观整个发布会，最让人眼前一亮的发布就是这个几乎和OpenAI提前一天发布的基于GPT-4o的AI个人助理一样的Project Astra。不过可惜的是，因为OpenAI的抢跑，它成为了世界上第二个多模态AI助手。

官方视频截图

　　我们先来看看谷歌放出的Project Astra演示效果。注意，DeepMind Hassabis专门介绍，这个视频是在真实环境中一次拍摄完成的效果。

　　可以看到，Project Astra也能实时的感知外部环境，并根据用户提出的问题进行非常智能的反馈。视频中，它向用户提供了包括代码编写，生活常识建议，周围环境的理解和识别，甚至能记住之前看到过的物品摆放位置。

　　可以说，相比OpenAI强调的自然人机交互，Project Astra的宣传视频看起来真的更智能，更加科幻。如果说OpenAI的GPT-4o是把电影《Her》中的Samantha搬进了现实，那么Project Astra真的有钢铁侠Javis那味了。

　　根据DeepMind CEO Hassabis的说法，Project Astra可以理解空间，处理视频输入，并且能够记忆之前处理过的内容。

官方视频截图

　　基于Gemini强大的原生多模态能力和超长的上下文，对于视频的理解和记忆确实让人看到了科幻电影中那种无所不能的智能助手的影子了。

　　不过稍显可惜的是，Project Astra依然还只是一个原型，实际的产品可能短期之内还难以上线，但是详细在技术层面厚积薄发，在产品层面又能集中力量办大事的谷歌，希望未来不会让用户们失望。

　　Gemini时代到来，10倍上下文10倍能效碾压OpenAI？

官方视频截图

　　作为谷歌AI的拳头产品，Gemini从去年底发布之后，其长达100万token的上下文长度已经吸引了全世界超过100万开发者用户。

官方视频截图

　　用户凭借它超强的上下文能力，可以将大量的文档和数据一次性处理，让Geimini输出复杂的结果。

　　而且因为Gemini原生的多模态能力，它能除了使用文字之外，在输出中还可以包括图片等多模态的结果和代码。

官方视频截图

　　从5月15日起，Gemini 1.5 Pro的100万token上下文能力通过谷歌的Gemini Advanced服务向全球的普通用户开放。

　　而未来，Gemini 1.5 Pro将陆续开放200万token的上下文能力。

　　而作为像谷歌这样产品众多的大公司，Gemini的除了直接服务用户，它与现有的谷歌应用结合在一起，将会迸发出更大的能量。

　　Gemini Flash——轻量版的Gemini Pro，价格直接打骨折

　　谷歌针对Gemini依然还在不断做出优化，此次推出的Gemini Flash可以看做是类似GPT-4向GPT-4Turbo的升级。

官方视频截图

　　而在支持的功能上，Gemini 1.5 Flash也和Gemini 1.5 Pro一样，是一个原生多模态的大模型，而且也支持100万token的上下文。

　　相比与Gemini Pro， Gemini Flash有着更高的推理性能和低得多的价格，但是性能几乎没有太大的下降。

官方视频截图

　　在谷歌官披露的价格，Gemini Flash的价格基本上只有Gemini Pro和其他主流大模型API价格的1/10.

官方视频截图

　　从这个API的定价能看出，谷歌通过自己在能耗和效率上非常有优势的TPU，把大模型推理的成本降到了一个令人发指的程度。相信在如此低廉价格的吸引之下，未来会有越来越多的开发者转向谷歌的模型。

官方视频截图

　　为了帮助用户能更加自然的与Gemini对话，谷歌将会上线Gemini Live。用户可以通过手机和Gemini直接进行语音交互。它可以帮助用户练习面试，直接回答生活中的难题。而且在今年年底，Live还将支持视频摄像功能。

　　计划行程这种头疼的差事儿，也可以甩给Gemini Live。你只需告诉它你的时间、目的地、兴趣爱好等，它就能帮你制定一份个性化行程，包括景点、餐厅、活动，连路线时长都安排得明明白白。有变动还能自动更新，简直是旅行规划小能手。

　　此外，Gemini Live还能与谷歌日历、任务、备忘录等应用无缝连接。拍张课程大纲，它就能自动为每项作业创建日历提醒;或者把新get的菜谱拍下来，食材清单就自动同步到备忘录里了。

官方视频截图

　　未来，借助Gemini Live作为入口，Gemini的能力将和谷歌生态中的各项应用深度融合，真正将大模型能力汇入我们的生活当中。

　　谷歌同时也在Gemini平台上推出Gems——谷歌版GPTs。用户可以根据自己的需求创建专属于自己的AI助手：为你指定日常锻炼计划，用积极向上、充满激情的语气鼓励你坚持的健身伙伴Gem,又或者是烹饪助手Gem、编程搭档Gem……

官方视频截图

　　谷歌AI帝国的硬件基石——Trillium

官方视频截图

　　谷歌作为唯一一家拥有AI算力芯片的大模型公司，也发布了他们第6代TPU——Trillium。谷歌宣称，在今天I/O大会上发布的几乎所有AI产品，背后都有TPU的支持。

　　和上一代TPU v5e相比，Trillium TPU的每芯片峰值计算性能提高了4.7倍，高带宽内存(HBM)容量和带宽提高了一倍，芯片间互联(ICI)带宽也提高了一倍，能效提高了67%。

官方视频截图

　　此外，Trillium配备了第三代SparseCore，这是一种专门用于处理高级排名和推荐工作负载中常见的超大嵌入的专业加速器。Trillium TPU使谷歌能够更快地训练下一代基础模型，并以更短的延迟和更低的成本为这些模型提供服务。

　　Trillium可以在单个高带宽、低延迟的Pod中扩展到最多256个TPU。除了这种Pod级别的可扩展性外，通过多切片技术和钛智能处理单元(IPU)，Trillium TPU可以扩展到数百个Pod，通过每秒数PB的数据中心网络连接大楼规模的超级计算机中的数万个芯片。

　　可以说，正是因为谷歌牢牢的掌握了自己的“算力自由”，才能在全世界都被英伟达割韭菜的AI浪潮中独享低成本高效率带来的优势，按照自己的节奏一步一步建立起AI帝国。

　　开源社区狂欢，谷歌发布首个开源视觉大模型

　　而面对开源社区的期待，谷歌这次也是诚意满满，发布了新的开源大模型Gema 2.

官网截屏

　　而且还发布首个开源的视觉大模型PaliGemma!

　　网页截屏

　　Hugging Face：https://huggingface.co/google

　　Gema 2按照谷歌的说法，是目前开源模型中效率和性能结合得最好的模型。

　　网页截屏

　　Gema 2 27B以不到Llama 3 70B一半的体量提供了与Llama 3 70B相当的性能，为开源模型设立的新的性能标杆。

　　而且Gema 2的S高效设计使其适合的计算量不到同类模型的一半。27B机型经过优化，可以在英伟达的GPU或者Vertex AI中的单个TPU主机上高效运行，让用户更容易进行部署，并且更具成本效益。

　　而且Gema 2将为开发人员提供跨不同平台和工具生态系统的强大微调能力。从像Google Cloud这样的基于云的解决方案到像Axolotl这样的流行社区工具，Gema 2的微调将比以往任何时候都更加容易。此外，与Hugging Face和英伟达TensorRT-LLM的无缝合作伙伴集成，再加上谷歌自己的JAX和KERAS，确保用户可以优化性能并在各种硬件配置中高效部署。