谷歌宣布推出多模态Gemini 1.5 具有百万令牌上下文长度-IT商业科技网

在宣布 Gemini 1.0 Ultra 一周后，谷歌宣布了有关其下一代型号 Gemini 1.5 的更多细节。新的迭代扩展了其上下文窗口，并采用了“专家混合”架构，有望使AI更快，更高效。新模型还包括扩展的多式联运功能。

凭借处理多达 100 万个代币的能力，它使竞争对手甚至自己的前身的能力相形见绌。谷歌首席执行官桑达尔·皮查伊强调了这一功能的变革潜力，他说：“这允许在用例中，您可以在查询时添加大量个人背景和信息......我认为这是我们取得的更大突破之一。

Gemini 1.5 对专家混合技术的利用代表了优化 AI 效率的又一进步。通过根据查询有选择地激活模型的相关部分，它确保了速度和资源节约，这是随着 AI 模型变得越来越复杂和耗电，这是一个关键的进步。这种方法不仅通过减少等待时间来增强用户体验，而且还与使人工智能更具可持续性的更广泛努力保持一致。

Google DeepMind 和 Google Research 首席科学家 Jeff Dean 表示：“该模型的多模态功能意味着您可以以复杂的方式与整本书、非常长的文档集合、数百个文件中数十万行代码库、完整电影、整个播客系列等进行交互。那些想观看 Gemini 1.5 有组织的演示的人可以参考它在 100.000 行代码中解决问题或在 44 分钟电影中检索的视频。

随着 OpenAI 最近推出了 ChatGPT 的内存功能，并预示着进军网络搜索，不仅要构建最强大的 AI，还要进行竞赛。在更广泛的消费者推广之前，谷歌将 Gemini 1.5 对开发人员和企业用户的关注，强调了人工智能作为商业创新和个人生产力工具的重要性。

真正重要的是该模型在多大程度上实际使用上下文来解决现实世界的问题，而 Gemini-1.5 已经超越了 SOTA。

尽管围绕 Gemini 1.5 令人兴奋，但很明显，谷歌仍处于探索其全部潜力的早期阶段。Gemini 1.5 将仅通过 Vertex AI 和 AI Studio 提供给商业用户和开发人员。该模型令人印象深刻的功能也带来了挑战，特别是在涉及其最大上下文窗口的任务的处理速度方面。正如 Google DeepMind 研究副总裁 Oriol Vinyals 所承认的那样，“延迟方面 [是] 我们......努力优化 - 这仍处于实验阶段，处于研究阶段。然而，未来优化的承诺和对更大上下文窗口的探索表明，谷歌只是触及了可能性的表面。