谷歌发布了一个开源的大型语言模型,该模型基于用于创建Gemini的技术,该模型功能强大而轻量级,经过优化,可用于资源有限的环境,如笔记本电脑或云基础设施。
Gemma 可用于创建聊天机器人、内容生成工具以及语言模型可以做的几乎所有其他事情。这是SEO一直在等待的工具。
它有两个版本,一个有 20 亿个参数 (2B),另一个有 70 亿个参数 (7B)。参数的数量表示模型的复杂性和潜在能力。具有更多参数的模型可以更好地理解语言并生成更复杂的响应,但它们也需要更多的资源来训练和运行。
发布 Gemma 的目的是使获得最先进的人工智能变得民主化,这些人工智能经过训练,开箱即用,具有安全和负责任的功能,并带有一个工具包来进一步优化其安全性。
Gemma 的 DeepMind
该模型被开发为轻巧高效,这使得它非常适合将其交到更多最终用户手中。
根据 Apple 机器学习研究科学家 Awni Hannun 的分析,Gemma 经过优化,效率很高,适合在资源匮乏的环境中使用。
Hannun 观察到,Gemma 的词汇量为 250000 (250k) 代币,而可比模型的词汇量为 32k。这样做的重要性在于,Gemma 可以识别和处理更多种类的单词,从而能够处理复杂语言的任务。他的分析表明,这种广泛的词汇表增强了模型在不同类型内容中的多功能性。他还认为,它可能对数学、代码和其他模式有所帮助。
还有人指出,“嵌入权重”是巨大的(7.5亿)。嵌入权重是对参数的引用,这些参数有助于将单词映射到其含义和关系的表示。
他指出,一个重要的特征是,嵌入权重对有关单词含义和关系的详细信息进行编码,不仅用于处理输入部分,还用于生成模型的输出。这种共享提高了模型的效率,使其在生成文本时能够更好地利用其对语言的理解。
对于最终用户来说,这意味着模型的响应(内容)更准确、更相关、更符合上下文,从而改善了模型在聊天机器人和翻译中的使用。
在随后的推文中,他还指出了训练中的优化,可以转化为可能更准确和更精细的模型响应,因为它使模型能够在训练阶段更有效地学习和适应。
他接着说,在数据和训练方面有更多的优化,但这两个因素才是特别突出的。
以安全和负责任的方式设计
一个重要的关键特征是它从头开始设计为安全,这使其成为部署使用的理想选择。对训练数据进行过滤,以删除个人和敏感信息。谷歌还使用来自人类反馈的强化学习(RLHF)来训练负责任行为的模型。
它通过手动重新组合、自动测试进行了进一步调试,并检查了不需要和危险活动的能力。