AI芯片巨擘英伟达日前发表最新AI模型Llama-3.1-Nemotron-70B-Instruct,性能超越业界领先的OpenAI的GPT-4o跟Anthropic的Claude3.5.此举意味着AI领域竞争格局的重大变化。
这款模型在知名AI平台Hugging Face上发布,虽然没有太大的宣传,但凭借其在多个基准测试中出色的表现,迅速引起业界关注。
根据英伟达的报告,该模型在关键评估中取得优异成绩,包括在Arena Hard基准测试中得85分,在AlpacaEval 2 LC中得57.6分,以及在GPT-4-Turbo MT-Bench中得8.98分。 这些成绩超过OpenAI的GPT-4和Anthropic的Claude 3.5 Sonnet等备受推崇的模型,使英伟达在AI语言理解和生成方面迅速崛起,成为业界新领导者。
Llama-3.1-Nemotron-70B-Instruct 的发表,除标志着英伟达的关键时刻外,也代表英伟达战略扩张的开始,可能会改变 AI 行业的格局,挑战传统的软件公司在大语言模型开发中的主导地位。
英伟达开发 Llama-3.1-Nemotron-70B-Instruct 的方式是,利用先进的训练技术,包括「从人类反馈中学习的强化学习」,对 Meta 的开源 Llama 3.1 模型进行优化。 这种方法使 AI 能 0 从人类的偏好中学习,可能会带来更加自然和符合语境的响应。
英伟达 Llama-3.1-Nemotron-70B-Instruct 不仅性能优异,且能处理复杂查询,无需额外的提示或特定的标记。 在一次演示中,它正确地回答「草莓里有多少个 r?」,展现自身对语言的深刻理解和提供清晰解释的能力。
这些结果的特别重要之处在于强调「对齐」的概念,这一 AI 研究术语指的是模型输出与用户需求和偏好的匹配程度。 对企业来说,这意味着减少错误、提供更有帮助的回应,最终提高客户满意度。
为了支持企业探索AI解决方案,英伟达还通过 build.nvidia.com 平台提供免费的托管推理服务,并且兼容OpenAI的API接口,使先进AI技术变得更易于获取,帮助各行各业的公司进行实验和实施。
尽管如此,英伟达也提醒用户,这款新模型在数学或法律等特殊领域的应用上可能存在一定的风险,企业需谨慎使用,以防止错误或滥用。
随着开发者对 Llama-3.1-Nemotron-70B-Instruct 的测试,可能很快就会看到该模型在医疗、金融、教育等领域的新应用出现。 它的成功将最终取决于是否能将令人印象深刻的基准得分,转化为实质解决方案。
英伟达发表新模型标志着 AI 系统开发的竞争进入了一个新的阶段,英伟达的举动将迫使其他科技公司重新考虑他们的策略,并加速研发进程。 这一切发生在英伟达推出 NVLM 1.0 系列多模态模型之后,其中包括 72 亿参数的 NVLM-D-72B。
这些最新的发布,尤其是开源的 NVLM 项目,显示英伟达 AI 雄心不仅仅是与竞争对手抗衡,还有具备挑战市场主导者的能力。