大模型的改进可以使所有的下游小模型受益，大幅提升人工智能的使用场景和研发效率,大模型,的,改进,可以使,所,有的,下游,小,模型,

　　原标题：大模型训练一次200-1200万美元！ChatGPT多烧钱？

　　2023年2月14日讯：随着以ChatGPT为代表的生成式AI兴起，其背后以大模型为基础的人工智能成为业界投入的方向。

　　所谓“大模型”，通常是在无标注的大数据集上，采用自监督学习的方法进行训练。之后在其他场景的应用中，开发者只需要对模型进行微调，或采用少量数据进行二次训练，就可以满足新应用场景的需要。

　　据腾讯研究院，当前的人工智能大多是针对特定的场景应用进行训练，生成的模型难以迁移到其他应用，属于“小模型”的范畴。整个过程不仅需要大量的手工调参，还需要给机器喂养海量的标注数据，这拉低了人工智能的研发效率，且成本较高。

　　相比之下，大模型的改进可以使所有的下游小模型受益，大幅提升人工智能的使用场景和研发效率。

　　同时，在大模型的框架下，ChatGPT所使用的GPT模型，每一代参数量均高速扩张，预训练的数据量需求和成本亦快速提升。

　　国盛证券计算机分析师刘高畅、杨然在发表于2月12日的报告《Chatgpt 需要多少算力》中估算，GPT-3训练一次的成本约为140万美元，对于一些更大的LLM模型，训练成本介于200万美元至1200万美元之间。这一成本于全球科技大企业而言并不便宜，但尚在可接受范围内。

　　初始投入近十亿美元，单日电费数万美元

　　国盛证券估算，今年1月平均每天约有1300万独立访客使用ChatGPT，对应芯片需求为3万多片英伟达A100GPU，初始投入成本约为8亿美元，每日电费在5万美元左右:

　　1)计算假设：

　　英伟达A100：根据OneFlow报道，目前，NVIDIAA100是AWS最具成本效益的GPU选择。

　　英伟达DGXA100服务器：单机搭载8片A100GPU，AI算力性能约为5PetaFLOP/s，单机最大功率约为6.5kw，售价约为19.9万美元/台。

　　标准机柜：19英寸、42U。单个DGXA100服务器尺寸约为6U，则标准机柜可放下约7个DGXA100服务器。则，单个标准机柜的成本为140万美元、56个A100GPU、算力性能为35PetaFLOP/s、最大功率45.5kw。

　　2）芯片需求量：

　　每日咨询量：根据Similarweb数据，截至2023年1月底，chat.openai.com网站（即ChatGPT官网）在2023/1/27-2023/2/3这一周吸引的每日访客数量高达2500万。假设以目前的稳定状态，每日每用户提问约10个问题，则每日约有2.5亿次咨询量。

　　A100运行小时：假设每个问题平均30字，单个字在A100GPU上约消耗350ms，则一天共需消耗729,167个A100GPU运行小时。

　　A100需求量：对应每天需要729,167/24=30,382片英伟达A100GPU同时计算，才可满足当前ChatGPT的访问量。

　　3）运行成本：

　　初始算力投入：以前述英伟达DGXA100为基础，需要30,382/8=3,798台服务器，对应3,798/7=542个机柜。则，为满足ChatGPT当前千万级用户的咨询量，初始算力投入成本约为542*140=7.59亿美元。

　　每月电费：用电量而言，542*45.5kw*24h=591,864kwh/日。参考HashrateIndex统计，我们假设美国平均工业电价约为0.08美元/kwh。则，每日电费约为2,369,640*0.08=4.7万美元/日。

训练成本：公有云下，单次百万至千万美元

　　国盛证券基于参数数量和token数量估算，GPT-3训练一次的成本约为140万美元；对于一些更大的LLM模型采用同样的计算公式，训练成本介于200万美元至1200万美元之间：

　　1）基于参数数量和token数量，根据OneFlow估算，GPT-3训练一次的成本约为139.8万美元：每个token的训练成本通常约为6N（而推理成本约为2N），其中N是LLM的参数数量；假设在训练过程中，模型的FLOPS利用率为46.2%，与在TPUv4芯片上进行训练的PaLM模型（拥有5400亿参数）一致。