原标题:国产ChatGPT快了吗?大模型百花齐放,底层技术有代差
2023年2月9日讯:ChatGPT背后的大规模预训练模型GPT-3.5能力强大,领先国内大模型一个代差。国内大模型百花齐放,如果要追赶并生产出类ChatGPT产品,首先要有能跟国际比肩的高性能基座模型,并在基座模型上优化。与此同时要有长期投入的环境,解决高端GPU算力“卡脖子”问题。
ChatGPT还存在不可避免的缺陷:常识缺失。究其原因,OpenAI在训练ChatGPT时,每一次进步都是算法+数据巧妙设计的结果,但这些训练过程都没有考虑常识知识的加入。
ChatGPT的火爆,已经引起了国内AI界的热烈讨论。
“全能网友”ChatGPT火出圈,国际科技巨头布局AI聊天机器人,国内大小企业能否迎头赶上?差距在哪?成立于2019年的人工智能企业北京智谱华章科技有限公司(下称“智谱AI”)CEO张鹏2月7日对澎湃科技(www.thepaper.cn)表示,ChatGPT背后的大规模预训练模型GPT-3.5能力强大,领先国内大模型一个代差。国内大模型百花齐放,如果要追赶并生产出类ChatGPT产品,首先要有能跟国际比肩的高性能基座模型,例如类GPT-3模型。在基座模型上优化,包括加入代码的训练增强逻辑性,做监督性的训练、强化学习的训练和用户反馈的数据监督训练,或许能得到与ChatGPT背后的模型相媲美的大模型。
西安中科创星科技孵化器有限公司(下称“中科创星”)创始合伙人米磊认为,国内差距主要在于资金长期投入和投入环境上,“OpenAI(ChatGPT的创建者)从2015年开始研发至今,背后是坚持不懈的长期巨额资金投入,不管是热还是冷,都坚持不断创新。最后十年磨一剑,坐冷板凳把ChatGPT做出来了。”与此同时,当前国内面临的高端GPU算力“卡脖子”问题仍然待解。
通用人工智能是指具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。ChatGPT的出现能否说明人类已经接近通用人工智能?张鹏认为,它离真正的通用人工智能甚至认知智能仍有距离。通过大规模预训练模型技术,ChatGPT实现了部分认知推理能力和内容生成能力。但它仍然欠缺认知中严谨的知识和逻辑,欠缺生成结果的可解释性。
究其原因,OpenAI在训练ChatGPT的时候历经从最基础的1750万基座模型GPT-3到加入代码的Code-Davinci-002再到加入了指令微调的InstructGPT,最后到最近加入强化学习的Text-Davinci-003和ChatGPT,每一次进步都是算法+数据巧妙设计的结果,但这些训练过程都没有考虑常识知识的加入。因此对于认知大模型,张鹏表示,或许可以通过加入记忆模块和自我反思机制,实现进一步突破。
ChatGPT曾在诱导下写出毁灭全人类的计划书,因此需要考虑监管问题。目前ChatGPT还存在不可避免的缺陷,暂时不太可能完全替代某一个职业,但随着用户量的急剧增加,给ChatGPT的反馈信息越来越多,模型迭代训练后,张鹏表示,未来或可替代简单重复、技术含量不大的工作。“总体上,目前技术已经跑在前头了,安全、法律、道德等层面对它的约束和应对还是要跟上。”
以下是澎湃科技与智谱AI首席执行官张鹏、中科创星创始合伙人米磊的对话实录。
【国内大模型百花齐放,底层技术与国外有代差】
澎湃科技:最近ChatGPT很火,国际科技巨头都在布局这块。
张鹏(智谱AI首席执行官):ChatGPT最近挺热的,但其实这个事儿不是很新鲜,往前推已经有几年时间了,最早可以追溯到2018年左右开始做大规模预训练模型,2020年OpenAI发布了GPT-3语言模型,引起对生成式AI的关注。去年生成式AI的另一个顶峰是图像生成模型的推出,引起了AIGC(人工智能生成内容)领域的火热。但背后的根本是大规模语言模型技术,这个技术从国外起步,现在把这个模型推到了千亿甚至万亿级别的规模之后会产生从量变到质变的变化。GPT-3之后,国内外的研究机构、厂商开始追捧这个技术,布局研发工作。
米磊(中科创星创始合伙人):ChatGPT确实是人工智能发展史上一个很大的突破,比较惊艳,标志着人工智能发展从量变走向质变。它是人工智能在继互联网浪潮中异军突起之后一次大的性能提升,不仅可以直接干活提高生产效率,还能有很大的想象空间,超出了大家的预期,所以一下子就火了。从硬科技的视角来看,人工智能的底层技术可以分为算法、数据和算力,科技巨头在这方面有明显优势,无论是资源平台,还是资金、人才,都占有先机。ChatGPT就是数据和算力结合的一个代表性创新案例。
澎湃科技:国内目前的发展或追赶情况是怎样的?
张鹏:ChatGPT火出圈确实有不太一样的地方,它不是纯研究,而是一个封装得非常好的产品,而且选择了聊天这样一个泛用场景,所以引起非常广泛的关注。
其实国内还有其他一些厂家也在做这个事,目前还是百花齐放的状态。比如百度文心,华为有盘古模型,字节跳动和达摩院也有自己的模型。这些模型大部分是语言模型,但也有一些多模态的模型,比如达摩院的M6模型是多模态的模型,它不光可以生成文本,也可以生成图像。
但可能都限于某些比较小众的应用,所以没有形成非常大规模的市场影响力。其次,深究下来,我们在底层技术上跟国外还有一定的代差,ChatGPT背后的GPT-3.5模型确实非常强,领先国内大模型一个代差,在这点上还值得我们去追赶。
米磊:大模型是非常难的一个方向,对技术要求很高,投入也很大,所以国内做这方面的初创企业并不多。技术上,跟国外比,国内还是有一定差距,ChatGPT基本上可以商用了,但国内也没有那么弱。国内在数据量、预训练模型、算法方面紧跟国际,做得还是很强的,中国也还是很有机会的。
澎湃科技:具体差距是什么?
张鹏:ChatGPT的能力源自于背后的基座模型,也就是大规模预训练模型。ChatGPT的基座模型是GPT-3,在GPT-3和ChatGPT之间还有一系列模型,也就是在GPT-3的基础上做了很多改进和优化,形成了GPT-3.5这样的系列模型。这一系列模型的能力是ChatGPT能取得当前这样的效果的基础。
GPT-3.5和GPT-3之间就是一个代差,国内大量的工作大概是在GPT-3的水平甚至比GPT-3还差一些的水平,所以这就是我说的技术上的代差,国内外的差距就在于模型的基础性能上。
去年,斯坦福大学基础模型研究中心的负责人Percy Liang等开展了一项研究,对全球范围内将近30个大模型横向评测,列了7项评测指标,其中6项是关于模型本身的评测性能,代表了模型本身能力的强弱,包括准确性、鲁棒性、公允性、偏见度、校准误差、恶意性。这个榜单里的模型绝大部分都是国外的,包括和ChatGPT相关的InstructGPT模型。当然这里面也有我们与清华多个实验室共同训练的大规模中英文预训练语言模型GLM-130B,这是国内唯一一个入选、能跟这些顶尖模型一较高下的基座模型。
米磊:在资金投入和投入环境上也存在差异。OpenAI从2015年开始研发至今,背后是坚持不懈的长期巨额资金投入,不管是热还是冷,都坚持不断创新,最后十年磨一剑,坐冷板凳把ChatGPT做出来了。中国长期投入的这种环境跟美国还是有差距的。说到底还是要按客观规律办事,所以我们呼吁大家关注和支持硬科技,希望大家能多一些耐心,做长期资本来支持科技创新。
澎湃科技:国内企业如果要追赶,生产出类ChatGPT产品,要从哪些方面入手?
张鹏:我们一直在做关于千亿模型和万亿模型的研究,也在思考我们与ChatGPT的距离。首先,我们认为要有能够跟国际比肩的性能非常好的基座模型,也就是类似GPT-3和GLM-130B这样的模型。有了基座模型之后,还要在基座模型上做优化,包括加入代码的训练,增强它的逻辑性,做监督性的训练,做强化学习的训练和用户反馈的数据监督训练。还要做很多这样的工作,才能得到跟ChatGPT背后的模型相媲美的模型。然后在大模型的基础上再去开发出产品,这是工程性的问题。
米磊:还是回到算法、数据和算力上。国内要在软硬件上同时下功夫,一方面把算法做得更好一点,尤其是优化算法,包括认知算法、反思算法。另一方面提升数据量,解决算力问题,因为现在还面临高端GPU算力卡脖子问题。
【通向认知智能的重要一步,需受安全、道德等约束】
澎湃科技:现在人们会和ChatGPT交流自己的职业会不会被它替代。
张鹏:目前ChatGPT还有一些不可避免的缺陷,暂时还不太可能完全替代某一个职业或某一份工作。但随着用户量的急剧增加,给ChatGPT的反馈信息越来越多,模型迭代训练后,是真的有可能替代一些简单重复、没有太大技术含量的工作。
米磊:人工智能会逐步把人类低端、重复性的工作代替,但创新是代替不了的。
澎湃科技:ChatGPT的出现能否说明我们已经接近了通用人工智能?
张鹏:说通用人工智能还早,顶多算是通向通用人工智能中的认知智能很重要的一步,通过大规模预训练模型技术,实现了部分认知推理能力和内容生成能力。当然它仍然会“一本正经地胡说八道”,犯一些常规性和知识性的错误,这就是它的一个缺陷,它仍然欠缺认知当中严谨的知识和逻辑这个部分,它生成的结果的可解释性还比较欠缺。
米磊:透过ChatGPT,我们已经能看到初级智能时代的曙光了,未来它将会带来一场生产力的革命。过去60年是信息时代,未来60年是智能时代,到时候大概率是要替代掉现在的搜索引擎模式。
澎湃科技:你们去年联合清华的几个实验室训练出了GLM-130B模型,后续有哪些发展规划?
张鹏:自2022年8月发布以来,GLM-130B收到了41个国家266个研究机构的使用需求,包括Google、Microsoft、Stanford、MIT、UC Berkely、CMU、Harvard、华为、百度、阿里巴巴、腾讯、头条、智源、北京大学、浙江大学、香港大学等。当前OpenAI的GPT对中国禁用,英伟达的A100等高端芯片对中国禁售,我们在做大模型的过程中挑战巨大,但同时也有这份责任心,要做大模型的中国创新,要做能媲美GPT系列的认知大模型。接下来从GPT-3到GPT-3.5到ChatGPT这条路径中的必要工作我们会持续去做,基于GLM-130B模型提供基础服务能力,比如文本生成、代码辅助编写等。
澎湃科技:在大模型中加入记忆模块和自我反思机制吗?
张鹏:这是我们的一个构想,团队正在这方面持续探索。首先要解决犯知识性错误的问题,因为现在ChatGPT是纯用生成的方式来回答问题,没有结合常识知识和背景性质的数据,所以它回答问题的时候虽然语句上是通顺的,但知识性的细节会出错。这是模型本身的缺陷,在训练时可能没有加入更多的知识,或者生成这个结果后没有用事实性的逻辑推理方式去检查。记忆模块就是为了解决知识内容犯错的问题,把这些知识记住就不需要胡说八道,直接从记忆里检索出来就好了。
澎湃科技:总的来说,ChatGPT会带来哪些技术和社会挑战?
张鹏:技术挑战就是它离真正的通用人工智能甚至认知智能这个目标还有一些距离,包括加入基于self-instruct的自我反思机制,需要从技术上持续突破。
对于社会问题,根据我们的观察,首先要考虑安全风险,它曾经在诱导下写出毁灭全人类的计划书,因此需要考虑如何避免或受到监管。其次,每个技术的诞生都会存在滥用的问题,现在国外有些学校、科研机构、期刊杂志禁止使用ChatGPT写论文。此外,可能会引起工作岗位、职业的变更,甚至会引起一些不稳定因素。总体上,目前技术已经跑在前头了,安全、法律、道德等层面对它的约束和应对还是要跟上。
澎湃科技:大小企业都在做大模型或类ChatGPT产品,怎样的企业会胜出?
张鹏:做这件事需要几方面要素,首先要有深厚的技术积累,持续深入研究,并有成果产出。
第二需要有大量资源,包括数据、算力。这一点上,国内和国际的大企业有天生的优势。
第三需要生态建设,一项新的技术在投入使用过程中不能靠一两个公司或者少量的人就能把整个事情做起来,它需要一个生态。比如大家愿意在产品中嵌入并应用这些技术,技术本身会接收到更多反馈,然后不断迭代,这需要一个良好的应用生态环境去促进不断升级和迭代。
从这几个要素可以判断哪些企业或机构能够在这件事上走得更远。