{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 科技快讯 > 正文

AI数据荒下的创业众生相:盗用GPT-4生成数据训练模型,引发投资人担忧

来源:互联网    时间:2024-04-17 15:12:53

  智东西4月16日消息,据外媒The Information 4月15日报道,在AI领域,许多初创公司开发的聊天机器人实际上是建立在OpenAI等大型企业所提供的数据和技术基础之上的。这些低成本的服务能够在某些程度上模仿GPT-4、Llama的性能,但这种做法可能违反了这些科技强企的使用要求。不仅如此,这种低成本的模仿还有可能对AI强企的市场份额和收入产生威胁。

  AI巨头们自身也难逃版权纠纷,一些未经许可的数据使用引发了较多争议和诉讼。但好在行业整体版权意识有所转势,OpenAI和谷歌带头与出版商和网站达成了数据的授权协议。

  此外,在当下如此复杂的市场竞争中,投资者们也有着自己的考量。他们即希望看到AI行业的快速进步,又不愿支持初创公司在技术研发中出现“偷工减料”的行为。因为他们担心这些违反规则的行为可能会对初创公司的长期可持续性和声誉造成负面影响。

  一、AI公司创业新路子:用GPT-4生成内容训练模型

  开发者利用OpenAI最先进的模型GPT-4作为资源,来帮助加速他们的研究和开发过程。他们会向模型提问,来获得有关特定问题的洞见和建议。比如 :这行代码有什么问题?然后利用答案来改进他们自己的模型。

  一位帮助开发者构建对话式AI的创始人估计,他的客户中约有一半从OpenAI的GPT-4或Anthropic的Claude模型中生成了一些数据,并用这些数据改进了自己的模型。

  许多开发者无需从头开始训练模型。小规模模型的开发过程通常是基于免费提供的流行开源模型,如Meta或Mistral AI的开源模型。然后,他们再通过加入OpenAI模型的答案,使这些小规模模型得到显著的改进。

  对于某些公司来说,违反明文规定或潜规则的风险可能是值得的。在竞争激烈的生成式AI领域,获取高质量数据用于训练或完善模型至关重要。任何一家AI初创企业都了解如果缺乏数据来源用于训练,就会落后于人。

  即使是大型科技公司,也无法抵挡这样“便利的”诱惑。据《泰晤士报》报道,这方面的例子包括谷歌转录YouTube视频用于训练其AI模型以及Meta雇用非洲承包商总结受版权保护的书籍来训练AI模型。此外,彭博社报道了一则Adobe公司的消息,他们利用初创公司Midjourney提供的AI生成的照片训练自己的图像生成软件Firefly。

  据The Information报道,去年,谷歌的一位高级AI工程师在对该公司使用OpenAI的ChatGPT数据来训练谷歌自己的模型表示担忧后,辞职以示抗议。

  但有些开发者不愿主动承认自己对于开源模型的使用情况。一旦这种行为被公之于众时,他们的公司就会陷入尴尬的局面。例如巴黎的Mistral AI和北京的零一万物,在信息泄露事件之后,才不得不承认他们确实使用了Meta的开源模型Llama 2作为自己产品开发的基础。

  随着越来越多的公司开发出源于其他模型的模型,它们可能会变得难以区分。这可能会蚕食OpenAI等领先企业的竞争优势,当顾客选择更便宜、更方便的模型,而不是最先进、最昂贵的模型时,它们在价格上将展开竞争。

  二、阿尔特曼放宽ChatGPT使用限制,OpenAI此前深陷版权纠纷

  OpenAI和Anthropic、谷歌等其他领先的AI公司一样,在技术上禁止这种行为。尽管如此,OpenAI首席执行官山姆·阿尔特曼(Sam Altman)在一次会议上与初创企业创始人的对话中提到,小型企业创始人可以在一定程度上使用OpenAI的技术。

  虽然阿尔特曼的回答让在场的一些创始人松了一口气,但如果这种做法损害了OpenAI的发展,他们随时可能改变主意。目前还不清楚,OpenAI、谷歌、Anthropic和其他大型开发商会在多长时间内允许较小的竞争对手有效复制他们的AI。

  不过,初创公司利用OpenAI数据所做的事情与OpenAI和其他领先的AI开发商在训练自己的模型时所做的事情有相似之处。OpenAI的首席技术官米拉·穆拉提(Mira Murati)上个月的一次采访中,在回答有关其同事是否使用了谷歌旗下的YouTube以及Meta Platforms旗下的Facebook和Instagram的数据来训练Sora时,表现得有些含糊其辞。

  如果OpenAI确实使用了这些数据,也不足为奇。纽约时报最近的一篇报道描述了OpenAI如何创建语音识别工具Whisper来转录YouTube视频,以改进其GPT-4 模型。The Information此前曾报道,该公司秘密使用YouTube数据训练其之前的AI模型。本月早些时候,YouTube首席执行官尼尔·莫汉(Neal Mohan)表示,他不会同意OpenAI使用YouTube视频来开发像Sora这样的模型。

  这引发了新闻出版商和一些作家的指责。去年12月,《纽约时报》起诉OpenAI及其最大支持者微软,指控它们在训练模型时非法复制了纽约时报的文章。诉讼称,OpenAI的聊天机器人可以产生完整纽约时报内容的输出。

  OpenAI在回应中辩称,它曾试图与新闻出版商建立合作关系,其训练行为是美国版权原则“合理使用”所允许的。

  尽管如此,OpenAI和谷歌都与包括Axel Springer在内的出版商达成了价值数百万美元的授权协议,并与Reddit等大型网站达成了更大的协议。

  但并非每个AI开发商都游走在“灰色地域”。Databricks公司的首席科学家乔纳森·弗兰克尔(Jonathan Frankle)表示,该公司在开发强大的开源大型语言模型时,并没有依赖竞争对手的作品。Anthropic的一位发言人也称,该公司没有利用其他模型的输出结果来训练自身大模型。

  三、投资者不愿初创公司“走捷径”,合成数据或成训练新来源

  一些投资者对“偷工减料”或开发出与竞争对手无异的技术的公司感到不舒服,因为这些公司实际上并没有自己真正的技术。投资者们更希望看到AI领域的快速进步和比同行更好的科研成果。

  一些筹集了数亿美元资金的公司甚至不承认使用了其他AI公司的开源模型。这种情况更加剧李投资者的不满,认为公司的诚信有问题。门罗风险投资公司(Menlo Ventures)的董事总经理马特·墨菲(Matt Murphy)解释道,在一个新的生态系统中,没有一套明确的规则,就会出现这种情况。

  合成数据是一种替代方案,公司可以用自己的AI模型生成数据,而不是获取线上的内容。例如,谷歌和Meta就表示,它们使用合成数据来建立模型,以解决几何问题和生成计算机代码。由于AI能够生成这类数据,因此它避免了使用人工生成的内容所带来的许多法律问题。

  与此同时,数十家AI初创公司正在获取医疗保健和律师事务所等行业的私人数据,以开发特定用途的模型。

  结语:生成式AI模仿风波不断,OpenAI持宽容态度

  许多初创公司开发的AI大模型很可能使用了OpenAI和其他公司的数据,尽管这些初创公司正试图削弱OpenAI的实力。这种做法已成为了行业内的公开秘密,导致了技术同源但价格减半的竞争态势。

  虽然OpenAI等初创公司对于小规模使用情况保持宽容的态度,但一些公司仍不主动披露他们在开发过程中使用了他者的技术。他们认为承认可能会给公司带来风险。

  不管怎样,训练大模型数据的紧缺和日益增长的竞争压力仍在增加,目前合成数据仍在探索阶段,我们期待AI公司更前沿的模型训练和数据获取。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
再战英伟达?MTK和Intel联手 投资RISC-V芯片新贵

再战英伟达?MTK和Intel联手 投资RISC-V芯片新贵

  RISC-V芯片初创公司Rivos上一次出现在头条里是他们与苹果达成了和解协议。  早在2022年5月,苹果指控Rivos窃取其商业机密以打造具有
2024-04-17
全球锂电看中国:产量比重高达75% 前十企业中占6席

全球锂电看中国:产量比重高达75% 前十企业中占6席

  4 月 17 日消息,集邦咨询近日发布报告,表示 2023 年全球锂电池总出货量首次突破 1 太瓦时(TWh,1TWh=1000GWh),市场规模较 2
2024-04-17
苹果欧洲测试上线“网站分发”选项:iPhone用户可直接从网站下载应用

苹果欧洲测试上线“网站分发”选项:iPhone用户可直接从网站下载应用

  4 月 17 日消息,苹果公司上月发布公告,宣布为欧盟地区的开发者提供新的网络分发(Web Distribution)服务,而伴随着今天发布的 iO
2024-04-17
2024宝马3系:功能、规格和定价综合指南

2024宝马3系:功能、规格和定价综合指南

  轿车可能不再是汽车市场的宠儿,但宝马 3 系仍然备受关注。从最低型号到 M3 3 系列应该是终极驾驶机器。最新的 3 系确实比以往任
2024-04-17
特斯拉拖累旗舰基金创五个月低 伍德:仍爱特斯拉 英伟达涨得太超前

特斯拉拖累旗舰基金创五个月低 伍德:仍爱特斯拉 英伟达涨得太超前

  受到手中最大持股特斯拉全球裁员引发市场对该公司成长疑虑的影响,方舟投资旗下旗舰基金ARK Innovation ETF股价周二下跌2 8%至5个月
2024-04-17
台积电领军 台湾百大企业市值、营益超越韩国

台积电领军 台湾百大企业市值、营益超越韩国

  台积电领军,带动台湾百大企业市值、营益已超越韩国百大企业。  南韩媒体中央日报日文版17日报导,台湾百大企业(不含金融业、控股公
2024-04-17
本田拟在2027年前在中国推出6款全新电动品牌「烨」电动车

本田拟在2027年前在中国推出6款全新电动品牌「烨」电动车

  日本汽车大厂「本田汽车」周二宣布,计划在 2027年之前,在中国推出6款以「烨」 为品牌的下一代电动车车型。  综合媒体报道,不仅
2024-04-17
全球前25强半导体公司出炉!台积电登顶 台湾3家企业入榜

全球前25强半导体公司出炉!台积电登顶 台湾3家企业入榜

  半导体市场研究机构TechInsights近日发布2023年全球前25名半导体供应商名单,其中台积电排名第1 紧追在后的是英特尔、三星、英伟达与高
2024-04-17

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com