热门短影音平台TikTok母公司、中国企业「字节跳动」,为训练其生成式AI模型,正积极搜集网络数据,其自行研发的网络爬虫程序「Bytespider」,搜集数据速度之快,已超越业界龙头。
据报导,根据网络资安公司Kasada(专精于线上数据的机器人管理)和Dark Visitors(监控网络爬虫程序)的研究,字节跳动于4月推出Bytespider网络爬虫程序的数据搜集速度,远胜过Google、Meta、Amazon、OpenAI和Anthropic等主要科技公司所使用的网络爬虫程序。
Kasada首席执行官克劳瑟指出,Bytespider的数据搜集速度,约为OpenAI用于训练ChatGPT的GPTbot的25倍,更是Anthropic公司Claude平台的ClaudeBot的3000倍。 而且,Bytespider近6周的数据搜集活动,呈现大幅增加的趋势,显示其搜集数据的积极程度与日俱增。
字节跳动积极搜集数据的行为,正值TikTok可能在未来几个月内遭美国禁用之际。 美国总统拜登已签署法案,基于国家安全考量,要求字节跳动出售TikTok或关闭其在美国的营运。
研究显示,Bytespider与OpenAI和Anthropic的网络爬虫程序一样,无视robots.txt的设定。 robots.txt是网站发布者设定的代码,虽然不具法律约束力,但本应告知网络爬虫程序,不得搜集该网站的数据。
网络数据搜集已行之有年,搜索引擎长期以来即运用此技术搜集网页链接。 然而,生成式AI的兴起,使数据搜集的议题更加复杂,也引发更多版权争议。 所有生成式AI工具的模型,都是以大量的线上数据为基础训练而成,这些数据几乎涵盖网络上的所有信息,尤其以文字信息为主。 科技公司利用网络爬虫程序免费复制这些数据,再将其纳入自己的资料集中。
克劳瑟认为,Bytespider积极搜集数据的行为,显示字节跳动正急于在生成式AI领域追赶其他公司。 据报道,字节跳动去年在生成式AI领域落后许多,甚至还曾违反OpenAI服务条款,使用OpenAI来协助开发自身的LLM(大型语言模型)。 字节跳动今年稍早推出名为「豆包」的聊天式LLM,但该模型的开发应早于Bytespider搜集最新数据的时间点。
知情人士透露,字节跳动正积极研发新型LLM,目标之一是提升TikTok的搜寻功能。 TikTok上月底更新搜索功能,让广告主能实时搜寻TikTok上的热门关键词,以便设计更有效的广告。 知情人士表示,搭载新AI模型,并整合最新的网络趋势和主题数据,将可提升TikTok的搜寻体验,让TikTok的搜寻环境更具竞争力,甚至能瓜分Google的广告市场。