字节跳动狂扫全球网络数据速度超越OpenAI 25倍-IT商业科技网

　　热门短影音平台TikTok母公司、中国企业「字节跳动」，为训练其生成式AI模型，正积极搜集网络数据，其自行研发的网络爬虫程序「Bytespider」，搜集数据速度之快，已超越业界龙头。

　　据报导，根据网络资安公司Kasada(专精于线上数据的机器人管理)和Dark Visitors(监控网络爬虫程序)的研究，字节跳动于4月推出Bytespider网络爬虫程序的数据搜集速度，远胜过Google、Meta、Amazon、OpenAI和Anthropic等主要科技公司所使用的网络爬虫程序。

　　Kasada首席执行官克劳瑟指出，Bytespider的数据搜集速度，约为OpenAI用于训练ChatGPT的GPTbot的25倍，更是Anthropic公司Claude平台的ClaudeBot的3000倍。而且，Bytespider近6周的数据搜集活动，呈现大幅增加的趋势，显示其搜集数据的积极程度与日俱增。

　　字节跳动积极搜集数据的行为，正值TikTok可能在未来几个月内遭美国禁用之际。美国总统拜登已签署法案，基于国家安全考量，要求字节跳动出售TikTok或关闭其在美国的营运。

　　研究显示，Bytespider与OpenAI和Anthropic的网络爬虫程序一样，无视robots.txt的设定。 robots.txt是网站发布者设定的代码，虽然不具法律约束力，但本应告知网络爬虫程序，不得搜集该网站的数据。

　　网络数据搜集已行之有年，搜索引擎长期以来即运用此技术搜集网页链接。然而，生成式AI的兴起，使数据搜集的议题更加复杂，也引发更多版权争议。所有生成式AI工具的模型，都是以大量的线上数据为基础训练而成，这些数据几乎涵盖网络上的所有信息，尤其以文字信息为主。科技公司利用网络爬虫程序免费复制这些数据，再将其纳入自己的资料集中。

　　克劳瑟认为，Bytespider积极搜集数据的行为，显示字节跳动正急于在生成式AI领域追赶其他公司。据报道，字节跳动去年在生成式AI领域落后许多，甚至还曾违反OpenAI服务条款，使用OpenAI来协助开发自身的LLM(大型语言模型)。字节跳动今年稍早推出名为「豆包」的聊天式LLM，但该模型的开发应早于Bytespider搜集最新数据的时间点。

　　知情人士透露，字节跳动正积极研发新型LLM，目标之一是提升TikTok的搜寻功能。 TikTok上月底更新搜索功能，让广告主能实时搜寻TikTok上的热门关键词，以便设计更有效的广告。知情人士表示，搭载新AI模型，并整合最新的网络趋势和主题数据，将可提升TikTok的搜寻体验，让TikTok的搜寻环境更具竞争力，甚至能瓜分Google的广告市场。