大模型的「护城河」从未改变|AI Insider Extra#008
在全世界都在为英伟达疯狂的时候,数据已经变成了 AI 领域的新护城河。
Editor’s Note
「AI Insider Extra」源自连续出版近五年(2019——2024)的「AI Insider」。这份新专栏希望在产业事件的梳理与汇总之外提供更多分析与洞察,为读者深入了解 AI、云等技术的产业发展趋势提供一些建议或参考。
6 月,Dailyio 迎来五岁生日,我们为各位读者提供了多项会员福利:
- 限量 200 份的 100 元 Dailyio Pro 年度订阅优惠;
- 限量 200 份的 200 元 Dailyio Premium 年度订阅优惠;
- 8 折成为 Dailyio 终身会员;
- 低至 600/元的 Dailyio Vanguard 会员;
更多福利详见这里。
本期话题:当数据成为大模型的护城河之后,围绕数据的产业链正在发生哪些变化?
去年的时候,一位来自 OpenAI 的工程师分享了他在训练大模型时的感触:
我越来越清楚地认识到,这些模型在令人难以置信地接近于对其数据集的逼真模拟。这不仅意味着它们学习了什么是狗或猫,还学习了分布之间不重要的互补频率,例如人类可能会拍什么照片或人类经常写下的单词。
这表现为——在相同的数据集上训练足够长的时间后,几乎每个具有足够权重和训练时间的模型都会收敛到同一个点。足够大的扩散卷积-Unet 产生与 ViT 生成器相同的图像。 AR 采样产生与扩散相同的图像。
这是一个令人惊讶的发现!这意味着模型的行为并不由架构、超参数或优化器选择决定。它由你的数据集决定,除此之外别无他物。其他一切都是高效提供计算资源以逼近该数据集的手段。
更进一步,他这样写道,「当你提到“Lambda”、“ChatGPT”、“Bard”或“Claude”时,你提到的不是模型的权重。是数据集」。
这个观点为我们理解大模型竞争的本质提供了一个新视角:在全世界都在为英伟达芯片(股票)疯狂的时候,数据已经变成了 AI 领域的新护城河,或者说,这个护城河一直没有变化。