大模型训练数据的版权问题、如何看待荣耀的端侧大模型|AI Insider Extra#003

大模型训练数据的版权问题、如何看待荣耀的端侧大模型|AI Insider Extra#003
Photo by Markus Winkler / Unsplash

Editor’s Note

今天是 2024 年 1 月 11 日,您正在阅读的是第 3 期 AI Insider Extra。

「AI Insider Extra」源自已经连续出版近五年的(2019——2024)的「AI Insider」,我们希望在产业事件的梳理与汇总之外提供更多分析与洞察,为各位读者深入了解 AI、云等技术的产业发展趋势提供一些建议或参考。

本期我们重点关注两个话题:

  • 结合 OpenAI 与 NYT 的诉讼,探讨大模型训练数据的版权问题影响有多大?
  • 如何看待荣耀发布端侧大模型?

欢迎订阅 Dailyio Premium 会员获取更多独家内容。


大模型训练数据的版权问题影响有多大?

去年年末,《纽约时报》以一纸诉状将 OpenAI 告上法庭。

这家老牌媒体机认为,OpenAI 未经许可就使用该报发布的文章内容,损害了该报的权益。在给法院的材料里,《纽约时报》以 22 万页的篇幅,罗列了几百个证据,要求 OpenAI 销毁大模型中的相关材料和训练数据,还要赔付数十亿美元。

img

此事对于 OpenAI 乃至整个生成式 AI 领域都会产生巨大影响,毕竟,当下所有的大模型——无论是文本还是多模态——都需要海量的训练数据。如果法院支持 NYT,那么这个案例将开启 AI 公司向媒体(或其他训练数据来源)支付费用的先例,而如果 OpenAI 的做法得到法院的认可,则可以确认当下 AI 公司的做法——自由使用公开数据进行大模型训练的做法——是合法行为。

OpenAI 最近有两个回应颇具玩味。