2024 年上半年,123 亿美元流入 AI 市场|AI Insider#222

版权问题、高昂的训练成本以及盈利困境依旧。

2024 年上半年,123 亿美元流入 AI 市场|AI Insider#222
Photo by Christine Roy / Unsplash

☕ Editor’s Note

🗓️ 2024.7.26 | Issue #222

今天重点推荐以下新闻:

  • AI 公司 Runway 被曝使用 YouTube 视频训练视频生成模型;
  • OpenAI 正式进军搜索市场;
  • 生成式 AI 热潮持续,123 亿美元涌入市场;
  • Google 展示 AI 预测气候的潜力;

🔍 焦点

AI 公司 Runway 或大规模抓取 YouTube 视频训练自己的模型,引发版权争议

根据「404 Media」的独家报道,估值 15 亿美元的人工智能公司 Runway 被曝在训练其备受赞誉的 AI 视频生成工具 Gen-3 时,秘密抓取了数千个来自 YouTube 创作者和知名品牌的视频,以及盗版电影内容。

Runway 于 2024 年 6 月推出的 Gen-3 模型(代号 Jupiter)在 AI 开发社区和科技媒体中广受好评。然而,当被问及训练数据来源时,公司联合创始人 Anastasis Germanidis 拒绝提供具体细节,仅表示使用了内部策划的数据集。

404 Media 获得的一份大型内部电子表格揭示了 Runway 的训练数据来源。这份文件包含 14 个工作表,涵盖了不同类别的视频内容。其中包括来自《纽约客》、VICE 新闻、皮克斯、迪士尼、网飞、索尼等知名媒体和娱乐公司的 YouTube 频道内容,以及 Casey Neistat、Sam Kolder 等知名影响者和内容创作者的视频。

该电子表格还包含了一些非 YouTube 来源,如动画盗版网站 kisscartoon.sh 和其他电影盗版网站。

根据一位前 Runway 员工的透露,公司使用开源软件 YouTube-DL 和代理服务器来抓取视频,以避免被 YouTube 封禁。电子表格显示,Runway 员工被分配不同的关键词任务,搜索和收集相关视频。他们寻找特定主题、摄影技巧和多样化人物的视频。

404 Media 对 Gen-3 模型进行了测试,使用电子表格中提到的关键词和内容进行提示。结果显示,该模型能够生成与被抓取内容风格相似的视频。例如,使用 YouTube 美食博主 Mark Wiens 的名字作为提示,生成的视频展现了一个与 Wiens 视频风格相似的场景。

这一事件凸显了生成式 AI 行业在数据获取和使用方面面临的严峻挑战。一方面,高质量、多样化的训练数据对于提升 AI 模型性能至关重要;另一方面,如何在不侵犯版权的前提下获取这些数据,成为了 AI 公司面临的棘手问题。


🆕 产品

OpenAI 正式进军搜索市场

根据《华尔街日报》的报道,OpenAI 正式宣布推出名为 SearchGPT 的搜索引擎原型,这标志着 AI 领域与传统搜索巨头之间的竞争进入白热化阶段。

SearchGPT 将利用 AI 技术对网页内容进行实时总结,并允许用户进行后续提问,这一功能将直接挑战 Google 在搜索市场的主导地位。

OpenAI 表示,SearchGPT 的开发过程中与多家出版商合作,旨在提供高质量、可靠的信息。该工具目前处于测试阶段,仅向部分用户和出版商开放。值

得注意的是,OpenAI 计划未来将 SearchGPT 整合到其广受欢迎的 ChatGPT 服务中,这可能会进一步改变用户的搜索习惯。

然而,这一举动也引发了出版商对流量损失的担忧。为此,OpenAI 承诺出版商可以管理其内容在 SearchGPT 中的呈现方式。随着 AI 搜索引擎的兴起,谷歌、微软等科技巨头也在加紧布局,搜索市场的竞争格局或将迎来重大变革。

AI 秒变程序员?Airtable 新工具或将影响应用开发

根据 VentureBeat 的报道,无代码平台创业公司 Airtable 推出了一款名为 Cobuilder 的 AI 驱动工具,可在几秒钟内通过自然语言提示生成可定制的应用程序

Airtable 的核心产品负责人兼 Cobuilder 产品负责人 Kelly O'Shaughnessy 在接受采访时表示:「Cobuilder 是构建无代码应用程序的最快方式,只需几秒钟就能通过自然语言创建可定制的应用」。

这项技术利用 LLM 解释用户提示并生成适当的应用程序结构,大大缩短了传统软件开发所需的时间和资源。O'Shaughnessy 还特别指出,Airtable 会保护客户数据的隐私和安全,不会将客户数据用于训练当前或未来的 LLM。


💰市场

生成式 AI 热潮持续,风投资金涌入,但挑战重重

根据 TechCrunch 的报道,尽管面临诸多挑战,风险投资者仍在大规模投资生成式 AI 创业公司。

2024 年上半年,共有 225 家生成式 AI 初创公司获得了 123 亿美元的融资,预计全年融资额有望达到或超过 2023 年的 218 亿美元。

其中,早期阶段的创业公司成为最大赢家。例如,Elon Musk 的 xAI 在 5 月份筹集了 60 亿美元,中国的「月之暗面」在 2 月份获得了 10 亿美元的投资。这表明投资者正在押注于他们认为最有可能成功的大型创业公司。

然而,生成式 AI 行业面临着诸多挑战。版权问题、高昂的训练成本以及盈利困境都给这些创业公司蒙上了一层阴影。即使是 OpenAI 这样的行业巨头,今年可能会亏损 50 亿美元。

尽管如此,包括 Google、Amazon 和 Nvidia 在内的科技巨头仍在继续投资,将其视为长期战略布局。但如果这些创业公司无法克服眼前的重重障碍,生成式 AI 泡沫是否会很快破裂?这个问题值得我们持续关注。

Elon Musk 提议让特斯拉为 xAI 注资 50 亿美元

根据《金融时报》的报道,特斯拉 CEO Elon Musk 表示,他将寻求董事会批准向其人工智能初创公司 xAI 投资 50 亿美元。这一举动可能会引发对利益冲突的质疑,因为特斯拉正试图将自身重新定位为一家机器人和人工智能公司。

Musk 在社交媒体平台 X 上发起了一项民意调查,询问公众是否支持这笔投资。在 95 万多张投票中,68% 的人表示赞同。Musk 随后回应称:「看来公众是支持的。我将与特斯拉董事会讨论这件事。」

这笔投资如果实现,将使 Musk 的科技公司网络进一步交织在一起。xAI 成立于去年 7 月,正在开发一款名为 Grok 的聊天机器人。Musk 此举旨在追赶 OpenAI 和 Anthropic 等竞争对手,但他承认自己的顶级 AI 模型仍比 OpenAI 的弱「一个数量级」。


🧐 研究

OpenAI 新对齐研究方法引发争议

根据 VentureBeat 的报道,OpenAI 近日宣布了一种名为「基于规则的奖励」(Rules-Based Rewards,简称 RBR)的新方法,用于教导 AI 模型遵循安全政策。

OpenAI 安全系统负责人 Lilian Weng 表示,RBR 可以自动化部分模型微调过程,缩短确保模型不产生意外结果所需的时间。与传统的人类反馈强化学习方法相比,RBR 让安全和政策团队使用 AI 模型根据预设规则对响应进行评分。

然而,这种由模型负责另一个模型安全的做法引发了一些担忧。Weng 认为,RBR 实际上减少了人类评估者常面临的主观性问题。她解释道:「即使与人类培训师合作,指令越模糊,获得的数据质量就越低。最终,你会得到与我们给模型的规则相同的结果。」

值得注意的是,OpenAI 近期在安全承诺方面受到质疑。今年 3 月,前超级对齐团队负责人 Jan Leike 批评公司将「安全文化和流程置于华而不实的产品之后」,联合创始人兼首席科学家 Ilya Sutskever 也已离职并创立了一家专注于安全 AI 系统的新公司。

Google 新模型展示 AI 对于气候科学的巨大价值

根据《金融时报》的报道,Google 领导开发的 NeuralGCM 模型在长期天气和气候预测方面取得了重大突破。这个混合模型结合了机器学习和传统的大气物理模型,不仅提高了预测的准确性和速度,还为 AI 在其他领域的应用开辟了新的可能性。

研究团队发现,NeuralGCM 能够成功追踪数十年的气候趋势和极端天气事件,如气旋。与传统的基于大气物理工具的预测模型 X-SHiELD 相比,NeuralGCM 表现更为出色。

在识别热带气旋方面,NeuralGCM 几乎识别出与传统极端天气追踪器相同数量的气旋,是 X-SHiELD 的两倍。在计算效率方面,NeuralGCM 也展现出显著优势,能在 24 小时内生成 70,000 个模拟日,而 X-SHiELD 仅能生成 19 个。

Google 研究部门的高级工程师 Stephan Hoyer 表示:「NeuralGCM 表明,当我们将 AI 与基于物理的模型结合时,我们可以显著提高大气气候模拟的准确性和速度。」这种创新方法不仅为气候预测带来了新的突破,也为 AI 在材料发现和工程设计等其他领域的应用提供了宝贵的参考。


以上就是今天「AI Insider」的所有内容,作为一档新栏目,我们愿意聆听您的所有建议,欢迎通过评论的方式告诉您的想法。

我们下周再见。