主流媒体报道生成式 AI 的「傲慢与偏见」|AI Insider#221

Llama 3.1 是一个什么「开源」模型?

主流媒体报道生成式 AI 的「傲慢与偏见」|AI Insider#221

☕ Editor’s Note

🗓️ 2024.7.25 | Issue #221

今天重点推荐以下新闻:

  • Llama 3.1 是一个什么「开源」模型?
  • AI 报道背后的行业偏见:《纽约时报》案例分析;
  • 合成数据或导致大语言模型崩溃;
  • 微软 Copilot AI 的应用挑战以及 AI 增加工作时长的调查;
  • Meta 继续与欧盟监管博弈;

🧐 研究

AI 报道背后的行业偏见:《纽约时报》案例分析

根据 Computer Says Maybe 公司最新研究报告,主流媒体对人工智能的报道主要受商业科技行业的影响,这可能导致对 AI 的片面叙述。

研究人员对《纽约时报》科技版块 90 篇 AI 相关文章进行了内容分析,发现:

  • 67% 的引用来自商业科技行业人士,而来自公民社会组织的仅占 6%。
  • 被提及最多的个人是 OpenAI 的 Sam Altman 和特斯拉的 Elon Musk。
  • 被提及最多的组织是 OpenAI、谷歌、微软和苹果。

研究还发现了几个值得关注的报道模式:

  • 商业科技行业人士往往被视为「专家」,而学者和公民社会声音则被定位为「批评者」。
  • 非商业科技行业的观点往往被忽视或简化。
  • 报道中经常使用模糊的术语来描述 AI 技术。
  • 存在将 AI 发展描述为「英雄 VS 反派」的叙事倾向。

研究者呼吁媒体在 AI 报道中纳入更多元的观点,以帮助公众更全面地理解这项技术的影响。

研究显示,合成数据或导致模型崩溃

根据《金融时报》的报道,新研究显示,使用计算机生成的数据来训练人工智能模型可能导致其产生无意义的结果,凸显了这项新兴技术面临的挑战。

研究发现,使用「合成」数据(由 AI 系统创建的信息)来训练大型语言模型(LLMs)可能导致 AI 模型快速退化。

一项关于中世纪建筑的实验在不到 10 代输出后就偏离主题,开始讨论长耳大野兔。这项研究强调了 AI 开发商争相购买人类生成数据用于训练的原因,并提出了一旦这些有限资源耗尽后会发生什么的问题。

研究还探讨了 AI 模型随时间推移而崩溃的趋势,这是由于连续几代训练中不可避免的错误积累和放大造成的。模型崩溃的早期阶段通常涉及「方差损失」,即数据中的主要子群体逐渐过度代表,而少数群体则被忽视。在崩溃的后期阶段,所有数据部分可能都会变得毫无意义。


🆕产品

Llama 3.1 是一个什么「开源」模型

Llama 3.1 405B 是一个开放权重(open-weights)模型,这意味着任何人都可以下载训练好的神经网络文件,并运行或微调它们。

要下载和使用 Llama 3.1 模型,用户需要:

许可协议和使用政策方面,有以下几点值得注意:

  • Meta 技术上可以在任何时候撤销用户使用 Llama 3.1 或其输出的权利;
  • 新的 Llama 3.1 许可首次正式支持开发者使用 Llama 模型的输出来改进其他 AI 模型,这点很重要;

关于「开源」一词的使用存在争议,Llama 3.1 的发布模式更准确地应该被描述为「开放权重」,因为它带有一定的使用限制,并且没有提供训练数据。

法国 AI 新秀挑战巨头:Mistral Large 2 模型发布

根据 VentureBeat 的报道,法国 AI 初创公司 Mistral 于 7 月 24 日发布了其最新开源大语言模型 Mistral Large 2,这是一个拥有 1230 亿参数的强大模型,直接挑战 Meta 刚刚推出的 Llama 3.1。

Mistral Large 2 虽然参数量不及 Llama 3.1 的 4050 亿,但其性能却不相上下。该模型在多语言 MMLU 基准测试中与 Llama 3.1 旗鼓相当,同时由于体积更小而具有更高的成本效益。

值得注意的是,Mistral Large 2 在代码生成方面表现出色,支持 80 多种编程语言,在 HumanEval 和 HumanEval Plus 基准测试中超越了 Claude 3.5 Sonnet 和 Claude 3 Opus,仅次于 GPT-4o。

Mistral 还特别强调了该模型在减少幻觉、改进指令遵循能力以及提供简洁回答方面的优化,这些特性对企业用户尤为重要。

目前,Mistral Large 2 可通过公司自身的 API 平台以及 Google、Amazon、Microsoft 和 IBM 等主要云平台获取。然而,商业用途需要单独获得 Mistral 的许可和使用协议


👨‍💻应用

案例:微软 Copilot AI 的应用挑战

根据 Bloomberg 的报道,微软正在押注 AI 助手将彻底改变全球工作场所,为其赚钱的 Office 生产力软件注入新活力。然而,这场办公革命并非一蹴而就。

微软的 Copilot AI 助手虽然能够自动化手动任务、生成或总结文本和图像,但对企业而言并非即插即用的解决方案。公司在部署 Copilot 时面临着数据选择、安全性和信息访问权限等挑战,这需要时间和资金投入。

早期的采用者反馈表明,Copilot 在信息提炼方面表现出色,但在理解某些请求的上下文和处理跨应用程序命令方面仍有不足

安永(Ernst & Young)等公司正采取谨慎策略,分阶段推出 Copilot。尽管如此,Lumen Technologies 报告称,使用 Copilot 后,销售人员每周可节省超过 3 小时用于研究潜在客户。

分析师预测,微软可能要到 2025 年上半年才能从 Copilot 中获得显著财务回报。然而,微软表示,尽管存在成长痛,但许多客户已经决定投资这项技术。正如 Gartner 分析师 Adam Preset 所言:「在人工智能基础上的商业生产力提升方面,它是当今最显著的成功案例。但对于普通数字工作者的工作影响,结果还有待观察。」

调查:工作时间是否也被 AI 延长了?

根据 Fortune 杂志的报道,尽管人工智能被誉为提高生产力的新工具,但一项新调查显示,许多员工反而因此面临更长的工作时间和更重的工作负担。

自由职业平台 Upwork 对美国、英国、澳大利亚和加拿大的 2,500 名电脑工作者进行了调查。结果显示,96% 的高管期望 AI 能提高生产力,39% 的公司甚至强制要求员工使用 AI。然而,现实情况却不尽如人意:

  • 近半数(47%)使用 AI 的员工表示不知如何利用 AI 来满足雇主的生产力期望。
  • 39% 的员工需要花更多时间审核 AI 生成的内容。
  • 23% 的员工额外花时间学习使用 AI。
  • 21% 的员工被要求增加工作时间。

更令人担忧的是,仅有不到 26% 的领导者提供 AI 培训,只有 13% 制定了完善的 AI 策略。这种「重视 AI、轻视培训」的做法,导致 40% 的员工认为公司对 AI 使用的期望不切实际。


👮‍♂️ 监管

FTC 启动对「AI 定价」的调查

根据美国联邦贸易委员会(FTC)的公告,该机构已向八家公司发出调查令,要求它们提供有关「监控定价」产品和服务的信息。这些公司声称使用先进的算法、人工智能和其他技术,结合消费者的个人信息来制定针对性价格。

此次调查涉及 Mastercard、JPMorgan Chase、Accenture 和 McKinsey & Co. 等知名企业。FTC 将重点关注四个主要领域:产品和服务类型、数据收集和输入、客户和销售信息,以及对消费者和价格的影响

这一举措旨在揭示当前数据生态系统如何促进针对个人定价的能力,以及「监控定价」对消费者隐私、竞争和保护可能产生的影响。随着 AI 技术的快速发展,这项调查无疑将引发更多关于数据使用和消费者权益的讨论。

Meta 警告欧盟或错失 AI 发展机遇

根据《金融时报》的报道,社交媒体巨头 Meta 近日表示,欧盟对人工智能的监管方式可能导致该地区无法获得最先进的 AI 服务。

这一警告凸显了 AI 发展与监管之间的紧张关系,尤其是在欧盟正努力通过《人工智能法案》等措施来规范 AI 发展的背景下。Meta 副隐私官兼政策副总裁 Rob Sherman 证实,公司已收到欧盟隐私监管机构的要求,暂停在该地区使用数据训练未来的 AI 模型。

Sherman 指出,这种做法可能会导致欧洲与世界其他地区在可用技术上出现差距。他表示,如果监管机构无法以明确预期的方式进行监管,公司将难以在这些地区提供最先进的技术。