AI Insider

CIA 如何使用生成式 AI 技术？｜AI Insider#219

训练数据枯竭或成为 AI 模型发展的隐忧。

☕ Editor’s Note

🗓️ 2024.7.23 | Issue #219

今天重点推荐以下话题：

日本宽松版权法的争议；
英伟达计划在华推出新芯片；
训练数据枯竭如何影响 AI 产业发展？
CIA AI 总监谈生成式 AI 应用；

One More Thing：昨夜今晨围绕 Meta Llama 3 405B 的传言很多，我们也在持续跟进核实相关信息，还请持续关注 Dailyio 的后续更新。

🔍焦点

「生成式 AI 天堂」还是「创作者噩梦」？日本版权法引发争议

根据《金融时报》的报道，日本宽松的版权法正吸引全球 AI 公司蜂拥而至，但同时也引发了国内创作者的强烈不满。

日本现行版权法允许 AI 公司在未经许可的情况下，广泛使用受版权保护的图像和其他材料来训练 AI 模型。这一政策不仅吸引了 Meta 和 OpenAI 等科技巨头，也让日本成为许多 AI 初创公司的首选地。

然而，数万名插画家、艺术家和音乐人对此表示强烈反对。21 岁的插画家 Momoji Mokume 担心，这可能导致「插画师这份工作消失，甚至创造力文化也会失传」。

尽管日本政府正积极推动 AI 发展，但创作者们呼吁修改版权法，以更好地保护他们的权益。这场争议凸显了 AI 发展与创作者权益保护之间的矛盾，日本政府如何平衡两者，将成为全球关注的焦点。

💰市场

英伟达为中国市场定制新旗舰 AI 芯片

根据路透社的独家报道，芯片巨头英伟达正在为中国市场开发一款新的旗舰 AI 芯片，以符合当前美国的出口管制规定。这款芯片暂定名为「B20」，基于英伟达今年 3 月发布的 Blackwell 系列开发的特别版本。

消息人士透露，英伟达计划与其在中国的主要分销合作伙伴浪潮合作，负责这款芯片的发布和分销。「B20」预计将于 2025 年第二季度开始出货。这一举措显示了英伟达在应对美国出口限制的同时，努力维持其在中国 AI 芯片市场主导地位的决心。

尽管面临华为等中国科技巨头的竞争，英伟达在中国市场的表现依然强劲。据 SemiAnalysis 研究机构估计，英伟达今年在中国的 H20 芯片销量有望超过 100 万片，价值超过 120 亿美元。

企业级 AI 公司 Cohere 再获 5 亿美元融资

尽管市场对生成式 AI 工具的投资回报率存在质疑，但投资者对该领域的热情并未减退。根据 VentureBeat 的报道，加拿大企业级 AI 初创公司 Cohere 刚刚宣布完成 5 亿美元的 D 轮融资，估值达到 55 亿美元。

本轮融资由加拿大养老金投资公司 PSP Investments 领投，新投资者包括思科系统、富士通、AMD 风投部门等。Cohere 计划利用这笔资金继续开发其 AI 模型，重点关注数据隐私和安全、多语言准确性以及检索增强生成（RAG）等能力。

与 OpenAI 等竞争对手不同，Cohere 完全专注于企业市场。该公司已发布两个企业级大语言模型 Command R 和 Command R+，在某些指标上甚至超过了 Claude 3 和 GPT-4 Turbo。去年夏天，Cohere 还推出了企业 AI 助手 Coral，旨在减少幻觉并提供数据安全保障。

🧐 研究

训练数据枯竭或成为 AI 模型发展的隐忧

根据《纽约时报》的报道，人工智能行业正面临一场前所未有的「数据同意危机」。「数据来源倡议（Data Provenance Initiative）」的最新研究显示，过去一年中，大量用于训练 AI 模型的重要网络数据源已经限制了数据使用。

研究发现，在三个常用的 AI 训练数据集中，5% 的所有数据和 25% 的高质量数据源已被限制访问。这种趋势主要通过网站所有者使用 robots.txt 文件来阻止自动机器人抓取他们的页面实现。

这一现象反映了数据所有者对被用作 AI 训练素材的担忧，以及对数据使用补偿的要求。一些出版商已经开始设置付费墙或更改服务条款，甚至采取法律行动来保护自己的内容。

对于 AI 行业来说，这种数据限制可能会带来严重后果。大型科技公司可能会通过与出版商达成独家协议来获取数据，但小型 AI 公司和学术研究者可能会因此受到更大影响，因为他们通常依赖公共数据集。

面对这一挑战，业界需要开发新的工具，让网站所有者能够更精确地控制他们数据的使用。同时，AI 公司也需要重新思考他们的数据获取和使用策略，以确保行业的长期可持续发展。

微软新研究展示如何使用 AI 模型处理电子表格

根据 VentureBeat 的报道，微软研究人员最近推出了一款名为 SpreadsheetLLM 的新型 AI 模型，旨在理解和处理电子表格数据，这一技术有望彻底改变企业数据分析的方式。

SpreadsheetLLM 通过创新的编码方案，成功地将电子表格内容转换为大语言模型（LLMs）可理解的格式。这使得 AI 能够对复杂的电子表格数据进行推理和分析，从而实现诸如自动化常规数据分析任务、提供智能洞察，甚至根据自然语言提示生成新的电子表格等功能。

这项技术的潜在应用广泛，不仅可以提高数据分析的效率和准确性，还可能使数据洞察的门槛更低。用户可以使用普通英语而非复杂的公式来查询和操作电子表格数据，这将使更多人能够做出数据驱动的决策。

👨‍💻应用

如何在三个月内为 11,000 名大学橄榄球员创建数字分身

根据《华尔街日报》的报道，Electronic Arts（EA）利用人工智能技术在短短三个月内为其新版大学橄榄球游戏创建了 11,000 名球员的数字形象，这一进展彰显了 AI 在游戏开发领域的巨大潜力。

EA Sports 总裁 Cam Weber 表示：「用我们过去的常规工作流程是无法完成这项工作的。」这种创新的 AI 技术不仅解决了传统 3D 扫描方法在时间和成本上的限制，还为未来游戏开发开辟了新的可能性。EA 收集了球员的照片，然后使用 AI 在几秒钟内创建其游戏中的 3D 头像。

除了球员形象，EA 还为游戏中的 134 个大学橄榄球场馆添加了独特细节，如圣母大学的「达阵耶稣」壁画。EA 高级制作总监 Robert Jones 强调：「所有这些细节对粉丝们来说都很有意义。」

尽管游戏行业整体低迷，分析师预计这款游戏的销量将达到至少 400 万份。然而，EA 仍面临着在线服务器稳定性等技术挑战。

CIA 的 AI 负责人：我们对 AI 采取谨慎而周全的方法

根据 TechCrunch 的报道，美国中央情报局（CIA）人工智能总监 Lakshmi Raman 近日接受了采访，讨论了该机构对 AI 技术的应用及其所面临的挑战。Raman 强调，CIA 正在采取一种「周全的方法」来部署 AI 技术。

CIA 自 2000 年左右就开始探索数据科学和 AI 应用，特别是在自然语言处理、计算机视觉和视频分析等领域。目前，该机构正在关注生成式 AI 等新兴趋势，并开发了名为 Osiris 的 AI 工具来协助情报分析。

然而，CIA 使用 AI 技术也引发了隐私和公民自由方面的担忧。Raman 坚称 CIA 遵守所有美国法律和道德准则，并采取措施减少偏见。她强调，负责任的 AI 开发需要包括开发人员、隐私和公民自由办公室在内的所有利益相关者的参与。

以上就是今天「AI Insider」的所有内容，作为一档新栏目，我们愿意聆听您的所有建议，欢迎通过评论的方式告诉您的想法。

我们明天再见。

CIA 如何使用生成式 AI 技术？｜AI Insider#219

☕ Editor’s Note

🔍焦点

💰市场

🧐 研究

👨‍💻应用

阅读更多

全球职场白领正在为 AI 缴纳一笔隐性税

模型打平之后，中美 AI 竞争开始分叉

AI 公司集体抢桌面应用，竞赛翻篇了

当 AI 模型发布变成主权安全事件

☕ Editor’s Note

免费获取 AI Insider

🔍焦点

💰市场

🧐 研究

升级 Premium 会员

👨‍💻应用

阅读更多

全球职场白领正在为 AI 缴纳一笔隐性税

模型打平之后，中美 AI 竞争开始分叉

AI 公司集体抢桌面应用，竞赛翻篇了

当 AI 模型发布变成主权安全事件