CIA 如何使用生成式 AI 技术?|AI Insider#219

训练数据枯竭或成为 AI 模型发展的隐忧。

CIA 如何使用生成式 AI 技术?|AI Insider#219

☕ Editor’s Note

🗓️ 2024.7.23 | Issue #219

今天重点推荐以下话题:

  • 日本宽松版权法的争议;
  • 英伟达计划在华推出新芯片;
  • 训练数据枯竭如何影响 AI 产业发展?
  • CIA AI 总监谈生成式 AI 应用;

One More Thing:昨夜今晨围绕 Meta Llama 3 405B 的传言很多,我们也在持续跟进核实相关信息,还请持续关注 Dailyio 的后续更新。

🔍焦点

「生成式 AI 天堂」还是「创作者噩梦」?日本版权法引发争议

根据《金融时报》的报道,日本宽松的版权法正吸引全球 AI 公司蜂拥而至,但同时也引发了国内创作者的强烈不满。

日本现行版权法允许 AI 公司在未经许可的情况下,广泛使用受版权保护的图像和其他材料来训练 AI 模型。这一政策不仅吸引了 Meta 和 OpenAI 等科技巨头,也让日本成为许多 AI 初创公司的首选地。

然而,数万名插画家、艺术家和音乐人对此表示强烈反对。21 岁的插画家 Momoji Mokume 担心,这可能导致「插画师这份工作消失,甚至创造力文化也会失传」。

尽管日本政府正积极推动 AI 发展,但创作者们呼吁修改版权法,以更好地保护他们的权益。这场争议凸显了 AI 发展与创作者权益保护之间的矛盾,日本政府如何平衡两者,将成为全球关注的焦点。


💰市场

英伟达为中国市场定制新旗舰 AI 芯片

根据路透社的独家报道,芯片巨头英伟达正在为中国市场开发一款新的旗舰 AI 芯片,以符合当前美国的出口管制规定。这款芯片暂定名为「B20」,基于英伟达今年 3 月发布的 Blackwell 系列开发的特别版本。

消息人士透露,英伟达计划与其在中国的主要分销合作伙伴浪潮合作,负责这款芯片的发布和分销。「B20」预计将于 2025 年第二季度开始出货。这一举措显示了英伟达在应对美国出口限制的同时,努力维持其在中国 AI 芯片市场主导地位的决心。

尽管面临华为等中国科技巨头的竞争,英伟达在中国市场的表现依然强劲。据 SemiAnalysis 研究机构估计,英伟达今年在中国的 H20 芯片销量有望超过 100 万片,价值超过 120 亿美元。

企业级 AI 公司 Cohere 再获 5 亿美元融资

尽管市场对生成式 AI 工具的投资回报率存在质疑,但投资者对该领域的热情并未减退。根据 VentureBeat 的报道,加拿大企业级 AI 初创公司 Cohere 刚刚宣布完成 5 亿美元的 D 轮融资,估值达到 55 亿美元。

本轮融资由加拿大养老金投资公司 PSP Investments 领投,新投资者包括思科系统、富士通、AMD 风投部门等。Cohere 计划利用这笔资金继续开发其 AI 模型,重点关注数据隐私和安全、多语言准确性以及检索增强生成(RAG)等能力。

与 OpenAI 等竞争对手不同,Cohere 完全专注于企业市场。该公司已发布两个企业级大语言模型 Command R 和 Command R+,在某些指标上甚至超过了 Claude 3 和 GPT-4 Turbo。去年夏天,Cohere 还推出了企业 AI 助手 Coral,旨在减少幻觉并提供数据安全保障。


🧐 研究

训练数据枯竭或成为 AI 模型发展的隐忧

根据《纽约时报》的报道,人工智能行业正面临一场前所未有的「数据同意危机」。「数据来源倡议(Data Provenance Initiative)」的最新研究显示,过去一年中,大量用于训练 AI 模型的重要网络数据源已经限制了数据使用。

研究发现,在三个常用的 AI 训练数据集中,5% 的所有数据和 25% 的高质量数据源已被限制访问。这种趋势主要通过网站所有者使用 robots.txt 文件来阻止自动机器人抓取他们的页面实现。

这一现象反映了数据所有者对被用作 AI 训练素材的担忧,以及对数据使用补偿的要求。一些出版商已经开始设置付费墙或更改服务条款,甚至采取法律行动来保护自己的内容。

对于 AI 行业来说,这种数据限制可能会带来严重后果。大型科技公司可能会通过与出版商达成独家协议来获取数据,但小型 AI 公司和学术研究者可能会因此受到更大影响,因为他们通常依赖公共数据集。

面对这一挑战,业界需要开发新的工具,让网站所有者能够更精确地控制他们数据的使用。同时,AI 公司也需要重新思考他们的数据获取和使用策略,以确保行业的长期可持续发展。

微软新研究展示如何使用 AI 模型处理电子表格

根据 VentureBeat 的报道,微软研究人员最近推出了一款名为 SpreadsheetLLM 的新型 AI 模型,旨在理解和处理电子表格数据,这一技术有望彻底改变企业数据分析的方式。

SpreadsheetLLM 通过创新的编码方案,成功地将电子表格内容转换为大语言模型(LLMs)可理解的格式。这使得 AI 能够对复杂的电子表格数据进行推理和分析,从而实现诸如自动化常规数据分析任务、提供智能洞察,甚至根据自然语言提示生成新的电子表格等功能。

这项技术的潜在应用广泛,不仅可以提高数据分析的效率和准确性,还可能使数据洞察的门槛更低。用户可以使用普通英语而非复杂的公式来查询和操作电子表格数据,这将使更多人能够做出数据驱动的决策。


👨‍💻应用

如何在三个月内为 11,000 名大学橄榄球员创建数字分身

根据《华尔街日报》的报道,Electronic Arts(EA)利用人工智能技术在短短三个月内为其新版大学橄榄球游戏创建了 11,000 名球员的数字形象,这一进展彰显了 AI 在游戏开发领域的巨大潜力。

EA Sports 总裁 Cam Weber 表示:「用我们过去的常规工作流程是无法完成这项工作的。」这种创新的 AI 技术不仅解决了传统 3D 扫描方法在时间和成本上的限制,还为未来游戏开发开辟了新的可能性。EA 收集了球员的照片,然后使用 AI 在几秒钟内创建其游戏中的 3D 头像。

除了球员形象,EA 还为游戏中的 134 个大学橄榄球场馆添加了独特细节,如圣母大学的「达阵耶稣」壁画。EA 高级制作总监 Robert Jones 强调:「所有这些细节对粉丝们来说都很有意义。」

尽管游戏行业整体低迷,分析师预计这款游戏的销量将达到至少 400 万份。然而,EA 仍面临着在线服务器稳定性等技术挑战。

CIA 的 AI 负责人:我们对 AI 采取谨慎而周全的方法

根据 TechCrunch 的报道,美国中央情报局(CIA)人工智能总监 Lakshmi Raman 近日接受了采访,讨论了该机构对 AI 技术的应用及其所面临的挑战。Raman 强调,CIA 正在采取一种「周全的方法」来部署 AI 技术。

CIA 自 2000 年左右就开始探索数据科学和 AI 应用,特别是在自然语言处理、计算机视觉和视频分析等领域。目前,该机构正在关注生成式 AI 等新兴趋势,并开发了名为 Osiris 的 AI 工具来协助情报分析。

然而,CIA 使用 AI 技术也引发了隐私和公民自由方面的担忧。Raman 坚称 CIA 遵守所有美国法律和道德准则,并采取措施减少偏见。她强调,负责任的 AI 开发需要包括开发人员、隐私和公民自由办公室在内的所有利益相关者的参与。


以上就是今天「AI Insider」的所有内容,作为一档新栏目,我们愿意聆听您的所有建议,欢迎通过评论的方式告诉您的想法。

我们明天再见。