2025-12-07 每日 AI 新闻

发布: (2025年12月8日 GMT+8 09:41)
5 min read
原文: Dev.to

Source: Dev.to

模型竞争与研究突破

  • OpenAI 据称正加速发布 GPT‑5.2,以对抗 Google 的 Gemini 3,强调在持续的模型军备竞赛中拥有更强的推理能力、速度和可靠性。
  • ARC‑AGI 基准取得显著进展,系统通过 LLM 驱动的代码调试和集成方法解决了先前被视为“不可解”的谜题。
  • ARC Prize 2025 获奖者:
    • NVARC 的合成数据集成在 ARC‑AGI‑2 上取得约 24 % 的成绩。
    • Tiny Recursive Model (TRM),一个 7 M 参数的递归网络,在 ARC‑AGI‑1 上达到约 45 %,在 ARC‑AGI‑2 上达到约 8 %

“大家都说 LLM 不能进行真正的推理——它们只是模式匹配并且会产生幻觉代码。那么为什么我们的系统能够解决专门设计为通过模式匹配无法解开的抽象推理谜题?” — @IntuitMachine

Titans 架构(Google)

Google 推出了 Titans,一种在测试时“记住”的架构,通过短期注意力、神经长期记忆以及推理期间的基于梯度的权重更新实现。它能够处理 200 万 token 的上下文,在长上下文基准上以更少的参数超越 GPT‑4 和 Mamba,并为检索增强生成、代理和多模态提供新能力。

“Google 刚刚发布了 ‘Titans’——一种在测试时学习记忆的架构。这就是它为何能彻底改变长上下文 AI 的原因 🧵⬇️” — @IntuitMachine

多代理系统的上下文工程

社区分享的实用指南提出了三部分提示结构:工作上下文记忆工件,并通过日志压缩提升效率。该框架支持更具可扩展性的多代理部署。

DeepMind 的 SIMA 2

DeepMind 发布了 SIMA 2,其中经过 Gemini 微调的代理在游戏掌握度上提升了两倍,能够自我改进,并在几乎人类水平的表现下应对全新 3D 世界。

Google's context engineering framework for multi‑agent systems

社交平台集成

Elon Musk 宣布 X 的 “Enhance” 功能,由 Grok 提供动力,可分析草稿帖子并建议更智能的改写,还能生成 AI 图片和视频。该公告迅速获得超过 13 k 点赞。

人才经济与行业评论

  • 一个病毒式的 meme 突出了湾区 AI 工程师的薪酬,从 OpenAI 与 Anthropic 的 数百万美元总薪酬 到小型创业公司的 20 万美元 薪资不等。
  • Jensen Huang(NVIDIA CEO)强调 AI 开发不是泡沫,它需要“常开 的 GPU 工厂”,而非静态软件。他警告称 中国 现在占全球 AI 研究人员的 50 %,AI 专利的 70 %,且中国的数据中心建设速度是美国的 两倍,可能会改变基础设施优势。

“全球 50 % 的 AI 研究人员是中国人,去年 70 % 的 AI 专利来自中国。” — Jensen Huang

开源进展

  • DeepSeek V3.2Cortex‑AGI(一个无记忆逻辑基准)上取得 38.2 %,仅次于 Gemini 3.0 Pro 的 45.6 %,位居榜首。

Cortex‑AGI leaderboard crowning DeepSeek V3.2 as open‑source leader

安全与可靠性担忧

Carnegie Mellon 的基准 (SUSVIBES) 显示 AI 代理在真实编码任务中功能完成率为 61 %,但在安全性方面仅达 10.5 %,经常引入漏洞。这凸显了对“vibe‑coded”输出进行严格审查的必要性。

IntuitMachine 的 Theory of Mind (ToM) 研究对 600 多名用户进行调查,证明对模型行为的共情预判显著提升 LLM 表现,暗示人机交互设计对实现顶级成果至关重要。

AI collaboration ability chart from Theory of Mind research, showing ToM's predictive power for LLM success

宏观经济视角

Jensen Huang 重申,AI 领域的增长由 硬件需求 驱动,而非投机性软件泡沫。研究领先、基础设施建设和专利优势——尤其是来自中国的——对美国构成了战略性挑战。

Back to Blog

相关文章

阅读更多 »