2月7日 AI 速报 · 第 10 期
## 🔍 核心洞察
AI 编程正加速迈向**自然语言编译范式**,**Claude Opus 4.6** 登顶 LM Arena 全维度榜首,而**Genie 3**与**Gemini**深度赋能 Waymo 构建生成式自动驾驶仿真世界——**模型能力、智能体基础设施与垂直沙箱技术**三线并进,重构开发与可信 AI 应用边界。
## 🚀 重点动态
- **Claude Opus 4.6 全维度登顶 LM Arena**:在代码、文本及专家任务三大基准中均位列第一,性能较 4.5 版本实现显著跃升。
- **Genie 3 驱动 Waymo 生成式世界模型**:将世界知识实时转化为摄像头/激光雷达级仿真数据,支持长尾场景压力测试。
- **LlamaExtract 新增可视化引用边界框**:为结构化文档提取提供可验证的源位置标注,大幅提升审计与合规效率。
- **Kimi K2.5 Instant 跻身开源模型前五**:在视觉、文本与代码多领域超越多数开源竞品,逼近顶尖闭源模型水平。
- **DeepAgents JS 正式集成安全沙箱**:为 AI Agent 提供隔离、可控、可预测的浏览器端执行环境。
- **Claude Code 上线回溯总结功能**:自动聚合历史编码路径对话,保留上下文以支撑多方案探索与决策。
- **Perplexity Max 推出 Council Mode 与 Opus 4.6 智能体**:多模型共识+代理研究工具+升级版浏览器控制,定义新一代 AI 研究工作流。
- **Pydantic Monty 编译至 WebAssembly**:Simon Willison 实现 Rust 构建的 Python 子集在浏览器端高性能沙箱运行,专为 LLM 生成代码提供即时安全验证。