2月9日 AI 速报 · 第 15 期

2026-02-09 00:00

作者: RadarAI Editorial 编辑: RadarAI 编辑部最后更新: 2026-06-25 审核状态: 待编辑审核 AI速报速报官方

## 🔍 核心洞察 **上下文管理能力**、**Claude Skills 架构**与**视觉语言模型精准感知**成为本周技术演进三大焦点；**美团**开源轻量化 **68.5B MoE 模型 LongCat-Flash-Lite**，**微软×清华**联合提出 BiPS 框架攻克 VLM「看图胡说」顽疾。 ## 🚀 重点动态 - **Context-Bench 发布**：Letta AI 推出新型评估框架，首次聚焦 LLM 对**文件系统操作**与**技能发现**的上下文窗口管理能力。 - **Anthropic 官方 Claude Skills 指南深度拆解**：33 页实战文档详解核心架构、与 **MCP 协议**集成逻辑及端到端测试策略。 - **美团开源 LongCat-Flash-Lite**：68.5B 参数 **MoE 模型**采用创新 **N-gram Embedding** 架构，实现极低激活参数+超高速推理，显著提升 Agent 编程任务效率。 - **Agent Skills 供应链攻击实录**：OpenClaw 平台遭真实攻击，**Markdown 文件**被恶意利用为 macOS 信息窃取木马分发载体，暴露技能生态安全盲区。 - **AI 补全遗留代码单元测试更高效**：实践验证 AI 在“屎山”代码中生成可靠单元测试的效率与质量**超越新入职工程师**。 - **微软×清华推出 BiPS 框架**：通过“一拉一推”双向感知塑形机制，在训练阶段强制 VLM 锁定关键视觉证据，大幅降低图文推理错误率。

上下文管理能力、Claude Skills 架构与视觉语言模型精准感知成为本周技术演进三大焦点；美团开源轻量化 68.5B MoE 模型 LongCat-Flash-Lite，微软×清华联合提出 BiPS 框架攻克 VLM「看图胡说」顽疾。

🚀 重点动态

Context-Bench 发布：Letta AI 推出新型评估框架，首次聚焦 LLM 对文件系统操作与技能发现的上下文窗口管理能力。
Anthropic 官方 Claude Skills 指南深度拆解：33 页实战文档详解核心架构、与 MCP 协议集成逻辑及端到端测试策略。
美团开源 LongCat-Flash-Lite：68.5B 参数 MoE 模型采用创新 N-gram Embedding 架构，实现极低激活参数+超高速推理，显著提升 Agent 编程任务效率。
Agent Skills 供应链攻击实录：OpenClaw 平台遭真实攻击，Markdown 文件被恶意利用为 macOS 信息窃取木马分发载体，暴露技能生态安全盲区。
AI 补全遗留代码单元测试更高效：实践验证 AI 在“屎山”代码中生成可靠单元测试的效率与质量超越新入职工程师。
微软×清华推出 BiPS 框架：通过“一拉一推”双向感知塑形机制，在训练阶段强制 VLM 锁定关键视觉证据，大幅降低图文推理错误率。

← 返回更新速报