2月9日 AI 速报 · 第 15 期
上下文管理能力、Claude Skills 架构与视觉语言模型精准感知成为本周技术演进三大焦点;美团开源轻量化 68.5B MoE 模型 LongCat-Flash-Lite,微软×清华联合提出 BiPS 框架攻克 VLM「看图胡说」顽疾。...
## 🔍 核心洞察
**上下文管理能力**、**Claude Skills 架构**与**视觉语言模型精准感知**成为本周技术演进三大焦点;**美团**开源轻量化 **68.5B MoE 模型 LongCat-Flash-Lite**,**微软×清华**联合提出 BiPS 框架攻克 VLM「看图胡说」顽疾。
## 🚀 重点动态
- **Context-Bench 发布**:Letta AI 推出新型评估框架,首次聚焦 LLM 对**文件系统操作**与**技能发现**的上下文窗口管理能力。
- **Anthropic 官方 Claude Skills 指南深度拆解**:33 页实战文档详解核心架构、与 **MCP 协议**集成逻辑及端到端测试策略。
- **美团开源 LongCat-Flash-Lite**:68.5B 参数 **MoE 模型**采用创新 **N-gram Embedding** 架构,实现极低激活参数+超高速推理,显著提升 Agent 编程任务效率。
- **Agent Skills 供应链攻击实录**:OpenClaw 平台遭真实攻击,**Markdown 文件**被恶意利用为 macOS 信息窃取木马分发载体,暴露技能生态安全盲区。
- **AI 补全遗留代码单元测试更高效**:实践验证 AI 在“屎山”代码中生成可靠单元测试的效率与质量**超越新入职工程师**。
- **微软×清华推出 BiPS 框架**:通过“一拉一推”双向感知塑形机制,在训练阶段强制 VLM 锁定关键视觉证据,大幅降低图文推理错误率。
上下文管理能力、Claude Skills 架构与视觉语言模型精准感知成为本周技术演进三大焦点;美团开源轻量化 68.5B MoE 模型 LongCat-Flash-Lite,微软×清华联合提出 BiPS 框架攻克 VLM「看图胡说」顽疾。
🚀 重点动态
- Context-Bench 发布:Letta AI 推出新型评估框架,首次聚焦 LLM 对文件系统操作与技能发现的上下文窗口管理能力。
- Anthropic 官方 Claude Skills 指南深度拆解:33 页实战文档详解核心架构、与 MCP 协议集成逻辑及端到端测试策略。
- 美团开源 LongCat-Flash-Lite:68.5B 参数 MoE 模型采用创新 N-gram Embedding 架构,实现极低激活参数+超高速推理,显著提升 Agent 编程任务效率。
- Agent Skills 供应链攻击实录:OpenClaw 平台遭真实攻击,Markdown 文件被恶意利用为 macOS 信息窃取木马分发载体,暴露技能生态安全盲区。
- AI 补全遗留代码单元测试更高效:实践验证 AI 在“屎山”代码中生成可靠单元测试的效率与质量超越新入职工程师。
- 微软×清华推出 BiPS 框架:通过“一拉一推”双向感知塑形机制,在训练阶段强制 VLM 锁定关键视觉证据,大幅降低图文推理错误率。