4月8日 AI 速报 · 第 186 期

2026-04-08 08:00

作者: RadarAI Editorial 编辑: RadarAI 编辑部最后更新: 2026-07-07 审核状态: 待编辑审核 AI速报速报官方 AI动态开源

## 🔍 核心洞察 **GLM-5.1** 以 **8 小时长时程自主运行**能力与 **SWE-Bench Pro 开源榜首**表现，确立新一代**开源 Agent 模型新标杆**；与此同时，**Gemma 4** 在 Apple Silicon 设备上实现**本地多模态微调**与**音频转录、Google Maps 工具调用**等端侧能力落地 [22][7][13][14]。 ## 🚀 重点动态 - **GLM-5.1 正式开源：长时程 Agent 新标杆** [22]：支持长达 8 小时自主任务执行，在 SWE-Bench Pro 基准登顶开源模型榜首 - **GLM-5.1 现已在 Code Arena 上线，支持智能体任务** [9]：专为 Web 开发与工具使用类智能体任务优化，已开放实测 - **Gemma 4 多模态微调工具：专为 Apple Silicon 优化** [7]：开源 LoRA 微调方案，Mac 本地即可完成多模态适配，免租 GPU - **Gemma 4 集成 Google Maps 技能** [14]：Google AI Developers 展示其调用地理服务等结构化工具的能力 - **Harness Engineering：为 LLM 打造「全套身体」与记忆系统** [4]：宝玉提出 Harness 是 LLM 的感知-行动-三层记忆载体，实现从「缸中之脑」到具身智能的跃迁 - **Hermes Agent vs OpenClaw：开源 AI 智能体框架深度对比** [2]：聚焦架构设计、学习机制、记忆体系与安全性四大维度差异 - **Claude 新增 YouTube 视频搜索与分析功能** [12]：原生支持跨视频内容检索与语义分析，拓展多模态交互边界 - **Anthropic 发布 Claude Mythos：跑分炸裂的非商用安全模型** [24]：面向网络安全防御场景的闭源高性能模型，暂不对外开放 ## 🔗 Sources [1] 利用 LangSmith 的追踪与评估功能提升 AI Agent 性能 — https://www.bestblogs.dev/status/2041656189860393383 [2] Hermes Agent vs OpenClaw：开源 AI 智能体框架深度对比 — https://www.bestblogs.dev/status/2041649988120592710 [3] 从 Claude Code 与 OpenClaw 看 Harness 设计差异 — https://www.bestblogs.dev/status/2041649659962089821 [4] Harness Engineering：为 LLM 打造「全套身体」与记忆系统 — https://www.bestblogs.dev/status/2041649498531791236 [5] AI 训练数据中的安全隐患 — https://www.bestblogs.dev/status/2041647394794721284 [6] Gemma 4 多模态微调工具 GitHub 仓库 — https://www.bestblogs.dev/status/2041646421431185658 [7] Gemma 4 多模态微调工具：专为 Apple Silicon 优化 — https://www.bestblogs.dev/status/20416464158318

GLM-5.1 以 8 小时长时程自主运行能力与 SWE-Bench Pro 开源榜首表现，确立新一代开源 Agent 模型新标杆；与此同时，Gemma 4 在 Apple Silicon 设备上实现本地多模态微调与音频转录、Google Maps 工具调用等端侧能力落地 [22][7][13][14]。

🚀 重点动态

GLM-5.1 正式开源：长时程 Agent 新标杆 [22]：支持长达 8 小时自主任务执行，在 SWE-Bench Pro 基准登顶开源模型榜首
GLM-5.1 现已在 Code Arena 上线，支持智能体任务 [9]：专为 Web 开发与工具使用类智能体任务优化，已开放实测
Gemma 4 多模态微调工具：专为 Apple Silicon 优化 [7]：开源 LoRA 微调方案，Mac 本地即可完成多模态适配，免租 GPU
Gemma 4 集成 Google Maps 技能 [14]：Google AI Developers 展示其调用地理服务等结构化工具的能力
Harness Engineering：为 LLM 打造「全套身体」与记忆系统 [4]：宝玉提出 Harness 是 LLM 的感知-行动-三层记忆载体，实现从「缸中之脑」到具身智能的跃迁
Hermes Agent vs OpenClaw：开源 AI 智能体框架深度对比 [2]：聚焦架构设计、学习机制、记忆体系与安全性四大维度差异
Claude 新增 YouTube 视频搜索与分析功能 [12]：原生支持跨视频内容检索与语义分析，拓展多模态交互边界
Anthropic 发布 Claude Mythos：跑分炸裂的非商用安全模型 [24]：面向网络安全防御场景的闭源高性能模型，暂不对外开放

🔗 Sources

[1] 利用 LangSmith 的追踪与评估功能提升 AI Agent 性能 — https://www.bestblogs.dev/status/2041656189860393383
[2] Hermes Agent vs OpenClaw：开源 AI 智能体框架深度对比 — https://www.bestblogs.dev/status/2041649988120592710
[3] 从 Claude Code 与 OpenClaw 看 Harness 设计差异 — https://www.bestblogs.dev/status/2041649659962089821
[4] Harness Engineering：为 LLM 打造「全套身体」与记忆系统 — https://www.bestblogs.dev/status/2041649498531791236
[5] AI 训练数据中的安全隐患 — https://www.bestblogs.dev/status/2041647394794721284
[6] Gemma 4 多模态微调工具 GitHub 仓库 — https://www.bestblogs.dev/status/2041646421431185658
[7] Gemma 4 多模态微调工具：专为 Apple Silicon 优化 — https://www.bestblogs.dev/status/20416464158318

← 返回更新速报