4月3日 AI 速报 · 第 172 期

2026-04-03 16:00

作者: RadarAI Editorial 编辑: RadarAI 编辑部最后更新: 2026-07-05 审核状态: 待编辑审核 AI速报速报官方 AI动态开源

Gemma 4 与 LongCat-Next 双星闪耀，标志开源多模态模型进入「原生统一建模」新阶段；AI 智能体视频通话能力加速落地，OpenClaw、PikaStream 等框架已支持实时任务执行 [1][7][12]；小米推出 Token Plan 统一计费体系，美团首创 DiNA 架构突破离散建模瓶颈，工程范式正从 RAG 向 ChromaFs 虚拟文件系统等更高效架构演进 [5][2][...

## 🔍 核心洞察 **Gemma 4** 与 **LongCat-Next** 双星闪耀，标志开源多模态模型进入「原生统一建模」新阶段；**AI 智能体视频通话**能力加速落地，OpenClaw、PikaStream 等框架已支持实时任务执行 [1][7][12]；小米推出 **Token Plan** 统一计费体系，美团首创 **DiNA 架构**突破离散建模瓶颈，工程范式正从 RAG 向 **ChromaFs 虚拟文件系统**等更高效架构演进 [5][2][4]。 ## 🚀 重点动态 - **Gemma 4 发布：Apache 2.0 许可的原生多模态开源模型** [1]：Google DeepMind 推出支持音频/视频的 Gemma 4 系列，采用高度优化非标准 Transformer 架构 - **美团 LongCat-Next 实现文本/图像/语音统一 Token 预测** [2]：首创 DiNA 离散原生自回归架构，打破多模态离散建模性能天花板 - **OpenClaw AI 智能体首次接入 Google Meet 实时视频通话** [1]：完成端到端音视频流处理与交互，验证智能体具身化新路径 - **Pika Labs 推出 PikaStream 1.0 驱动的 AI Agent 视频聊天技能** [12]：测试版支持实时加入会议并执行视觉理解、任务响应等操作 - **小米 MiMo 大模型上线 Token Plan 订阅制** [5]：以统一 Credit 计费覆盖全模态 Agent 调用，适配高强度开发场景 - **Mintlify 发布 ChromaFs 虚拟文件系统替代传统 RAG** [4]：显著降低 AI 文档助手延迟与成本，提升检索精度与上下文一致性 - **港大开源轻量级白盒智能体框架 OpenHarness** [13]：兼容 Claude Code 生态，强调可调试性与资源效率 - **Browser Use Cloud 推出免费层级** [23]：提供无限浏览器时长、免费代理及持久化认证，降低 AI Agent 云端实验门槛 ## 🔗 Sources [1] [AI 新闻] Gemma 4：最强小型多模态开源模型，在各方面均大幅超越 Gemma 3 — https://www.bestblogs.dev/article/185810bc [2] 美团 LongCat-Next：把图像语音全当成 Token 预测的原生多模态新路径 — https://www.bestblogs.dev/article/2f2a5b5e [4] Mintlify 虚拟文件系统 ChromaFs：优化 AI 文档助手的工程实践 — https://www.bestblogs.dev/status/2039945867772268951 [5] 小米 MiMo 大模型首次推出 Token Plan，单次订阅可满足全模态 Agent 任务需求 — https://www.bestblogs.dev/article/d3837e08 [7] AI 智能体视频通话正成为主流 — https://www.bestblogs.dev/status/2039923815329755196 [12] Pika Labs 为 AI Agent 推出实时视频聊天功能 — https://www.bestblogs.dev/status/2039904088737947889 [1

Gemma 4 与 LongCat-Next 双星闪耀，标志开源多模态模型进入「原生统一建模」新阶段；AI 智能体视频通话能力加速落地，OpenClaw、PikaStream 等框架已支持实时任务执行 [1][7][12]；小米推出 Token Plan 统一计费体系，美团首创 DiNA 架构突破离散建模瓶颈，工程范式正从 RAG 向 ChromaFs 虚拟文件系统等更高效架构演进 [5][2][4]。

🚀 重点动态

Gemma 4 发布：Apache 2.0 许可的原生多模态开源模型 [1]：Google DeepMind 推出支持音频/视频的 Gemma 4 系列，采用高度优化非标准 Transformer 架构
美团 LongCat-Next 实现文本/图像/语音统一 Token 预测 [2]：首创 DiNA 离散原生自回归架构，打破多模态离散建模性能天花板
OpenClaw AI 智能体首次接入 Google Meet 实时视频通话 [1]：完成端到端音视频流处理与交互，验证智能体具身化新路径
Pika Labs 推出 PikaStream 1.0 驱动的 AI Agent 视频聊天技能 [12]：测试版支持实时加入会议并执行视觉理解、任务响应等操作
小米 MiMo 大模型上线 Token Plan 订阅制 [5]：以统一 Credit 计费覆盖全模态 Agent 调用，适配高强度开发场景
Mintlify 发布 ChromaFs 虚拟文件系统替代传统 RAG [4]：显著降低 AI 文档助手延迟与成本，提升检索精度与上下文一致性
港大开源轻量级白盒智能体框架 OpenHarness [13]：兼容 Claude Code 生态，强调可调试性与资源效率
Browser Use Cloud 推出免费层级 [23]：提供无限浏览器时长、免费代理及持久化认证，降低 AI Agent 云端实验门槛

🔗 Sources

[1] [AI 新闻] Gemma 4：最强小型多模态开源模型，在各方面均大幅超越 Gemma 3 — https://www.bestblogs.dev/article/185810bc
[2] 美团 LongCat-Next：把图像语音全当成 Token 预测的原生多模态新路径 — https://www.bestblogs.dev/article/2f2a5b5e
[4] Mintlify 虚拟文件系统 ChromaFs：优化 AI 文档助手的工程实践 — https://www.bestblogs.dev/status/2039945867772268951
[5] 小米 MiMo 大模型首次推出 Token Plan，单次订阅可满足全模态 Agent 任务需求 — https://www.bestblogs.dev/article/d3837e08
[7] AI 智能体视频通话正成为主流 — https://www.bestblogs.dev/status/2039923815329755196
[12] Pika Labs 为 AI Agent 推出实时视频聊天功能 — https://www.bestblogs.dev/status/2039904088737947889
[1

← 返回更新速报