4月3日 AI 速报 · 第 172 期
## 🔍 核心洞察
**Gemma 4** 与 **LongCat-Next** 双星闪耀,标志开源多模态模型进入「原生统一建模」新阶段;**AI 智能体视频通话**能力加速落地,OpenClaw、PikaStream 等框架已支持实时任务执行 [1][7][12];小米推出 **Token Plan** 统一计费体系,美团首创 **DiNA 架构**突破离散建模瓶颈,工程范式正从 RAG 向 **ChromaFs 虚拟文件系统**等更高效架构演进 [5][2][4]。
## 🚀 重点动态
- **Gemma 4 发布:Apache 2.0 许可的原生多模态开源模型** [1]:Google DeepMind 推出支持音频/视频的 Gemma 4 系列,采用高度优化非标准 Transformer 架构
- **美团 LongCat-Next 实现文本/图像/语音统一 Token 预测** [2]:首创 DiNA 离散原生自回归架构,打破多模态离散建模性能天花板
- **OpenClaw AI 智能体首次接入 Google Meet 实时视频通话** [1]:完成端到端音视频流处理与交互,验证智能体具身化新路径
- **Pika Labs 推出 PikaStream 1.0 驱动的 AI Agent 视频聊天技能** [12]:测试版支持实时加入会议并执行视觉理解、任务响应等操作
- **小米 MiMo 大模型上线 Token Plan 订阅制** [5]:以统一 Credit 计费覆盖全模态 Agent 调用,适配高强度开发场景
- **Mintlify 发布 ChromaFs 虚拟文件系统替代传统 RAG** [4]:显著降低 AI 文档助手延迟与成本,提升检索精度与上下文一致性
- **港大开源轻量级白盒智能体框架 OpenHarness** [13]:兼容 Claude Code 生态,强调可调试性与资源效率
- **Browser Use Cloud 推出免费层级** [23]:提供无限浏览器时长、免费代理及持久化认证,降低 AI Agent 云端实验门槛
## 🔗 Sources
[1] [AI 新闻] Gemma 4:最强小型多模态开源模型,在各方面均大幅超越 Gemma 3 — https://www.bestblogs.dev/article/185810bc
[2] 美团 LongCat-Next:把图像语音全当成 Token 预测的原生多模态新路径 — https://www.bestblogs.dev/article/2f2a5b5e
[4] Mintlify 虚拟文件系统 ChromaFs:优化 AI 文档助手的工程实践 — https://www.bestblogs.dev/status/2039945867772268951
[5] 小米 MiMo 大模型首次推出 Token Plan,单次订阅可满足全模态 Agent 任务需求 — https://www.bestblogs.dev/article/d3837e08
[7] AI 智能体视频通话正成为主流 — https://www.bestblogs.dev/status/2039923815329755196
[12] Pika Labs 为 AI Agent 推出实时视频聊天功能 — https://www.bestblogs.dev/status/2039904088737947889
[1