更多文章

AI 与开发者相关深度内容

MiniMax M2.7 选型指南:比 Claude Opus 4.6 便宜 40 倍,SWE-Pro 56.22%,什么时候用它(2026)

2026 年 4 月 13 日,MiniMax 发布 M2.7。最值得关注的不是它的基准成绩——尽管 SWE-Pro 56.22% 确实超过了同期 Claude Opus 4.6 的约 50%——而是它在这个性能水平上的定价:输出侧 $1.10/百万 tokens,比 Claude Opus 4.6 便宜 40-75 倍

"便宜 40 倍"在字面上是个惊人的数字,但这种数字的实际意义通常高度依赖使用场景。本文的目的是把这个数字转化成一套可操作的选型决策框架:什么场景下 M2.7 是最优选择,什么场景下它的局限性会让你付出更高的隐性成本,以及如何用一次 48 小时的快速测试验证它是否适合你的工作流。


先把数字摆清楚

在进入场景分析之前,先建立一个基准认知:

模型 SWE-Pro(软工基准) Terminal Bench 2(DevOps) Tool Calling 准确率 API 成本(输出侧) 上下文窗口
MiniMax M2.7 56.22% 82.4% 75.8% $1.10/M tokens 204,800
Claude Opus 4.6 ~50% 74.1% ~72% $15+/M tokens 200K
GPT-5 ~54% 79.2% ~74% $15+/M tokens 128K
Qwen3.7-Max 72.3% ~$0.48/M tokens 1M

几点说明: 1. SWE-Pro 的评测方式是在 GitHub 真实 Issue 上生成 PR 并通过测试,比 SWE-bench Verified 更接近生产环境 2. Terminal Bench 2 模拟真实 DevOps 场景(部署、日志分析、脚本调试),是评估 Agent 实用性的高信度基准 3. Qwen3.7-Max 在 SWE-bench 上的 72.3% 高于 M2.7,但在 Terminal Bench 2 等特定 DevOps 场景上 M2.7 有自己的优势


OpenClaw:M2.7 "自进化"的工程细节

M2.7 背后最有意思的技术故事是它的训练方式:OpenClaw——MiniMax 的内部 Agent Harness

在模型训练中,通常的做法是积累大量(问题,回答)数据对,让模型学习"给定问题应该怎么回答"。这种方式有一个根本性的局限:训练数据是静态的,但真实 Agent 任务是动态的——执行工具调用、处理意外输出、在失败后调整策略。

OpenClaw 的做法是:让 M2.7 自己成为 Agent,在真实(或高仿真)环境中完成任务——代码执行、API 调用、文件操作,任务成功才算一次正向反馈,失败就回溯重试。在发布前,M2.7 通过 OpenClaw 完成了超过 100 个自主优化轮次

这个机制产生的直接效果是:M2.7 对工具调用失败的处理比大多数同级别模型更稳健。当 API 返回非预期格式、工具超时或部分数据丢失时,它更倾向于尝试替代路径,而不是直接报错或生成幻觉数据。

一个可以用来快速验证的测试:给它一个会随机返回错误的 mock API 工具,看它在错误率 30% 的情况下能否自主恢复并完成任务。这个测试在 Claude Opus 和 GPT-5 上都容易失败或产生不稳定结果——M2.7 的训练方式使其在这类场景上具有结构性优势。


M2.7 真正擅长的场景

场景一:软件工程任务(代码生成 + PR 修复)

SWE-Pro 56.22% 的含义是:给定一个来自 GitHub 真实项目的 Issue 描述,M2.7 能够在超过一半的情况下生成一个通过所有测试的 PR。这比 Claude Opus 4.6 的约 50% 高出一个显著的差距。

实际用途: - 给定 Bug 报告和代码库上下文,生成修复 PR - 根据 Issue 描述添加新功能,保持与现有代码风格一致 - 代码审查建议(不只是格式,而是逻辑问题)

注意点:SWE-Pro 测试的是有完整代码库上下文的任务。如果你的使用场景是"从零开始写代码"而不是"在已有项目中修改代码",M2.7 的优势会有所减弱。

场景二:DevOps 自动化(Terminal Bench 2: 82.4%)

Terminal Bench 2 测试的场景包括: - 分析系统日志,定位服务异常原因 - 编写 Bash/Python 脚本自动化部署流程 - 根据错误信息修改 Dockerfile 或 Kubernetes 配置 - 调试 CI/CD pipeline 失败

82.4% 的通过率意味着 M2.7 在这类任务上能替代大约 8 成的 DevOps 人工操作。Claude Opus 4.6 在同测试上约为 74.1%——在实际工作中,这个差距可能意味着每 10 个任务里多完成 1 个不需要人工干预。

场景三:高频 Agent 工作流(成本优势最明显)

如果你的系统需要频繁、批量地调用 LLM 完成任务(自动化数据提取、批量代码注释生成、规模化内容处理),M2.7 的成本优势最为突出。

以每月处理 10 亿 tokens 输出为例: - M2.7:$1,100 - Claude Opus 4.6:$15,000+(至少贵 13 倍) - GPT-5:$15,000+(类似)

在这个规模下,即使 M2.7 的准确率比 Opus 低 5%,你用节省下来的 $13,900 能雇一个工程师做人工校验,而且还有剩余。


M2.7 的局限性:这些场景不要强用

局限 1:纯文本创意写作

M2.7 的架构是纯文本,针对语言和工具推理优化。在需要文风细腻、叙事一致性强的创意写作上,Claude Opus 4.6 的优势来自多年的内容质量 RLHF 积累,M2.7 目前追不上。

局限 2:多模态输入

M2.7 是纯文本模型,不处理图像、视频或音频输入。如果你的 Agent 任务需要理解截图、处理图表或分析视频内容,需要用 MiniMax M3 或切换到多模态模型。

限制 3:合规敏感场景(尤其美国市场)

如果你的产品面向对 AI 供应商有明确要求的行业(医疗、金融、政府),MiniMax 作为中国公司的合规状态需要单独评估。Anthropic 和 OpenAI 在这类场景下有更完整的合规文档和审计记录。

局限 4:长上下文(超过 200K tokens)

204,800 tokens 的上下文窗口已经覆盖大多数场景,但如果你需要处理超大型代码库(100 万行以上)或超长文档,M3 的 1M 上下文窗口更合适。


与 Qwen3.7-Max 的选择逻辑

同为中国模型中性价比最高的选项,M2.7 和 Qwen3.7-Max 的适用场景有差异:

维度 选 MiniMax M2.7 选 Qwen3.7-Max
代码修复(已有项目) ✅ SWE-Pro 56.22% 更高 中性
DevOps 自动化 ✅ Terminal Bench 82.4% 无对比数据
多步骤工具调用(鲁棒性) ✅ OpenClaw 训练机制 动态工具调用强
长链推理/数学 中性 ✅ Heavy Mode + GPQA 92.4
多模态输入 ❌ 不支持 ✅ Qwen3.7-Plus 支持(今日发布)
超长上下文(1M+) ❌(20万上限) ✅ 1M
API 成本 $1.10/M(输出) ~$0.48/M
国际访问稳定性 中等 依赖阿里云 DashScope

决策建议:如果你的工作流是代码修复 + DevOps 自动化,M2.7 是当前性价比最高的选择。如果你的工作流是推理密集型(数学、复杂逻辑)或需要 1M 上下文,Qwen3.7-Max 更合适。大多数团队在这两者之间做任务分流,而不是只选一个。


48 小时快速验证方案

以下是一个专为 M2.7 评估设计的快速测试方案,可以在两个工作日内给出决策数据:

第一阶段(第 1-12 小时):基线建立

选取你的生产工作流中最频繁的 3 类任务,各取 20 个已知正确答案的样本,用当前模型(假设是 Claude Opus 4.6 或 GPT-5)跑一次,记录: - 通过率(多少个得到了可用的结果) - 平均延迟 - 每次调用的 token 消耗

第二阶段(第 12-36 小时):M2.7 对比测试

用完全相同的样本和提示词在 M2.7 上运行,记录同样的三个指标。特别关注: - 工具调用失败时 M2.7 的恢复行为(这是关键差异点) - 代码生成任务中"首次可运行率"(不需要修改就能直接执行的比例)

第三阶段(第 36-48 小时):成本建模

基于你的月均 token 消耗量,计算: - 当前月费用(基准模型) - M2.7 月费用(如果全量迁移) - 如果 M2.7 通过率低 X%,需要多少人工校验成本来弥补

这个三段式方案的目的是给你一个有数据支撑的决策,而不是靠直觉或道听途说。


API 接入快速参考

MiniMax M2.7 的 API 接入信息(截至 2026-06-02):

国内:MiniMax 平台(api.minimax.chat),文档完整,支持 OpenAI 兼容格式

国际:部分推理聚合平台(如 together.ai、deepinfra 等)提供 MiniMax 模型访问,但版本更新可能有滞后

定价(输入/输出):$0.20 / $1.10 per M tokens

Prompt caching:支持自动 prompt caching,重复调用相同前缀时可节省 40-60% 成本——这对 Agent 工作流尤其有价值,因为系统提示和工具定义通常是固定的大块内容

速率限制:具体限制需查阅 MiniMax 官方文档,商业客户可协商更高配额


一个不建议你做的事

不建议你在没有用例导向测试的情况下,仅凭 SWE-Pro 或 Terminal Bench 的数字做迁移决定。

这不是针对 M2.7 的特别提醒——对任何模型都成立。基准测试测的是模型在标准评测集上的表现,而不是你的具体工作流。你的任务可能恰好是 M2.7 表现最差的那 43.78%(SWE-Pro 的未通过部分),也可能恰好是它表现最好的那类。

唯一可靠的验证是:用你自己的数据,测你自己的任务,然后做决定。上面的 48 小时方案不是建议,是必要步骤。


总结

MiniMax M2.7 的核心价值主张是:在代码修复和 DevOps 自动化这两个具体场景上,性能超过 Claude Opus 4.6,成本低 40-75 倍

这个价值主张成立的前提是你的工作流确实集中在这两类任务上,且你能接受它在多模态、超长上下文和合规文档方面的局限性。

对于已经在用 Claude Opus 或 GPT-5 的团队,M2.7 最值得尝试的方式是"分流"而不是"替代"——把标准化程度高的 Agent 子任务(代码修复、脚本生成、日志分析)迁移到 M2.7,保留 Claude/GPT-5 处理需要更高创意质量或合规要求的任务。

从成本结构看,这种分流策略在月 Token 消耗超过 1 亿的情况下会产生显著的费用节省,同时不会承担把所有任务押注在一个新供应商上的风险。

延伸阅读

RadarAI 聚合 AI 优质更新与开源信息,帮助开发者高效追踪 AI 行业动态,快速判断哪些方向具备了落地条件。

← 返回更多文章