微软同日发布两大模型：MAI-Code-1-Flash 编码提速60%，MAI-Thinking-1 推理对标 Opus

微软在同一天发布两款全新自研模型：MAI-Code-1-Flash 以轻量高效编码能力率先登陆 VS Code 和 GitHub Copilot，MAI-Thinking-1 以 35B 激活参数的稀疏 MoE 架构在推理基准上对标 Claude Opus 4.6。

核心结论

2026 年 6 月 2 日，微软在同一个窗口期发布了两款新模型，分别瞄准编码效率和推理能力两个痛点。

MAI-Code-1-Flash：轻量级编码模型，已在 VS Code GitHub Copilot 逐步上线。在 SWE-Bench Pro 上以 51.2% 超越 Claude Haiku 4.5 的 35.2%（+16 分），同时解决复杂问题的 Token 消耗减少 60%。
MAI-Thinking-1：35B 激活/约 1T 总参数的稀疏 MoE 推理模型。SWE-Bench Pro 媲美 Claude Opus 4.6，AIME 2025 达 97.0%，在盲测中用户偏好超过 Sonnet 4.6。全部自研数据训练，无第三方模型蒸馏。

两件事在同一天发生不是巧合：它们是微软"从编码助手到推理大脑"全栈 AI 战略的左右手。

这个模型的设计哲学很朴素——不在基准上作弊，在生产环境中好用就对了。

生产环境训练：模型直接用 GitHub Copilot 的生产级 harness 进行训练和评估。这意味着它学会的不是应试技巧，而是真实开发中的工具交互——读取代码、编辑文件、运行测试、观察失败、从中间错误恢复。

自适应解决方案长度控制：这是 MAI-Code-1-Flash 最聪明的设计。简单请求快速响应，复杂问题则投入更多推理预算。从基准数据看，效果显著——SWE-Bench Verified 上解决难题的 Token 数减少 60%。

基准表现：

测试	MAI-Code-1-Flash	Claude Haiku 4.5	差距
SWE-Bench Verified	51.2%	35.2%	+16%
SWE-Bench Pro	领先	落后	—
Terminal Bench 2	领先	落后	—
指令遵循 (IF Bench)	+28.9	基准	大幅领先
对抗推理测试	85.8%	落后	全面超越

值得一提的是微软的"对抗推理测试"（186 题/34 类目），专门设计反转经典问题、构建不可能场景来测试模型是否在真正推理而非模式匹配。MAI-Code-1-Flash 拿到 85.8% 的校正准确率。

MAI-Thinking-1 是微软自研推理模型的代表作。以下是让人注意的几个数字：

微软还介绍了其"Hill-Climbing Machine"——一个协同设计的管道，让模型从数据、奖励、评估环境到计算资源每一步都能持续爬升。这和 Anthropic 的系统化训练思路不谋而合，但微软强调的是自研全栈可控。

三大设计原则：

对于开发者来说，MAI-Thinking-1 的 35B 激活参数量意义重大——以更小的推理成本获得接近顶级模型的编码能力，这意味着先进 AI 辅助可以从"偶尔使用"变成"日常标配"。

两者组合起来，微软覆盖了开发者工作流的两个端点：快速编码求助和复杂问题推理。对于使用 GitHub Copilot 的开发者，MAI-Code-1-Flash 会在自动选择器中默默工作，带来更快的响应和更准确的代码补全。

如果你是 GitHub Copilot 用户，不需要做任何设置——MAI-Code-1-Flash 会在自动选择器中逐步上线。如果你感觉最近的 Copilot 变聪明了，可能就是它在背后起作用。

对于想要尝试 MAI-Thinking-1 的开发者，目前需要申请 Microsoft Foundry 的私有预览。它兼容 Chat Completions API，256K 上下文足够处理大多数代码库级别的任务。

微软在这次发布中反复强调"清洁数据"和"自研"——这在当前 AI 行业版权诉讼频发的环境下具有实际意义。如果你在选择模型的依据中包含"商业使用安全性"，微软的自研+合规路线值得留意。

注：在 HN 社区中，MAI 系列模型与微软自家的 MAI 品牌化策略（从 Copilot 品牌转向使用 MAI 命名）也引发了讨论，部分开发者认为这是微软在建立独立的 AI 产品 identity。