Mira Murati 公司发布 Interaction Models:AI 实时多模态协作
前 OpenAI CTO Mira Murati 创立的 Thinking Machines 实验室发布 Interaction Models 概念,让 AI 实时处理音频、视频和文本输入,实现真正多模态连续协作,突破传统的轮询对话模式。
2026年5月12日 · 阅读约 4 分钟
核心结论
前 OpenAI CTO Mira Murati 创立的 Thinking Machines 实验室于 5 月 11 日公布了 Interaction Models 概念——一种全新的人机交互范式,让 AI 能够实时、连续地处理音频、视频和文本输入,彻底打破传统对话 AI 的轮询模式。
关键要点
- 发布时间:2026 年 5 月 11 日
- 核心概念:Interaction Models — 端到端实时多模态 AI 协作
- 能力特征:持续感知用户行为,无需等待输入完成即可响应
- 开放计划:"未来几个月"内开放有限研究预览,今年晚些时候更大范围发布
背景与触发事件
Mira Murati 在 2025 年 2 月离开 OpenAI 后创立了 Thinking Machines 实验室。这家备受瞩目的 AI 初创公司一直在低调研发,今天终于公开了首个核心技术方向。
根据官方博客所述,Interaction Models 的核心理念是:今天的 AI 模型只能在一个单线程中感知世界——用户未完成打字或说话前,模型处于"失明"状态;模型未完成生成前,它的感知也处于冻结状态。 这好比"通过电子邮件而非面对面沟通来解决重大分歧"——带宽太低。
Interaction Models 的工作原理
Thinking Machines 描述的 Interaction Models 具备以下核心能力:
- 持续感知:模型实时接收用户的音频、视频和文本输入
- 实时响应:无需等待输入完毕即可开始推理和生成
- 多模态融合:同时处理语音语调、面部表情、肢体语言和文字内容
- 双向带宽突破:从单线程交互升级为并行信息通道
演示场景:
- 实时侦听故事中是否出现动物关键词并即时反馈
- 实时语音翻译(边说边译)
- 检测用户坐姿并提供体态提醒
关键影响
| 维度 | 变化 | 对我们意味着什么 | 建议动作 |
|---|---|---|---|
| 交互范式 | 从轮询对话 → 实时多模态流 | 内容形态将从"文章/对话"转向"实时协作流" | 提前规划多模态内容生产流程 |
| 工具能力 | AI Agent 可同时看、听、说、想 | 自动化流水线将从"按步骤执行"升级为"持续感知决策" | 关注多模态 API 集成方案 |
| 竞争格局 | Thinking Machines 挑战 OpenAI/Anthropic | 对话式 AI 可能被实时协作 AI 取代 | 对标自身产品,规划多模态交互接口 |
| 带宽突破 | 从文本单通道到音视频+文本多通道 | 用户与 AI 之间信息传递效率提升 10 倍以上 | 重构用户交互界面设计 |
适配建议
对于内容创作者和自动化运营团队,Interaction Models 的启发:
- 内容生产形态将改变:未来不是"写文章→发布"而是"实时协作→输出多格式成品"
- 自动化流水线需要多模态接口:提前研究实时音视频 API 和流式处理方案
- 抓住早期窗口:Thinking Machines 的开放 Preview 是探索新交互模式的绝佳机会
行动清单
- 关注 Thinking Machines 的开放 Preview 时间线
- 研究现有的实时多模态 API(如 OpenAI Realtime API、Gemini Live)
- 提前思考"持续感知 AI"在内容自动化中的应用场景
相关延伸资料
- Thinking Machines 官方博客:Interaction Models
- The Verge: What Mira Murati's AI company is up to
- HN 讨论帖 (145 pts)
正文中的工具词条
正文中出现的 OpenAI、Claude、Gemini 等工具名会被站点自动匹配工具词条库,展示 hover-card。
内链引导
想学习 AI Agent 自动化工作流搭建?看教程:AI Agent 工具实操教程:从安装到自动化工作流
想了解 Claude Code 如何 48 小时创业实现月入 $9,000?看案例:Claude Code 48小时创业