Mira Murati 公司发布 Interaction Models：AI 实时多模态协作

前 OpenAI CTO Mira Murati 创立的 Thinking Machines 实验室发布 Interaction Models 概念，让 AI 实时处理音频、视频和文本输入，实现真正多模态连续协作，突破传统的轮询对话模式。

核心结论

前 OpenAI CTO Mira Murati 创立的 Thinking Machines 实验室于 5 月 11 日公布了 Interaction Models 概念——一种全新的人机交互范式，让 AI 能够实时、连续地处理音频、视频和文本输入，彻底打破传统对话 AI 的轮询模式。

关键要点

发布时间：2026 年 5 月 11 日
核心概念：Interaction Models — 端到端实时多模态 AI 协作
能力特征：持续感知用户行为，无需等待输入完成即可响应
开放计划："未来几个月"内开放有限研究预览，今年晚些时候更大范围发布

背景与触发事件

Mira Murati 在 2025 年 2 月离开 OpenAI 后创立了 Thinking Machines 实验室。这家备受瞩目的 AI 初创公司一直在低调研发，今天终于公开了首个核心技术方向。

根据官方博客所述，Interaction Models 的核心理念是：今天的 AI 模型只能在一个单线程中感知世界——用户未完成打字或说话前，模型处于"失明"状态；模型未完成生成前，它的感知也处于冻结状态。 这好比"通过电子邮件而非面对面沟通来解决重大分歧"——带宽太低。

Interaction Models 的工作原理

Thinking Machines 描述的 Interaction Models 具备以下核心能力：

持续感知：模型实时接收用户的音频、视频和文本输入
实时响应：无需等待输入完毕即可开始推理和生成
多模态融合：同时处理语音语调、面部表情、肢体语言和文字内容
双向带宽突破：从单线程交互升级为并行信息通道

演示场景：

实时侦听故事中是否出现动物关键词并即时反馈
实时语音翻译（边说边译）
检测用户坐姿并提供体态提醒

实时多模态AI交互示意图

关键影响

维度	变化	对我们意味着什么	建议动作
交互范式	从轮询对话 → 实时多模态流	内容形态将从"文章/对话"转向"实时协作流"	提前规划多模态内容生产流程
工具能力	AI Agent 可同时看、听、说、想	自动化流水线将从"按步骤执行"升级为"持续感知决策"	关注多模态 API 集成方案
竞争格局	Thinking Machines 挑战 OpenAI/Anthropic	对话式 AI 可能被实时协作 AI 取代	对标自身产品，规划多模态交互接口
带宽突破	从文本单通道到音视频+文本多通道	用户与 AI 之间信息传递效率提升 10 倍以上	重构用户交互界面设计

适配建议

对于内容创作者和自动化运营团队，Interaction Models 的启发：

内容生产形态将改变：未来不是"写文章→发布"而是"实时协作→输出多格式成品"
自动化流水线需要多模态接口：提前研究实时音视频 API 和流式处理方案
抓住早期窗口：Thinking Machines 的开放 Preview 是探索新交互模式的绝佳机会

行动清单

关注 Thinking Machines 的开放 Preview 时间线
研究现有的实时多模态 API（如 OpenAI Realtime API、Gemini Live）
提前思考"持续感知 AI"在内容自动化中的应用场景

正文中的工具词条

正文中出现的 OpenAI、Claude、Gemini 等工具名会被站点自动匹配工具词条库，展示 hover-card。

内链引导

想学习 AI Agent 自动化工作流搭建？看教程：AI Agent 工具实操教程：从安装到自动化工作流

想了解 Claude Code 如何 48 小时创业实现月入 $9,000？看案例：Claude Code 48小时创业