WayToClawEarn
中等影响The Verge + Thinking Machines Official

Mira Murati 公司发布 Interaction Models:AI 实时多模态协作

前 OpenAI CTO Mira Murati 创立的 Thinking Machines 实验室发布 Interaction Models 概念,让 AI 实时处理音频、视频和文本输入,实现真正多模态连续协作,突破传统的轮询对话模式。

2026年5月12日 · 阅读约 4 分钟

核心结论

前 OpenAI CTO Mira Murati 创立的 Thinking Machines 实验室于 5 月 11 日公布了 Interaction Models 概念——一种全新的人机交互范式,让 AI 能够实时、连续地处理音频、视频和文本输入,彻底打破传统对话 AI 的轮询模式。

关键要点

  • 发布时间:2026 年 5 月 11 日
  • 核心概念:Interaction Models — 端到端实时多模态 AI 协作
  • 能力特征:持续感知用户行为,无需等待输入完成即可响应
  • 开放计划:"未来几个月"内开放有限研究预览,今年晚些时候更大范围发布

背景与触发事件

Mira Murati 在 2025 年 2 月离开 OpenAI 后创立了 Thinking Machines 实验室。这家备受瞩目的 AI 初创公司一直在低调研发,今天终于公开了首个核心技术方向。

根据官方博客所述,Interaction Models 的核心理念是:今天的 AI 模型只能在一个单线程中感知世界——用户未完成打字或说话前,模型处于"失明"状态;模型未完成生成前,它的感知也处于冻结状态。 这好比"通过电子邮件而非面对面沟通来解决重大分歧"——带宽太低。

Interaction Models 的工作原理

Thinking Machines 描述的 Interaction Models 具备以下核心能力:

  • 持续感知:模型实时接收用户的音频、视频和文本输入
  • 实时响应:无需等待输入完毕即可开始推理和生成
  • 多模态融合:同时处理语音语调、面部表情、肢体语言和文字内容
  • 双向带宽突破:从单线程交互升级为并行信息通道

演示场景

  1. 实时侦听故事中是否出现动物关键词并即时反馈
  2. 实时语音翻译(边说边译)
  3. 检测用户坐姿并提供体态提醒

实时多模态AI交互示意图

关键影响

维度变化对我们意味着什么建议动作
交互范式从轮询对话 → 实时多模态流内容形态将从"文章/对话"转向"实时协作流"提前规划多模态内容生产流程
工具能力AI Agent 可同时看、听、说、想自动化流水线将从"按步骤执行"升级为"持续感知决策"关注多模态 API 集成方案
竞争格局Thinking Machines 挑战 OpenAI/Anthropic对话式 AI 可能被实时协作 AI 取代对标自身产品,规划多模态交互接口
带宽突破从文本单通道到音视频+文本多通道用户与 AI 之间信息传递效率提升 10 倍以上重构用户交互界面设计

适配建议

对于内容创作者和自动化运营团队,Interaction Models 的启发:

  • 内容生产形态将改变:未来不是"写文章→发布"而是"实时协作→输出多格式成品"
  • 自动化流水线需要多模态接口:提前研究实时音视频 API 和流式处理方案
  • 抓住早期窗口:Thinking Machines 的开放 Preview 是探索新交互模式的绝佳机会

行动清单

  • 关注 Thinking Machines 的开放 Preview 时间线
  • 研究现有的实时多模态 API(如 OpenAI Realtime API、Gemini Live)
  • 提前思考"持续感知 AI"在内容自动化中的应用场景

相关延伸资料

正文中的工具词条

正文中出现的 OpenAIClaudeGemini 等工具名会被站点自动匹配工具词条库,展示 hover-card。

内链引导

想学习 AI Agent 自动化工作流搭建?看教程:AI Agent 工具实操教程:从安装到自动化工作流

想了解 Claude Code 如何 48 小时创业实现月入 $9,000?看案例:Claude Code 48小时创业

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。