WayToClawEarn
高影响36氪/机器之心

DeepSeek 发布「Thinking with Visual Primitives」多模态新范式:把坐标嵌入思维链,7056 倍压缩解决 AI 视觉推理指代鸿沟

DeepSeek 联合北大清华发布「Thinking with Visual Primitives」多模态新范式:把坐标嵌入思维链解决视觉推理指代鸿沟,实现 7056 倍视觉压缩,已在 GitHub 开源。

2026年5月1日 · 阅读约 5 分钟

核心结论

2026 年 4 月 30 日,DeepSeek 联合北京大学、清华大学在 GitHub 上正式发布了全新的多模态模型技术范式 「Thinking with Visual Primitives(以视觉原语思考)」

这项工作直击当前所有多模态大模型的根本软肋:模型能「看见」但不一定能「想清楚」。当面对密集人群数人头、复杂电路图比对等场景时,GPT-5.4、Claude Sonnet 4.6 等模型在推理过程中会因自然语言描述的模糊性而失准。

DeepSeek 提出了一个颠覆性方案——把边界框坐标和点坐标作为推理的基本「思维单元」,像文字一样嵌入链式思维(CoT)中。同时实现了惊人的 7056 倍视觉压缩,让模型用极少的视觉 token 完成精确推理。

关键要点

  • 事件时间:2026-04-30 21:12 CST(GitHub 发布 + 技术报告公开)
  • 参与机构:DeepSeek、北京大学、清华大学
  • 语言主干:DeepSeek V4-Flash(284B 总参数 / 推理时激活 13B 的 MoE 模型)
  • 核心创新:坐标嵌入思维链(Reference Gap 解决方案)+ 7056 倍视觉压缩
  • 可用状态:已在 DeepSeek 网页端和 App 上线,GitHub 开源

背景:AI 视觉推理的「指代鸿沟」

当前多模态大模型存在一个根本性问题:它们用自然语言构建思维链(CoT),但自然语言天生模糊。「左边那个大的」「靠近中央的红色物体」等描述在密集场景里根本无法精确定位。模型的注意力在推理过程中逐渐「漂移」,越说越乱,最终得出错误结论。

DeepSeek 将这一问题命名为 「Reference Gap」(指代鸿沟)

此前学术界的应对方案主要是让模型「看得更清楚」:对图片进行高分辨率切割、动态分块。但这解决的是「感知鸿沟」(Perception Gap),而非指代问题。DeepSeek 的论文明确指出:感知能力再强,也代替不了精确的「指代能力」

关键创新:坐标变成「思维单元」

维度传统做法DeepSeek Thinking with Visual Primitives
坐标角色输出结果的一部分(事后标注)推理过程中的锚点(实时指代)
视觉定位自然语言模糊描述精确坐标嵌入思维链
推理漂移越推理越模糊逻辑链锚定在物理坐标上
原语类型仅边界框边界框(<
视觉压缩常规 token 化7056 倍压缩

创新一:坐标即思维单元

模型在推理过程中,每当提到一个视觉对象,就同步输出它的坐标。例如:

「扫描图片寻找熊,找到一只 <|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,不在地面上,排除。再往左下看,找到另一只 <|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。」

这就像人类在数东西时会用手指逐一点过去。坐标不再是答案,而是推理过程中消除歧义的锚点。

创新二:7056 倍视觉压缩

模型仅需极少量视觉 token 即可完成推理,相比传统方法实现超大规模压缩,大幅降低计算成本。

架构细节

  • 语言主干:DeepSeek V4-Flash(284B 总参 / 13B 激活)
  • 视觉编码:自研 ViT(视觉 Transformer),支持任意分辨率输入
  • 训练哲学:用极少的视觉 token 教会模型在推理过程中精确指代视觉对象

对 AI 自动化的影响

维度变化影响建议动作
视觉推理准确率坐标锚定消除推理漂移AI Agent 可更可靠地处理图表、截图理解在自动化流程中集成多模态视觉验证
计算成本7056 倍压缩视觉推理成本大幅下降探索在低算力设备上使用视觉推理
开源可用GitHub 已公开可自行部署和微调评估 V4-Flash 底座与现有工作流的兼容性
Agent 能力精确空间推理成为可能AI 自动化可处理更多视觉密集型任务更新内容生产管线中的视觉质检环节

适配建议

  1. 更新视觉推理 pipeline:如果现有自动化流程依赖视觉理解(如图表自动解读、截图分析),可评估将 DeepSeek 视觉原语集成到 pipeline 中
  2. 降低视觉推理成本:得益于 7056 倍压缩,可以在推理预算内引入更多的视觉验证步骤
  3. 关注开源进展:项目已在 GitHub 开源(github.com/deepseek-ai/Thinking-with-Visual-Primitives),技术报告可自由下载

DeepSeek Thinking with Visual Primitives 架构图

参考资料

工具词条

本报道涉及以下工具/平台,平台侧会自动匹配已维护的 tools 库:DeepSeekClaudeChatGPTGPT-5Claude Code

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。