DeepSeek 发布「Thinking with Visual Primitives」多模态新范式：把坐标嵌入思维链，7056 倍压缩解决 AI 视觉推理指代鸿沟

DeepSeek 联合北大清华发布「Thinking with Visual Primitives」多模态新范式：把坐标嵌入思维链解决视觉推理指代鸿沟，实现 7056 倍视觉压缩，已在 GitHub 开源。

核心结论

2026 年 4 月 30 日，DeepSeek 联合北京大学、清华大学在 GitHub 上正式发布了全新的多模态模型技术范式 「Thinking with Visual Primitives（以视觉原语思考）」。

这项工作直击当前所有多模态大模型的根本软肋：模型能「看见」但不一定能「想清楚」。当面对密集人群数人头、复杂电路图比对等场景时，GPT-5.4、Claude Sonnet 4.6 等模型在推理过程中会因自然语言描述的模糊性而失准。

DeepSeek 提出了一个颠覆性方案——把边界框坐标和点坐标作为推理的基本「思维单元」，像文字一样嵌入链式思维（CoT）中。同时实现了惊人的 7056 倍视觉压缩，让模型用极少的视觉 token 完成精确推理。

关键要点

事件时间：2026-04-30 21:12 CST（GitHub 发布 + 技术报告公开）
参与机构：DeepSeek、北京大学、清华大学
语言主干：DeepSeek V4-Flash（284B 总参数 / 推理时激活 13B 的 MoE 模型）
核心创新：坐标嵌入思维链（Reference Gap 解决方案）+ 7056 倍视觉压缩
可用状态：已在 DeepSeek 网页端和 App 上线，GitHub 开源

背景：AI 视觉推理的「指代鸿沟」

当前多模态大模型存在一个根本性问题：它们用自然语言构建思维链（CoT），但自然语言天生模糊。「左边那个大的」「靠近中央的红色物体」等描述在密集场景里根本无法精确定位。模型的注意力在推理过程中逐渐「漂移」，越说越乱，最终得出错误结论。

DeepSeek 将这一问题命名为 「Reference Gap」（指代鸿沟）。

此前学术界的应对方案主要是让模型「看得更清楚」：对图片进行高分辨率切割、动态分块。但这解决的是「感知鸿沟」（Perception Gap），而非指代问题。DeepSeek 的论文明确指出：感知能力再强，也代替不了精确的「指代能力」。

关键创新：坐标变成「思维单元」

维度	传统做法	DeepSeek Thinking with Visual Primitives
坐标角色	输出结果的一部分（事后标注）	推理过程中的锚点（实时指代）
视觉定位	自然语言模糊描述	精确坐标嵌入思维链
推理漂移	越推理越模糊	逻辑链锚定在物理坐标上
原语类型	仅边界框	边界框（<
视觉压缩	常规 token 化	7056 倍压缩

创新一：坐标即思维单元

模型在推理过程中，每当提到一个视觉对象，就同步输出它的坐标。例如：

「扫描图片寻找熊，找到一只 <|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>，它正在爬树，不在地面上，排除。再往左下看，找到另一只 <|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>，站在岩石边缘，符合条件。」

这就像人类在数东西时会用手指逐一点过去。坐标不再是答案，而是推理过程中消除歧义的锚点。

创新二：7056 倍视觉压缩

模型仅需极少量视觉 token 即可完成推理，相比传统方法实现超大规模压缩，大幅降低计算成本。

架构细节

语言主干：DeepSeek V4-Flash（284B 总参 / 13B 激活）
视觉编码：自研 ViT（视觉 Transformer），支持任意分辨率输入
训练哲学：用极少的视觉 token 教会模型在推理过程中精确指代视觉对象

对 AI 自动化的影响

维度	变化	影响	建议动作
视觉推理准确率	坐标锚定消除推理漂移	AI Agent 可更可靠地处理图表、截图理解	在自动化流程中集成多模态视觉验证
计算成本	7056 倍压缩	视觉推理成本大幅下降	探索在低算力设备上使用视觉推理
开源可用	GitHub 已公开	可自行部署和微调	评估 V4-Flash 底座与现有工作流的兼容性
Agent 能力	精确空间推理成为可能	AI 自动化可处理更多视觉密集型任务	更新内容生产管线中的视觉质检环节

适配建议

更新视觉推理 pipeline：如果现有自动化流程依赖视觉理解（如图表自动解读、截图分析），可评估将 DeepSeek 视觉原语集成到 pipeline 中
降低视觉推理成本：得益于 7056 倍压缩，可以在推理预算内引入更多的视觉验证步骤
关注开源进展：项目已在 GitHub 开源（github.com/deepseek-ai/Thinking-with-Visual-Primitives），技术报告可自由下载

DeepSeek Thinking with Visual Primitives 架构图

参考资料

GitHub 项目：Thinking with Visual Primitives
技术报告：PDF 全文
机器之心报道：36氪转载
DeepSeek V4-Flash：284B 参数 MoE，推理时激活 13B

工具词条

本报道涉及以下工具/平台，平台侧会自动匹配已维护的 tools 库：DeepSeek、Claude、ChatGPT、GPT-5、Claude Code

内链引导

想了解 DeepSeek V4 如何降低 97% 的 API 成本？看：如何用 DeepSeek V4 替代 Anthropic 跑 Claude Code：5 分钟省 90% API 费用
有人用 Claude Code 做到了月入 $9,000：真实案例：Claude Code 48小时创业：一人+29美元月费，3个月做到月入$9,000
AI Agent 工具实操教程：从安装到自动化工作流