DeepSeek 发布「Thinking with Visual Primitives」多模态新范式:把坐标嵌入思维链,7056 倍压缩解决 AI 视觉推理指代鸿沟
DeepSeek 联合北大清华发布「Thinking with Visual Primitives」多模态新范式:把坐标嵌入思维链解决视觉推理指代鸿沟,实现 7056 倍视觉压缩,已在 GitHub 开源。
2026年5月1日 · 阅读约 5 分钟
核心结论
2026 年 4 月 30 日,DeepSeek 联合北京大学、清华大学在 GitHub 上正式发布了全新的多模态模型技术范式 「Thinking with Visual Primitives(以视觉原语思考)」。
这项工作直击当前所有多模态大模型的根本软肋:模型能「看见」但不一定能「想清楚」。当面对密集人群数人头、复杂电路图比对等场景时,GPT-5.4、Claude Sonnet 4.6 等模型在推理过程中会因自然语言描述的模糊性而失准。
DeepSeek 提出了一个颠覆性方案——把边界框坐标和点坐标作为推理的基本「思维单元」,像文字一样嵌入链式思维(CoT)中。同时实现了惊人的 7056 倍视觉压缩,让模型用极少的视觉 token 完成精确推理。
关键要点
- 事件时间:2026-04-30 21:12 CST(GitHub 发布 + 技术报告公开)
- 参与机构:DeepSeek、北京大学、清华大学
- 语言主干:DeepSeek V4-Flash(284B 总参数 / 推理时激活 13B 的 MoE 模型)
- 核心创新:坐标嵌入思维链(Reference Gap 解决方案)+ 7056 倍视觉压缩
- 可用状态:已在 DeepSeek 网页端和 App 上线,GitHub 开源
背景:AI 视觉推理的「指代鸿沟」
当前多模态大模型存在一个根本性问题:它们用自然语言构建思维链(CoT),但自然语言天生模糊。「左边那个大的」「靠近中央的红色物体」等描述在密集场景里根本无法精确定位。模型的注意力在推理过程中逐渐「漂移」,越说越乱,最终得出错误结论。
DeepSeek 将这一问题命名为 「Reference Gap」(指代鸿沟)。
此前学术界的应对方案主要是让模型「看得更清楚」:对图片进行高分辨率切割、动态分块。但这解决的是「感知鸿沟」(Perception Gap),而非指代问题。DeepSeek 的论文明确指出:感知能力再强,也代替不了精确的「指代能力」。
关键创新:坐标变成「思维单元」
| 维度 | 传统做法 | DeepSeek Thinking with Visual Primitives |
|---|---|---|
| 坐标角色 | 输出结果的一部分(事后标注) | 推理过程中的锚点(实时指代) |
| 视觉定位 | 自然语言模糊描述 | 精确坐标嵌入思维链 |
| 推理漂移 | 越推理越模糊 | 逻辑链锚定在物理坐标上 |
| 原语类型 | 仅边界框 | 边界框(< |
| 视觉压缩 | 常规 token 化 | 7056 倍压缩 |
创新一:坐标即思维单元
模型在推理过程中,每当提到一个视觉对象,就同步输出它的坐标。例如:
「扫描图片寻找熊,找到一只 <|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,不在地面上,排除。再往左下看,找到另一只 <|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。」
这就像人类在数东西时会用手指逐一点过去。坐标不再是答案,而是推理过程中消除歧义的锚点。
创新二:7056 倍视觉压缩
模型仅需极少量视觉 token 即可完成推理,相比传统方法实现超大规模压缩,大幅降低计算成本。
架构细节
- 语言主干:DeepSeek V4-Flash(284B 总参 / 13B 激活)
- 视觉编码:自研 ViT(视觉 Transformer),支持任意分辨率输入
- 训练哲学:用极少的视觉 token 教会模型在推理过程中精确指代视觉对象
对 AI 自动化的影响
| 维度 | 变化 | 影响 | 建议动作 |
|---|---|---|---|
| 视觉推理准确率 | 坐标锚定消除推理漂移 | AI Agent 可更可靠地处理图表、截图理解 | 在自动化流程中集成多模态视觉验证 |
| 计算成本 | 7056 倍压缩 | 视觉推理成本大幅下降 | 探索在低算力设备上使用视觉推理 |
| 开源可用 | GitHub 已公开 | 可自行部署和微调 | 评估 V4-Flash 底座与现有工作流的兼容性 |
| Agent 能力 | 精确空间推理成为可能 | AI 自动化可处理更多视觉密集型任务 | 更新内容生产管线中的视觉质检环节 |
适配建议
- 更新视觉推理 pipeline:如果现有自动化流程依赖视觉理解(如图表自动解读、截图分析),可评估将 DeepSeek 视觉原语集成到 pipeline 中
- 降低视觉推理成本:得益于 7056 倍压缩,可以在推理预算内引入更多的视觉验证步骤
- 关注开源进展:项目已在 GitHub 开源(github.com/deepseek-ai/Thinking-with-Visual-Primitives),技术报告可自由下载
参考资料
- GitHub 项目:Thinking with Visual Primitives
- 技术报告:PDF 全文
- 机器之心报道:36氪转载
- DeepSeek V4-Flash:284B 参数 MoE,推理时激活 13B
工具词条
本报道涉及以下工具/平台,平台侧会自动匹配已维护的 tools 库:DeepSeek、Claude、ChatGPT、GPT-5、Claude Code
内链引导
- 想了解 DeepSeek V4 如何降低 97% 的 API 成本?看:如何用 DeepSeek V4 替代 Anthropic 跑 Claude Code:5 分钟省 90% API 费用
- 有人用 Claude Code 做到了月入 $9,000:真实案例:Claude Code 48小时创业:一人+29美元月费,3个月做到月入$9,000
- AI Agent 工具实操教程:从安装到自动化工作流