Interfaze 新模型架构:9项基准超越 Gemini/Claude/GPT,专注高精度任务
Interfaze 发布融合 DNN/CNN 与 Omni-Transformer 的新模型架构,在 OCR、视觉、语音识别和结构化输出等 9 项基准测试中全面超越 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3,定价与 Flash 级别模型持平。
2026年5月12日 · 阅读约 5 分钟
核心结论
Interfaze 本周发布了一种全新的混合模型架构,将专用 DNN/CNN 模型的高精度与通用 Transformer 的灵活性合二为一。在涵盖 OCR、视觉理解、语音转录和结构化输出的 9 项基准测试中,Interfaze 以同等定价全面碾压 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3。
关键要点
- 事件:Interfaze 发布混合架构模型,支持 OCR、视觉理解、语音转文字(STT)、结构化输出和知识检索
- 性能:在 9 项 head-to-head 基准中领先所有同级模型,包括 OCRBench V2、olmOCR、RefCOCO、VoxPopuli、GPQA Diamond 等
- 定价:与 Gemini-3-Flash / GPT-5.4-Mini 同一价格区间
- API 兼容:原生支持 Chat Completions API,可与 OpenAI SDK 直接对接
背景:为什么 DNN/CNN 路线值得重新关注
Transformer 架构掀起了过去两年的 AI 浪潮,几乎所有开发者工具都构建在通用 LLM 之上。但 Interfaze 团队发现一个关键问题:对于确定性任务(OCR、表格提取、GUI 检测等),通用 Transformer 的效率远低于传统 DNN/CNN 架构。
CNNs/DNNs 从 LeNet-5 到 ResNet、再到 CRNN-CTC,一直是 OCR 和视觉任务的黄金标准。它们对特定任务的精度可以达到通用 Transformer 的 100 倍,还能输出边界框(bounding boxes)和置信度评分等元数据。
Interfaze 的创新在于:不放弃 Transformer 的灵活性,而是将 DNN/CNN 的专用模块嵌入 Omni-Transformer 中,按需激活特定任务模块。
关键影响对比
| 维度 | 变化 | 对开发者的意义 | 建议动作 |
|---|---|---|---|
| 任务精度 | OCR/视觉任务精度大幅提升 | 复杂文档解析不再需要多模型串联 | 评估 Interfaze 替代 OCR 专用服务 |
| 成本 | 与 Flash 级定价持平 | 无需为高精度支付 Pro 级费用 | 对比现有 API 账单,可能降本 50%+ |
| 速度 | STT 209秒音频/秒推理 | 实时语音转录成为可能 | 测试长音频转录场景 |
| 结构化输出 | 内置 SOB 基准——带正确上下文的 JSON 输出 | 减少幻觉填充数据的问题 | 更新 schema 校验管道 |
| API 兼容 | 原生 Chat Completions API | 现有 OpenAI SDK 即开即用 | 只需改 base URL 即可试用 |
9 项基准测试详解
Interfaze 在 9 项跨模态基准测试中与同级模型全面对比:
| 基准 | 测试内容 | Interfaze 排名 |
|---|---|---|
| OCRBench V2 | OCR 综合评测 | 领先 |
| olmOCR | 文档 OCR | 领先 |
| RefCOCO | 视觉定位 | 领先 |
| VoxPopuli-Cleaned-AA | 多语言语音识别(词错误率) | 第二 |
| SOB Value | 结构化输出精度(自研基准) | 领先 |
| Spider-2.0-Lite | Text-to-SQL | 领先 |
| GPQA Diamond | 研究生级知识推理 | 领先 |
| MMMLU | 多模态理解 | 领先 |
| MMMU-Pro | 多模态理解(困难版) | 领先 |
特别值得关注的是 SOB(Structured Output Benchmark)——Interfaze 自研的评估方法:将正确答案放入模型上下文,测试 JSON 输出的填充准确性。这直击了许多开发者对 LLM 的核心痛点:模型能按 schema 输出 JSON,但填充的值经常出错。
核心能力详解
OCR + 视觉定位:一请求完成两项任务
传统做法是 OCR 服务 + 目标检测模型 + 后处理脚本串联。Interfaze 可以在一次请求中同时输出全页文本和图像元素的位置坐标。
语音转文字:比 Deepgram 快 1.5 倍
在 VoxPopuli-Cleaned-AA 测试中,Interfaze 的词错误率(WER)排名第二,速度达到每秒处理 209 秒音频——比 Deepgram Nova-3 快约 1.5 倍,比 Gemini-3-Flash 快 11 倍以上。
确定性任务模块化激活
Interfaze 允许通过系统提示词控制激活的模型模块,不必加载完整权重即可执行单个任务——这意味着更低的延迟和更少的计算开销。
实际使用场景
- 复杂 PDF 提取:取代冗余的文档处理管线,单次请求即可完成 OCR + 结构化提取
- GUI 自动化测试:利用目标检测能力定位 UI 元素并生成交互脚本
- 多模态内容审核:同时检测图片中的文字和视觉内容
- 实时语音转录:支持长达 1 小时以上的音频,带时间戳分块输出
- 增强型搜索代理:内置网页索引,支持结合实时搜索的结构化回答
工具词条
本文中涉及以下 AI 工具和服务:OpenAI、Claude、Gemini、Deepgram、GPT-5.4-Mini、Claude-Sonnet-4.6、Grok-4.3。
内链引导
- 想自己跑本地模型省钱?看教程:如何用 LM Studio 在 M4 Mac 上运行本地 AI 模型
- 如果你用 Claude Code + AI SaaS 赚到钱了,看这个:他用 Claude Code + AWS 搭建 AI SaaS,3个月月入 $12,000