WayToClawEarn
中等影响Interfaze AI Blog

Interfaze 新模型架构:9项基准超越 Gemini/Claude/GPT,专注高精度任务

Interfaze 发布融合 DNN/CNN 与 Omni-Transformer 的新模型架构,在 OCR、视觉、语音识别和结构化输出等 9 项基准测试中全面超越 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3,定价与 Flash 级别模型持平。

2026年5月12日 · 阅读约 5 分钟

核心结论

Interfaze 本周发布了一种全新的混合模型架构,将专用 DNN/CNN 模型的高精度通用 Transformer 的灵活性合二为一。在涵盖 OCR、视觉理解、语音转录和结构化输出的 9 项基准测试中,Interfaze 以同等定价全面碾压 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3。

关键要点

  • 事件:Interfaze 发布混合架构模型,支持 OCR、视觉理解、语音转文字(STT)、结构化输出和知识检索
  • 性能:在 9 项 head-to-head 基准中领先所有同级模型,包括 OCRBench V2、olmOCR、RefCOCO、VoxPopuli、GPQA Diamond 等
  • 定价:与 Gemini-3-Flash / GPT-5.4-Mini 同一价格区间
  • API 兼容:原生支持 Chat Completions API,可与 OpenAI SDK 直接对接

背景:为什么 DNN/CNN 路线值得重新关注

Transformer 架构掀起了过去两年的 AI 浪潮,几乎所有开发者工具都构建在通用 LLM 之上。但 Interfaze 团队发现一个关键问题:对于确定性任务(OCR、表格提取、GUI 检测等),通用 Transformer 的效率远低于传统 DNN/CNN 架构

CNNs/DNNs 从 LeNet-5 到 ResNet、再到 CRNN-CTC,一直是 OCR 和视觉任务的黄金标准。它们对特定任务的精度可以达到通用 Transformer 的 100 倍,还能输出边界框(bounding boxes)和置信度评分等元数据。

Interfaze 的创新在于:不放弃 Transformer 的灵活性,而是将 DNN/CNN 的专用模块嵌入 Omni-Transformer 中,按需激活特定任务模块。

关键影响对比

维度变化对开发者的意义建议动作
任务精度OCR/视觉任务精度大幅提升复杂文档解析不再需要多模型串联评估 Interfaze 替代 OCR 专用服务
成本与 Flash 级定价持平无需为高精度支付 Pro 级费用对比现有 API 账单,可能降本 50%+
速度STT 209秒音频/秒推理实时语音转录成为可能测试长音频转录场景
结构化输出内置 SOB 基准——带正确上下文的 JSON 输出减少幻觉填充数据的问题更新 schema 校验管道
API 兼容原生 Chat Completions API现有 OpenAI SDK 即开即用只需改 base URL 即可试用

9 项基准测试详解

Interfaze 在 9 项跨模态基准测试中与同级模型全面对比:

基准测试内容Interfaze 排名
OCRBench V2OCR 综合评测领先
olmOCR文档 OCR领先
RefCOCO视觉定位领先
VoxPopuli-Cleaned-AA多语言语音识别(词错误率)第二
SOB Value结构化输出精度(自研基准)领先
Spider-2.0-LiteText-to-SQL领先
GPQA Diamond研究生级知识推理领先
MMMLU多模态理解领先
MMMU-Pro多模态理解(困难版)领先

特别值得关注的是 SOB(Structured Output Benchmark)——Interfaze 自研的评估方法:将正确答案放入模型上下文,测试 JSON 输出的填充准确性。这直击了许多开发者对 LLM 的核心痛点:模型能按 schema 输出 JSON,但填充的值经常出错

核心能力详解

OCR + 视觉定位:一请求完成两项任务

传统做法是 OCR 服务 + 目标检测模型 + 后处理脚本串联。Interfaze 可以在一次请求中同时输出全页文本和图像元素的位置坐标。

语音转文字:比 Deepgram 快 1.5 倍

在 VoxPopuli-Cleaned-AA 测试中,Interfaze 的词错误率(WER)排名第二,速度达到每秒处理 209 秒音频——比 Deepgram Nova-3 快约 1.5 倍,比 Gemini-3-Flash 快 11 倍以上。

确定性任务模块化激活

Interfaze 允许通过系统提示词控制激活的模型模块,不必加载完整权重即可执行单个任务——这意味着更低的延迟和更少的计算开销。

Interfaze benchmark comparison chart

实际使用场景

  1. 复杂 PDF 提取:取代冗余的文档处理管线,单次请求即可完成 OCR + 结构化提取
  2. GUI 自动化测试:利用目标检测能力定位 UI 元素并生成交互脚本
  3. 多模态内容审核:同时检测图片中的文字和视觉内容
  4. 实时语音转录:支持长达 1 小时以上的音频,带时间戳分块输出
  5. 增强型搜索代理:内置网页索引,支持结合实时搜索的结构化回答

工具词条

本文中涉及以下 AI 工具和服务:OpenAIClaudeGeminiDeepgramGPT-5.4-MiniClaude-Sonnet-4.6Grok-4.3

内链引导

参考来源

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。
Interfaze 新模型架构:9项基准超越 Gemini/Claude/GPT,专注高精度任务 · WayToClawEarn