WayToClawEarn
中等影响Blocks & Files

挪威用 2PB 华为全闪存训练主权 LLM:PB 级数据管道的真实挑战

挪威国家图书馆在华为 ID Forum 2026 上披露,正利用 2PB 华为 OceanStor Dorado 全闪存阵列训练挪威语主权级大模型。项目揭示了一个被低估的工程难题——从 60PB 归档系统到 AI 训练管道的 PB 级数据搬运。三个关键启示:非英语国家需要自主 LLM 保卫文化主权、华为存储正在渗透欧洲政府级别基础设施、'数据管道吞吐量而非计算能力才是真正瓶颈。

2026年5月26日 · 阅读约 6 分钟

核心结论

挪威国家图书馆正在利用 2PB 华为 OceanStor Dorado 全闪存阵列,训练一个主权级挪威语大语言模型(LLM)。这个项目揭示了三个关键趋势:任何非英语国家都需要自主大模型来保护语言和文化遗产;PB 级数据从归档系统到训练管道的搬运是"没有人谈论"的真实瓶颈;华为存储正在欧洲主流 IT 基础设施中扮演越来越重要的角色。

关键要点

  • 事件时间:2026 年 5 月 22 日(Huawei ID Forum 2026 巴黎会议披露)
  • 涉及系统:2PB 华为 OceanStor Dorado 全闪存阵列 + Nvidia DGX H200 + 挪威国家级超算 Sigma2 Olivia
  • 数据规模:图书馆拥有 20PB 唯一数字化数据(3-2-1 方式存储,总计约 60PB)
  • 核心挑战:从归档系统到训练管道的跨存储层级数据移动,而非计算能力不足

项目背景:为什么挪威需要自己的 LLM?

挪威国家图书馆 IT 平台负责人 Marius Husnes 在华为 ID Forum 2026 上披露,没有任何商业 LLM 提供商在开发挪威语大模型。他直言:任何拥有自己语言的国家,如果没有用该语言训练的主权级 LLM,都将处于劣势——一个全球训练的英语 LLM 不会了解用当地语言描述的该国历史、新闻和文化。

挪威文化部因此委托国家图书馆构建主权级 AI。原因很简单:图书馆拥有全国最大的数字化挪威语藏书——从 2005 年开始数字化工作,已积累 20PB 独特数据,包括书籍、报纸、网页、音频、视频等。

一个关键优势来自版权方面:图书馆与挪威报纸达成了协议,允许在受版权保护的内容上进行 LLM 训练。Husnes 在演讲中强调:"没有任何私营公司拥有这个条件。"

技术架构:从归档到训练的完整数据管道

整个系统的核心不是计算能力的限制——Husnes 明确表示瓶颈在于数据质量和管道吞吐量,而非计算。

层次系统容量角色
数字归档(长期保存)磁盘 + 磁带混合系统20PB 独有数据(60PB 含副本)低速、高耐久、低成本
AI 预处理环境华为 OceanStor Dorado 全闪存阵列2PB 闪存高速数据清洗、去重、格式标准化
本地计算Nvidia DGX H200 + 384 核 CPU 集群数据管道处理和训练准备
训练超算HPE Cray Supercomputing EX(Sigma2 Olivia)5.3PB Cray ClusterStor E1000实际模型训练(448 GPU + 64,512 CPU 核)

数据管道流程

数据从归档系统出发,经过 6 个阶段的管道处理:

  1. 数据摄取——从 60PB 归档系统读出原始数据
  2. 清洗——去除噪声和低质量文本
  3. 去重——消除冗余内容
  4. 格式标准化——统一为训练兼容格式
  5. 验证——检查数据完整性和质量
  6. 准备——打包发往 Sigma2 超算进行训练

Husnes 特别指出:没有人谈论从 PB 级归档系统向 AI 训练管道搬运数据的实际问题。60PB 归档系统为耐久性和成本而优化(高读取延迟、低频访问),而 AI 训练需要高吞吐、低延迟的并行数据 IO。他的团队不得不自行摸索这两个完全不同存储系统之间的数据流动方案。

数据管道架构图 — 从归档到 AI 训练的完整流程

仍在解决的问题:评估、治理与编排

LLM 训练仍在进行中,Husnes 总结了三个持续学习的领域:

1. 评估难题

没有标准工具来评估一个主权挪威语 LLM。挪威语有两种书面形式(Bokmål 和 Nynorsk)、多种方言和历史变化。团队只能边跑边搭建自己的评估工具。

2. 治理问题

谁可以访问一个主权级 LLM?谁决定它的使用范围?这是制度性和政治性问题,没有简单的技术答案。

3. 三系统编排

让三个独立系统——60PB 归档库 + 2PB 闪存 AI 预处理环境 + Sigma2 国家级超算——协同工作,是一个持续的工程挑战。

对 AI 行业的启示

这个项目提供了几个重要启示:

  • 主权数据价值重估:拥有独特本地数据集的机构(图书馆、档案馆、媒体集团)正在成为 AI 训练的关键资产持有者
  • 存储架构裂痕:归档系统和 AI 系统之间的 IO 性能鸿沟是真实且被低估的工程问题,PB 级数据搬运不是简单的"cp -r"
  • 华为存储的欧洲渗透:OceanStor Dorado 系列正在欧洲政府级项目中扮演核心角色,这在美国对华技术限制背景下具有特殊意义
  • 非英语市场蓝海:几乎所有商业 LLM 聚焦英语,小语种主权 LLM 存在大量未开发需求和政策驱动机会

Husnes 的总结值得深思:"挪威是小国,但我们在解决每个非英语国家都将面临的问题——你如何构建反映你的语言、文化和历史的 AI?AI 需要保管人,而不仅仅是建设者。"

工具词条

正文中出现的相关工具:n8n(数据管道编排)、ChatGPT(通用 LLM 对比)、Hugging Face(模型评估生态)、DeepSeek(本地 LLM 部署可参考路径)。

相关阅读

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。