// watch / feed
← feed event
·· 2026-04-23 Google [paper]

Google DeepMind introduces Decoupled DiLoCo for resilient distributed pre-training

Google DeepMind、データセンター跨ぎの障害耐性学習手法 Decoupled DiLoCo を公開

Google DeepMind が大規模モデルの分散学習向けに Decoupled DiLoCo を発表した。複数データセンターをまたいだ非同期学習で、ハードウェア障害率が高い条件下でも 88% の goodput を達成すると記述されている。従来の DiLoCo に対し勾配計算と通信を分離した構成で、TPU 8 世代の数千チップ規模のジョブで一部ノード障害が頻発しても学習が継続する。論文は同日 arXiv に投稿された (arXiv:2604.21428)。Cloud Next 2026 で発表された TPU 8t superpod (9,600 チップ) 規模の活用前提と整合する研究。

source

↗ deepmind.google/blog/decoupled-diloco/ source_type: blog

related events