// watch / feed
← feed event
·· 2025-12-11 Meta [paper]

VL-JEPA: Joint Embedding Predictive Architecture for Vision-Language

VL-JEPA 論文を公開、視覚と言語の joint embedding 予測

VL-JEPA 論文が arXiv に投稿された。連続埋め込み空間上でターゲット文を予測する視覚・言語モデルの枠組みと記述されている。

source

↗ arxiv.org/abs/2512.10942 source_type: arxiv

related events