// watch / feed
← feed event
· 2026-05-05 DeepSeek [paper]

DeepSeek pulls multimodal paper after brief release, reveals new visual reasoning approach

DeepSeek、視覚プリミティブによるマルチモーダル推論論文を一時公開後に取り下げ

DeepSeek が「Thinking with Visual Primitives」と題するマルチモーダル推論論文を一時公開し、その後取り下げた。論文は bounding box と座標点を chain-of-thought に直接埋め込み、自然言語では曖昧になりがちな密な物体参照を anchor として保つ手法を提案する。756×756 画像を 81 KV cache に圧縮する 7,056 倍の視覚圧縮、4 万件超のサンプルでの学習設計を含む。Pixmo-Count で 89.2%(GPT-5.4 は 76.6%)、Maze Navigation 66.9%(同 50.6%)、Path Tracing 56.7%(同 46.5%)と特定 visual QA で上回る数値が示されている。論文公開と取り下げの理由は明示されていない。

source

↗ eu.36kr.com/en/p/3789208597372165 source_type: other

related events