Introducing SAM Audio: the first unified multimodal model for audio separation

SAM Audio を公開、音声分離のための統合マルチモーダルモデル

音声分離を行うマルチモーダル統一モデル SAM Audio が公開された。テキスト・視覚・時間区間の 3 種のプロンプトから対象音を抽出できると記述されている。