PrismAudio (Alibaba), Open-source Video to Audio

류젠에이아이(LiuGenAI) 류젠에이아이(LiuGenAI)

12
17 ngày trước
#PrismAudio #Alibaba #VideotoAudio #aipaper #wonwizard

비디오를 넣어주면 이에 적합한 소리를 만들어주는 518M Video to Audio 모델. 이전 유명했던 속도 및 품질면에서 MMAudio를 능가하여 벤치마크에서 최고 SOTA 달성. 논문은 25년11월에 나왓지만 26년3월 모델 및 소스 오픈. 오픈소스(Apache 2.0).

🎯 분해된 CoT 계획법을 통해 RL을 V2A 생성에 통합한 최초의 프레임워크
⚡ Fast-GRPO: RL 훈련 오버헤드를 획기적으로 줄여주는 하이브리드 ODE-SDE 샘플링
🏆 VGGSound: CLAP, DeSync, PQ 및 주관적 MOS 점수에서 모든 기준 모델을 능가 — 0.63초의 추론 속도로 MMAudio(1.30초) 및 ThinkSound(1.07초)보다 빠름
🌍 AudioCanvas (도메인 외): CLAP 0.52, MOS-Q 4.12, HunyuanVideo-Foley, MMAudio, ThinkSound를 능가

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation (2511, HKUST Alibaba CUHK)
paper: https://arxiv.org/abs/2511.18833
model: https://huggingface.co/FunAudioLLM/PrismAudio
GitHub: https://github.com/FunAudioLLM/ThinkSound/tree/prismaudio

-------
Subscribe to channel youtube.com/@liugenai
Find on Facebook https://www.facebook.com/won.wizard