今日应用
今日话题
给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
重点标签 AI视频生成、SF-LLaVA模型、视频LLM、动作识别、免训练方法
文章摘要
苹果提出新型AI视频生成模型SF-LLaVA
SF-LLaVA模型基于字节团队开发的LLaVA-NeXT架构,采用双流网络启发的SlowFast输入机制。慢速路径通过低帧率提取特征,保留空间细节;快速路径高帧率运行,降低视频分辨率,模拟更大的时间上下文。这种设计使得SF-LLaVA能够同时捕捉视频中的细节和运动。
SF-LLaVA在基准测试中表现优异
实验结果显示,SF-LLaVA在所有基准测试中均以显著优势超越现有免训练方法。在开放式视频问答任务中,SF-LLaVA在MSRVTT-QA、TGIF-QA和ActivityNet-QA等数据集上均优于IG-VLM和LLoVi等模型。在多项选择视频问答任务中,SF-LLaVA在EgoSchema数据集上的表现也优于IG-VLM。此外,在文生视频任务中,SF-LLaVA-34B的整体表现超越了所有免训练的基准。
SF-LLaVA与SFT模型性能相当
与经过视频数据集监督微调(SFT)的视频LLM相比,SF-LLaVA在大多数基准测试中展现了可比的性能。在ActivityNet-QA这一基准上,PLLaVA和LLaVA-NeXT-VideoDPO略胜一筹,但在其他任务中,SF-LLaVA与SFT模型的性能相当,甚至在某些情况下更优。
SF-LLaVA的设计优势
SF-LLaVA的设计优势在于其SlowFast输入机制,通过慢速和快速两种观察速度来理解视频中的细节和运动。这种设计使得SF-LLaVA能够同时捕捉到详细的空间语义和更长的时间上下文,解决了现有视频LLM的痛点。此外,SF-LLaVA无需额外微调,开箱即用,降低了训练成本。
更多关于SF-LLaVA模型的细节和实验结果,请参考原论文。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心