今日应用
今日话题
杀疯了!Meta开源SAM-2:可商用,随意分割视频、图像
重点标签 SAM-2开源、视觉分割模型、AIGC技术、大语言模型、Meta技术更新
文章摘要
Meta公司在AIGC领域取得了显著进展,特别是在视觉分割技术方面。2023年4月5日,Meta首次开源了SAM(Segment Anything Model),一个能够根据交互和自动化方式切割视频中所有元素的模型,被誉为计算机视觉界的“ChatGPT时刻”。SAM在GitHub上获得了超过45000颗星的认可。
最近,Meta在SAM的基础上进行了大量架构、功能和准确率的更新,发布了SAM-2,并支持Apache 2.0规则的商业化使用。SAM-2的开源地址为:https://github.com/facebookresearch/segment-anything-2,同时提供了在线demo:https://sam2.metademolab.com/ 和数据集地址:https://ai.meta.com/datasets/segment-anything-video/。
SAM-2架构特点
– 基础架构:基于transformer模型,引入流式记忆机制。
– 图像编码器:采用流式处理方法,使用预训练的Hiera模型,提供多尺度特征表示。
– 记忆编码器和记忆注意力模块:创新之一,将先前预测和用户交互编码为记忆,影响后续帧的分割结果。
– 提示编码器:接受点击、框选或遮罩等提示,定义对象范围。
– 掩模解码器:遵循第一代SAM架构,使用双向transformer块更新提示和帧嵌入。
SA-V训练数据集
– 特点:包含51,000个真实世界视频和超过600,000个时空遮罩,比其他同类数据集大50倍。
– 开发阶段:分为三个阶段,逐步提高标注效率,最终每帧标注时间从37.8秒下降到4.5秒,提升了约8.4倍。
SAM-2和SA-V数据集的开发,不仅提升了视频分割的效率和准确性,也为AIGC领域的开发者提供了强大的工具和资源,进一步推动了该技术的发展和应用落地。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC开放社区