GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了

AI最新资讯3个月前发布 tree
39 0 0

今日应用


今日话题


GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了
GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了
 

重点标签 字节跳动Depth Anything V2机器学习视觉任务实习成果

文章摘要


字节跳动大模型团队成果入选苹果Core ML模型库

字节跳动大模型团队开发的Depth Anything V2模型已入选苹果公司Core ML模型库,该模型是一种单目深度估计模型,包含25M到1.3B参数的不同大小模型,可应用于多个领域。Depth Anything V2在细节处理和鲁棒性上比上一代更优,速度显著提升。目前,该系列成果在Github上已收获8.7k Star,其中V2版本发布不久已有2.3k Star。值得一提的是,Depth Anything V1与V2两个版本的论文一作均为团队实习生。

Depth Anything V2作为Core ML版本被苹果公司收录,Core ML作为苹果的机器学习框架,旨在将模型集成到iOS、MacOS等设备上高效运行。V2版本采用25M模型,经优化后在iPhone 12 Pro Max上的推理速度达到31.1毫秒。

Depth Anything团队依托Scaling Laws思路,构建了一个简单但功能强大的基础模型,在单一任务上实现更好效果。团队认为,利用Scaling Laws解决一些基础问题更具实际价值。深度估计作为计算机视觉领域的重要任务之一,旨在从图像中推断出场景内物体的距离信息,应用广泛。

Depth Anything从立项到V2版本发布历经一年左右时间,团队在训练模型和优化细节方面面临挑战。通过设计数据引擎、引入预训练编码器等方法,最终使模型在一些指标上超越了参考模型。此外,团队还提出了DA-2K评价基准,以更好评价模型表现。

在优化细节与模型规模方面,团队发现精确的合成数据能在细节方面带来更好表现,并通过合成数据训练教师模型、扩大模型规模等方法,进一步提升了模型的鲁棒性和泛化能力。最终,Depth Anything V2在效率和速度上相比基于稳定扩散技术构建的最新模型有显著优势。

Depth Anything系列成果的论文一作均为团队实习生,在公司实习期间完成了相关研究工作。公司和团队提供了自由的研究氛围和支持,鼓励实习生深入研究更难、更本质的问题。

字节跳动大模型计算机视觉方向正在持续招揽优秀人才,欢迎有志于参与计算机视觉技术前沿探索的人才加入。

[点击阅读原文,投递简历](https://jiqizhixin.com)

本文转载自机器之心,由机器之心编辑部发布。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...