今日应用
今日话题
小模型站起来了,浏览器里跑出SOTA,抱抱脸:快逃,合成数据不是未来
重点标签 Hugging Face、合成数据、数据过滤、模型训练、小模型
文章摘要
摘要:
抱抱脸公司(Hugging Face)开发了一种新的SOTA小模型,这些模型在不同的数据规模级别上取得了显著的胜利。该公司的首席科学家Thomas Wolf分享了开发这些小模型的两个关键秘诀:首先是对数据进行严格的过滤,其次是在这些经过过滤的数据集上进行深入的训练。Wolf还指出,尽管合成数据在某些特定领域可能很有用,但真实数据的潜力还远远没有被完全挖掘出来。
该公司已经发布了一个360M模型版本的Demo,用户可以在浏览器中直接体验,并且可以在本地GPU上运行,包括模型权重和网页前端UI,整个包只有400MB大小。抱抱脸团队通过使用一个分类器,这个分类器基于Llama3-70B-Struct生成的标注,只保留了最具教育意义的网页数据。这种经过严格过滤的网络数据显著提升了模型的性能,使其在大多数基准测试中超越了其他类似大小的模型。
然而,抱抱脸团队也发现,尽管模型性能达到了前所未有的高度,但合成数据在质量上仍然无法与真实数据相媲美。此外,团队还发现即使是小模型,也需要在数万亿的token上进行训练,而且训练时间越长,效果越好。数据退火,即在训练的最后阶段保留一组高质量的数据,也被证明是一种有效的方法。
最终发布的系列模型非常适合部署在各种设备上,从智能手机到笔记本电脑。最大的1.7B模型BF16精度只占用了3G的内存,这对于部署在内存受限的设备上非常有吸引力。尽管这些基础模型已经足够好,但团队也发现了一个问题,即过去的对齐和微调技术,如SFT、DPO、PPO等,虽然对大模型非常有效,但对小模型的效果并不理想。团队分析认为,这是因为对齐数据集中包含了许多对小模型来说过于复杂的概念,并且缺乏为小模型精心设计的简单任务。
对于有兴趣的团队来说,这可能是一个新机会,可以开始探索如何改进小模型的对齐和微调技术。同时,抱抱脸公司也提供了一个在线试玩链接,让用户可以直接体验这些小模型的性能:https://huggingface.co/spaces/HuggingFaceTB/instant-smollm。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台