今日应用
今日话题
全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用
重点标签 tag1、Meta、Llama 3、开源、AI模型
文章摘要
[tag3/Hugging Face/排行榜/SOTA]
[tag4/400B/性能/野兽]
[tag5/指令微调/安全/Meta AI]
Meta公司最近发布了备受期待的Llama 3模型,该模型使用了24000块GPU进行训练,并迅速在开源大模型领域取得了领先地位。Llama 3的8B和70B版本在同规模参数下达到了开源领域的最新水平(SOTA),并且在推理编码方面取得了显著提升。Meta公司还宣布,400B版本的Llama 3也在开发中,预计将在未来几个月内发布。
Llama 3的发布引起了业界的广泛关注,被誉为首个开源的GPT-4级别的模型。Meta共开源了两款Llama 3模型,分别是8B和70B版本,每个版本都有预训练和指令微调两个版本。Llama 3在由24000块GPU组成的定制集群上使用15万亿个token进行训练,即使是最小的8B版本在某些情况下也能击败规模更大的Llama 2 70B版本。
Llama 3的上下文长度相较于之前实现了翻倍,但仍然只有8K。此外,Llama 3已经在网页版Meta AI上提供使用,且无需登录。Hugging Face的联合创始人兼CEO表示,Llama 1和Llama 2已经衍生出了30,000个新模型,他期待看到Llama 3将给AI生态带来怎样的影响。
Llama 3 400B版本在多个基准测试中表现出色,与Claude 3 Opus、GPT-4-2024-04-09和Gemini相比,它在多语言推理任务和代码能力上具有竞争力。Llama 3 400B在所有能力上均击败了Gemini Ultra 1.0。
Llama 3的开发过程中,Meta重点关注了模型架构、训练数据、扩大训练规模以及指令微调等关键要素。Llama 3使用了具有128K个token的分词器,提高了模型性能。为了提高推理速度,Meta在8B和70B两种规模上都采用了分组查询注意力(GQA)机制。
Llama 3在超过15万亿个token上进行了预训练,训练数据集比Llama 2大7倍,包含4倍多的代码。预训练数据集中有超过5%是高质量的非英语数据,涵盖了30多种语言。Meta还开发了一系列数据过滤管道,以确保训练数据的质量。
在扩大预训练规模方面,Meta开发了详细的缩放定律,以确保最佳地利用训练计算资源。Llama 3的训练效率比Llama 2提高了约三倍。
在指令微调方面,Meta采用了监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合。Llama 3在性能上取得的最大改进归功于对数据的仔细策划和对人类标注者提供的标准进行多轮质量保证。
在部署上,Meta采用了一种新的系统级方法,将Llama模型视为一个更广泛系统的一部分。在模型安全上,指令微调起了重要作用。Meta对指令微调模型进行了安全测试,并使用了Llama Guard模型作为安全的基础。
此外,Meta还发布了网页版Meta AI,由最新Llama 3加持,提供全球顶尖的AI助手服务。Meta AI也可以在Facebook、Ins、WhatsApp和Messenger等社交应用中使用,提供实时信息访问和图像生成功能。
文章来源
原文地址: 点我阅读全文
原文作者: AIGC新智界