今日应用
今日话题
重点标签 Meta、Llama-3、开源大模型、AIGC、Transformer
文章摘要
步骤2:撰写摘要
Meta公司在官网发布了一款名为Llama-3的开源大模型,该模型专注于AIGC(人工智能生成内容)领域。Llama-3有两种参数规模,分别为80亿和700亿,还有一个超过4000亿参数的模型正在训练中。与前代Llama-2相比,Llama-3在多个方面如推理、数学、代码生成等能力上有了显著提升。
Llama-3采用了多项创新技术,包括分组查询注意力和掩码技术,这些技术有助于开发者在保持能耗低的同时获得优异的性能。Meta计划很快发布Llama-3的相关论文,以进一步介绍其技术细节。
Llama-3使用了128K的词汇表标记器,这使得模型在处理语言时更加灵活和高效。在训练数据方面,Llama-3使用了超过15T tokens的公开数据集,是Llama-2的7倍,其中包含的代码数量也是Llama-2的4倍。此外,为了实现多语言能力,Llama-3的预训练数据集包含了超过5%的非英语数据,覆盖了30多种语言。
Meta还开发了一个新的高质量人类评估数据集,用于测试Llama-3的性能。测试结果显示,Llama-3的700亿参数指令微调模型在多个关键用例上的性能超过了其他知名模型,如Claude Sonnet、Mistral Medium和GPT-3.5。在其他知名测试平台如MMLU、AGIEval、BIG、ARC中,Llama-3的性能也大幅度超过了其他知名开源模型。
尽管Llama-3在性能上有了显著提升,但在功能上并没有带来太多惊喜,例如将视频或音频功能内置在模型中。然而,Meta已经发布了很多音频、视频和图像相关的产品和研究论文,预计未来Llama-3将整合这些功能,带来更多的创新和应用。
本文的素材来源于Meta官网,如有侵权请联系删除。