今日应用
今日话题
首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了
重点标签 Llama 3.1、开源模型、性能提升、多语言支持、安全风险
文章摘要
Llama 3.1版本模型的泄露在Reddit上引起了广泛关注。这个版本不仅包括基础模型,还有8B、70B和405B参数的基准测试结果。在与OpenAI GPT-4o和Llama 3 8B/70B的比较中,70B版本的Llama 3.1在多个基准测试中表现更优。3.1版本的8B和70B模型是通过405B模型蒸馏得到的,因此在性能上有显著提升。
Llama 3.1模型使用了超过15T的公开来源tokens进行训练,预训练数据截止到2023年12月。微调数据包括公开的指令微调数据集和1500万个合成样本。该模型支持英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语等多语言。
Llama 3.1模型采用优化的Transformer架构,使用SFT和RLHF进行微调,以提高可用性和安全性。模型的上下文长度为128k,所有版本都使用分组查询注意力(GQA)技术提高推理可扩展性。
Llama 3.1主要面向多语言的商业应用和研究,适用于助理聊天等场景。模型输出还可以用于改进其他模型。Llama 3.1在8种受支持语言之外的语言上也进行了训练,开发人员可以在遵守社区许可协议的前提下,对其他语言进行微调。
在训练方面,Llama 3.1使用了Meta定制的GPU集群和生产基础设施,累计使用了39.3M GPU小时的计算。训练期间的温室气体排放预估为11,390吨二氧化碳当量,但由于Meta的可再生能源使用,市场基准的排放量为0。
Llama 3.1在多个benchmark上的评分表现出色。研究团队采用了多种数据收集方法,结合人工生成数据和合成数据,以提高数据质量。模型非常重视安全性,引入了边界prompt和对抗性prompt,并遵循语气指南。
Llama 3.1并非单独部署,而是作为整个AI系统的一部分,并需要额外的安全措施。开发人员需要针对具体应用进行安全测试和微调。模型支持多语言输入和输出,并可能与第三方工具集成。Llama 3.1的核心价值观是开放、包容和乐于助人,尊重所有用户的尊严和自主权。但作为新技术,其使用也存在风险,需要特别注意安全性问题。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心