谷歌开源Gemma-2:参数小,同类性能最佳之一

AI最新资讯2周前发布 tree
12 0 0

今日应用


今日话题


谷歌开源Gemma-2:参数小,同类性能最佳之一
谷歌开源Gemma-2:参数小,同类性能最佳之一
 

重点标签 Gemma 2开源谷歌大模型性能提升部署简化基准测试

文章摘要


谷歌在官网宣布开源其最新的大型语言模型Gemma 2,专为研究和开发人员设计。该模型有两种参数规模:9B和27B,相较于上一代,性能显著提升,同时部署要求降低,仅需一块NVIDIA H100 Tensor Core GPU或TPU主机。Gemma 2在小参数模型中表现优异,性能接近Qwen1.5,成为同类最佳模型之一。

Gemma 2的架构在前代基础上进行了全方位改良,引入局部滑动窗口注意力和全局注意力机制,局部注意力层的滑动窗口大小为4096个tokens,全局注意力层跨度为8192个tokens。27B模型使用了13万亿tokens的英文数据进行训练,涵盖网页文档、代码、论文和科学文章等,而9B模型则使用了8万亿tokens数据。

训练策略上,Gemma 2采用了知识蒸馏方法,通过学习大型教师模型的输出概率进行训练,使学生模型能够在较小规模上复制大模型的卓越性能。在预训练阶段,Gemma 2经过了监督式微调和基于标记的英语偏好数据训练的奖励模型,以及基于相同提示的RLHF强化训练。

在MBPP、MMLU、ARC-C、GSM8K、BBQ Disambig等多个知名基准测试平台上的综合评测显示,Gemma 2在多项基准测试中表现突出。特别是在MMLU 5-shot测试中,27B模型的得分达到了75.2%,相较于Gemma-1的42.3%有显著提升。此外,Gemma 2在数学推理、逻辑问题解决和常识问答等复杂认知任务上也展现出强大效能。

开源地址为:https://www.kaggle.com/models/google/gemma-2
在线使用地址为:https://aistudio.google.com/app/prompts/new_chat?model=gemma-2-27b-it

本文素材来源于Gemma 2技术报告,如有侵权请联系删除。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...