微软开源最强小参数大模型—Phi-3 Mini

AI最新资讯3个月前发布 tree
33 0 0

今日应用


今日话题


微软开源最强小参数大模型—Phi-3 Mini
微软开源最强小参数大模型—Phi-3 Mini
 

重点标签 微软Phi-3-mini大语言模型开源AIGC

文章摘要


微软在官网开源了小参数的大语言模型Phi-3-mini,这是微软Phi家族的第4代,拥有38亿参数和3.3T tokens的训练数据。Phi-3-mini对内存的占用极少,可以在iPhone 14等手机中部署使用,每秒能生成12个tokens数据。在预训练Phi-3-mini时,微软使用了合成数据,帮助大模型更好地理解语言架构、表达方式、文本语义理解、逻辑推理以及特定业务场景的专业术语等。

Phi-3-mini采用了transformer架构,支持4K和128K上下文窗口,是同类小模型中第一个支持128K的开源产品。高质量训练数据集是Phi-3-mini性能超强的重要原因之一,包括经过严格质量筛选的网络公开文档、精选的高质量教育数据和编程代码,以及通过合成数据创建的教科书式数据。

在训练策略方面,微软使用了迭代训练策略,初始阶段使用公开网络数据,学会了基本的语法、语义和上下文理解;迭代阶段将合成数据与网络数据合并构建全新的训练集,并对Phi-3-mini进行迭代训练,进一步强化模型的理解和生成能力。

测试数据显示,Phi-3-mini仅通过少量样本提示,在语言理解、编码、数学的性能超过了参数更大的模型,整体性能非常出色。微软表示,在未来几周内还会发布70亿参数的Phi-3-small和140亿参数的Phi-3-medium两款小模型,其中Phi-3-medium的性能可媲美Mixtral 8x7B 和GPT-3.5,资源消耗却更少。

文章来源


原文地址: 点我阅读全文
原文作者: AIGC开放社区

© 版权声明

相关文章

暂无评论

暂无评论...