今日应用
今日话题
重点标签 微软、Phi-3-mini、大语言模型、开源、AIGC
文章摘要
微软在官网开源了小参数的大语言模型Phi-3-mini,这是微软Phi家族的第4代,拥有38亿参数和3.3T tokens的训练数据。Phi-3-mini对内存的占用极少,可以在iPhone 14等手机中部署使用,每秒能生成12个tokens数据。在预训练Phi-3-mini时,微软使用了合成数据,帮助大模型更好地理解语言架构、表达方式、文本语义理解、逻辑推理以及特定业务场景的专业术语等。
Phi-3-mini采用了transformer架构,支持4K和128K上下文窗口,是同类小模型中第一个支持128K的开源产品。高质量训练数据集是Phi-3-mini性能超强的重要原因之一,包括经过严格质量筛选的网络公开文档、精选的高质量教育数据和编程代码,以及通过合成数据创建的教科书式数据。
在训练策略方面,微软使用了迭代训练策略,初始阶段使用公开网络数据,学会了基本的语法、语义和上下文理解;迭代阶段将合成数据与网络数据合并构建全新的训练集,并对Phi-3-mini进行迭代训练,进一步强化模型的理解和生成能力。
测试数据显示,Phi-3-mini仅通过少量样本提示,在语言理解、编码、数学的性能超过了参数更大的模型,整体性能非常出色。微软表示,在未来几周内还会发布70亿参数的Phi-3-small和140亿参数的Phi-3-medium两款小模型,其中Phi-3-medium的性能可媲美Mixtral 8x7B 和GPT-3.5,资源消耗却更少。
文章来源
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...