今日应用
今日话题
贾扬清:大模型尺寸正在重走CNN的老路;马斯克:在特斯拉也是这样
重点标签 Transformer、CNN、AI、大模型、技术趋势
文章摘要
在深度学习领域,Transformer大模型的尺寸变化似乎正在重走卷积神经网络(CNN)的老路。贾扬清和AI领域的其他专家注意到了这一趋势,他们认为大模型尺寸的竞争正在加剧,但方向却与以往不同。过去,模型的规模在ImageNet时代迅速增长,随后转向更小、更高效的模型。现在,业界普遍认同Scaling Law,但同时也出现了GPT-4o mini、苹果DCLM-7B、谷歌Gemma 2B等更小型的模型。
贾扬清认为,行业会因小型垂直模型而真正蓬勃发展,例如Patrouns AI的Iynx模型。他指出,7B-70B参数规模的大模型在实际应用中更为方便,它们易于托管,不需要巨大的流量即可盈利,且能提供质量上乘的输出。此外,OpenAI的快速模型也开始变得更小,这表明了行业趋势正朝着使用适用的、具有成本效益的模型发展。
CNN的发展历程也反映了这一趋势。从AlexNet的崛起到VGGNet的规模增长,再到GoogleNet和SqueezeNet的规模缩小,以及ResNet和ResNeXT的平衡追求,CNN的发展经历了从小到大再到适度规模的过程。MobileNet的推出更是标志着CNN在端侧的应用,它以极少的资源占用实现了优异的性能。
网友们对这一趋势的看法不一。一些人认为,开发更大的模型可以为后续更小、更垂直的模型的训练提供强度,最终产生所谓的“完美训练集”。这样,较小的大模型在特定领域可能与参数巨大的大模型一样聪明,甚至更聪明。然而,也有人指出,目前持有最强竞争力模型的公司可能仍在训练更大的模型,并没有出现“更小型号模型搞定技术突破”的趋势。
贾扬清回应称,他的观点并不意味着要停止训练更大的模型,而是随着技术落地实践的广泛性,人们越来越关注性价比更高的模型。更高效的小·大模型可能重新定义AI的“智能”,挑战“越大越好”的假设。这一观点引发了业界的广泛讨论和思考。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台