今日应用
今日话题
GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!
重点标签 Cerebras Inference、AI推理、GPU、大模型、高性能计算
文章摘要
Cerebras Inference推理架构
Cerebras Inference推理架构是Cerebras公司推出的一款高性能AI推理产品,其推理速度远超当前最先进的GPU,能够以1800 token/s的速度输出文本,速度提升了20倍。Cerebras Inference的推出,为AI领域带来了革命性的变革。
推理速度与价格
Cerebras Inference的推理速度比英伟达GPU快20倍,比Groq芯片快2.4倍,且在保持高精度的同时,价格更为优惠。根据官方API定价,Llama 3.1 8B每百万token仅需10美分,Llama 3 70B每百万token仅需60美分,性价比极高。
自研Wafer Scale Engine芯片
Cerebras Inference的成功得益于其自研的第三代芯片Wafer Scale Engine,该芯片具有44GB SRAM和21PB/s的内存带宽,有效解决了内存带宽瓶颈问题。WSE-3芯片的总内存带宽为21PB/s,是H100的7000倍,使其成为高速推理的近乎理想设计。
支持大规模部署
Cerebras Inference支持1-100的批大小,具有极高的成本效益,尤其适用于数十亿到万亿参数模型的推理。如果模型参数超过单个晶圆的内存容量时,研究人员将在”层边界”将其拆分,并映射到多个CS-3系统上。
16位精度,不做取舍
Cerebras Inference在推理速率高的同时,并未在模型权重上做出取舍。它采用了原始16位权重运行了Llama3.1 8B和70B,通过评估,16位模型准确率比8位模型高出多达5%,尤其在多轮对话、数学和推理任务中表现更好。
最优性价比,百万token免费送
Cerebras Inference目前已可通过聊天平台和API访问,任何一个人可随时体验。Cerebras Inference API提供最佳的性能、速度、精度和成本组合,每天为开发者们提供100万个免费token,为大规模部署提供了强有力的支持。
快速推理的重要性
快速推理对于AI模型的智能提升具有重要意义。新技术如scaffolding(脚手架)可以在作出决定前探索不同的可能解决方案,这种”先思考后发言”的方式在代码生成等严苛任务中,可以带来超过10倍的性能提升。
上下文限制
虽然Cerebras Inference在价格和延迟上具有优势,但其在Cerebras上运行的Llama 3.1模型的上下文限制为8k,相较于其他平台的128K有所不足。
总结
Cerebras Inference的推出,为AI领域带来了革命性的变革。其高速推理、高性价比、自研芯片等优势,使其成为AI推理领域的佼佼者。同时,Cerebras Inference还提供了每天100万个免费token的福利,为开发者和企业提供了强大的推理能力。随着技术的不断进步,Cerebras Inference有望在未来为AI领域带来更多的突破和创新。
文章来源
原文地址: 点我阅读全文
原文作者: 极市平台