今日应用
今日话题
刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错
重点标签 开源大模型、AI写作、HyperWrite、基准测试、Glaive
文章摘要
[AI模型/基准测试/Hugging Face/GPU服务/逻辑题]
[AI写作助手/Glaive公司/高质量数据/AI开发]
[Otherside AI/HyperWrite/Chrome插件/AI驱动功能]
Reflection 70B是由AI写作初创公司HyperWrite开发的开源大模型,它在多个基准测试中超越了GPT-4o和Llama 3.1,成为目前世界上最顶级的开源AI模型之一。该模型建立在Meta的Llama 3.1 70B Instruct基础上,具有与现有工具和pipeline的兼容性。在GSM8K基准测试中,Reflection 70B的得分高达99.2%,几乎接近满分。此外,它还展现了出色的零样本推理能力,超越了其他顶尖模型。
Reflection 70B的一个显著特点是其错误识别和纠正能力,这得益于一种名为“Reflection-Tuning”的技术。该技术通过引入特殊token,使得模型能够在最终确定回复前检测并纠正自身推理的错误。此外,Reflection 70B的推理过程被分为多个步骤,以提高精度,特别适合高精度任务。
HyperWrite的CEO Matt Shumer表示,Reflection 70B的发布只是系列的开始,更大容量的Reflection 405B也即将推出,预计性能将超越现有的专有或闭源大型语言模型(LLM)。HyperWrite计划将Reflection 70B集成到其AI写作助手产品中,并发布一份详细介绍训练过程和基准的报告。
值得注意的是,Reflection 70B的开发仅由Matt Shumer和另一位AI创业公司创始人Sahil Chaudhary在三周内完成,这得益于Sahil的公司Glaive提供的合成数据。Glaive专注于为特定需求构建数据集,帮助小型、专业化的语言模型快速完成训练。
Reflection 70B的发布引发了广泛关注,但由于试用人数过多,模型的响应速度受到了影响。尽管如此,它在逻辑题解答、本地知识问答和编码辅助任务中的表现仍然得到了用户的认可。然而,由于其底层模型采用了Meta的Llama 3.1 70B Instruct,也引发了一些关于创新性的争议。
Matt Shumer是AI领域的资深创业者,他与Jason Kuperberg共同创立了Otherside AI,该公司凭借HyperWrite产品获得了大量用户。随着公司更名为HyperWrite并引入AI驱动功能,其产品线不断扩展,包括自动完成预定航班、筛选LinkedIn简历等智能管家功能。在最新一轮融资中,HyperWrite获得了280万美元的投资,进一步推动了公司的发展。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心