黄仁勋新访谈:OpenAI是这个时代最具影响力公司之一,马斯克19天创造工程奇迹

未分类3周前发布 tree
12 0 0

机器之心报道

机器之心编辑部
10 月 4 日,播客节目 BG2(Brad Gerstner 和 Clark Tang)邀请到了英伟达 CEO 黄仁勋,他们一起讨论了 AGI、机器学习加速、英伟达的竞争优势、推理与训练的重要性、AI 领域未来的市场动态、AI 对各个行业的影响、工作的未来、AI 提高生产力的潜力、开源与闭源之间的平衡、马斯克的 Memphis 超级集群、X.ai、OpenAI、AI 的安全开发等。

近日,BG2 发布了这期播客节目。机器之心简要整理了其中的关键信息。

AGI 和个人助理的进化

Brad Gerstner:今年 AI 领域的主题是「向 AGI 扩展」。我们先进行一个思想实验:如果我把 AGI 看作是口袋中的个人助理,它知道有关我的一切,可以与我沟通、帮我订酒店、预约医生…… 你认为我们什么时候能有这种形式的个人助理?

黄仁勋:很快就会以某种形式实现(soon in some form)。这种助理会随时间变得越来越好。这就是技术之美。开始时它会变得很有用处,但并不完美,然后它会越来越完美。

Gerstner:伊隆・马斯克曾经说过真正重要的是变化速度(rate of change),看起来变化速度已经提升了很多。你认为现在是变化速度最快的时候吗?

黄仁勋:确实是。我们已经重新发明了计算,因为我们已经在过去 10 年中将计算的边际成本降低了 10 万倍,而按照摩尔定律预测,这个倍数应该是 100 倍左右。我们通过多种途径做到了这一点。一是引入了加速计算 —— 将在 CPU 上效率不高的计算放到了 GPU 上。我们还引入了新的数值精度、提出了新的架构、发明 Tensor Core、NVLink 和 InfiniBand、HBM 高速内存。这些加在一起并大规模扩展,可说是实现了超级摩尔定律的创新速度。这样带来的一个惊人结果是从人类编程迈向了机器学习,而机器学习的速度很快。这其中要用到张量并行化、工作流程并行化等各种并行化,这能帮助我们更快地发明新算法。

回顾过去,在之前的摩尔定律时代,软件是静态的,硬件以摩尔定律增长。后来,我们更多谈论的是软件的扩展(scaling)—— 比如模型大小和数据集规模的扩展。如果模型大小和数据集都增加一倍,那么所需的计算能力要增长 4 倍。而现在,我们又开始谈论后训练和推理阶段的扩展了。以前人们觉得训练很难,推理很简单,但现在一切都变困难了。

人们现在也在研究快速思考和慢速思考的概念,还有推理、反思、迭代和模拟等等。

英伟达的竞争优势

Clark Tang:我们知道也有人在研发新芯片,有时候他们能做出一些浮点数更高或者其它性能更优的芯片。但英伟达有自己的「护城河」,那就是你们拥有从硬件到软件的整个堆栈。你觉得这三四年来你们的护城河是变大了还是变小了?

黄仁勋新访谈:OpenAI是这个时代最具影响力公司之一,马斯克19天创造工程奇迹

黄仁勋:有更高算力的芯片确实很重要,但不幸的是,那是老式思维 —— 认为软件是静态的,改进系统的最好方法是生产更快的芯片。但我们认识到机器学习不是人类编程,它并不只与软件有关,而是涉及整个数据管道。机器学习就像是一个飞轮,能让数据科学家和研究者更有生产力,而很多人没有认识到:一开始启动这个飞轮的是让 AI 去调整数据,而那个 AI 本身就已经很复杂了。

现在我们有合成数据生成以及各种调整数据的方法,这方面的 AI 也越来越聪明。也就是说在训练之前,就已经涉及到大量数据处理了。很多人认为 PyTorch 就是一切了,但不要忘了,PyTorch 之前有大量工作,PyTorch 之后也有。

这就像是一整套飞轮。我们需要设计一个计算系统让这个飞轮尽可能有效地运转。训练只是其中一环。而这个飞轮的每个环节都很困难。OpenAI、X、DeepMind 他们做的事情并不简单。就算你能加速其中一个环节,也并不代表你能够加速整个流程。而我们能够加速整个流程。

以物理 AI 和视频处理系统为例,每秒处理的数据量可高达 TB 级。我们需要一个工作流程将这样庞大的数据变成训练可用的数据,而这个过程可以使用 CUDA 来加速。

Tang:现在人们主要关注文本模型,但未来是视频模型以及 o1 这样的文本模型。这都需要在得到结果之前处理大量数据。

黄仁勋:AI 行业投入了海量技术和努力来训练语言模型,而现在我们可以在每一步都使用 LLM。

Gerstner:也就是说,从整个流程上看,英伟达的优势比三四年更大了。也就是在整体堆栈方面,你们在改进每一个组件。但是其它企业有什么优势吗,比如英特尔?

黄仁勋:英特尔是一家了不起的公司,因为它可能是第一家非常擅长制造过程工程、制造的公司。他们设计生产了越来越快的 x86 芯片。我们公司的不同之处在于,我们认识到,并行处理并不需要每个晶体管都是很棒,而串行处理需要每个晶体管都很棒。

并行处理需要大量晶体管才能更具成本效益。我宁愿多 10 倍的晶体管,但每个晶体管慢 20%,也不要晶体管减少 10 倍,速度提高 20%。而他们的想法刚好相反。

并行计算和并行处理很难,因为每个算法都需要不同的重构方式和架构算法。

我们彻底改变了深度学习,因为我们开发了一个软件库 cuDNN。但人们很少谈论它,因为它在 PyTorch 和 TensorFlow 等工具框架的下面一层,我们还有其它特定领域的软件库,比如 cuQuantum、RAPIDS。

如果我们没有发明这些算法,那么那些应用就无法运行。所以数学才是英伟达真正擅长的算法。在上层科学和底层架构之间的融合,才是我们真正擅长的地方。

AI 推理和训练的未来

Tang:现在人们都在关注推理。你认为现在我们处于推理时代吗?

黄仁勋:其实训练就是大规模推理。如果训练得很好,那么推理也会做得很好。如果你基于这个架构构建,那么就能在这个架构上运行,当然你也可以针对其它架构进行优化。

当然,在资本投入方面,当你训练新模型时,你希望用你最好的新设备进行训练。而你之前的设备可以用于推理。这对你来说就是免费的。为此,我们非常重视确保兼容性,这样旧设备也能出色地发挥作用。

我们也投入了大量精力来不断地重新发明新算法,这样当时机成熟时, Hopper 架构会比他们购买时好两、三、四倍。但同时,你的基础设施仍然能有效运行。

因此,我们在改进算法和框架方面的所有工作都有助于各种安装基础。Sam 告诉我他们刚刚停用了 OpenAI 的 Volta 基础设施。另外,我们也希望在云端创造的东西也能在边缘设备上完美地运行,所以这种架构兼容性很重要。

为训练 LLM 设计新架构让我们受益,我们也在思考如何在某一天创造出优秀的推理架构。

构建 AI 基础设施
黄仁勋:如何构建优秀的推理模型架构,以便在将来某一天实现高效的推理能力。

我们一直在思考如何设计迭代型推理模型,以及如何创建具有交互体验的推理模型。对于个人智能体,你肯定不希望它在回应你之前需要长时间思考,而是希望它能够快速与你互动。

因此,我们设计了 NVLINK,这样一来,当训练完成后,这些系统在推理性能上也表现得非常出色。

我们的目标是优化首个 token 的响应时间,实际上这是非常难以实现的。因为第一个 token 需要大量带宽, 而且如果你的上下文也很丰富,那么你就需要大量的浮点运算(FLOPS)。因此,为了实现几毫秒的响应时间,你需要无限的带宽和无限的 FLOPS。这样的架构真的很难实现,我们为此发明了 Grace Blackwell NVLink 。
Gerstner:早些时候我和 Andy Jassy 共进晚餐,Andy 说 NVIDIA 是非常重要的合作伙伴,未来也是,世界依赖于 NVIDIA。

所以,当你考虑到正在建造的定制化 ASIC,可能是 Meta 的推理加速器,或者亚马逊的 Trainium,还有谷歌的 TPUs,考虑到现今的供应短缺,这些情况是否改变了这种动态?
黄仁勋:我们正试图做不同的事情。正如你所知,NVIDIA 正尝试为这个新的世界 —— 机器学习世界、生成式 AI 世界、智能体世界 —— 构建一个计算平台。

在经历了 60 年的计算技术发展之后,我们彻底改革了整个计算堆栈,从编程到机器学习软件编写方式,从 CPU 到 GPU 的软件处理方式,从传统软件到人工智能的应用转变,从软件工具到人工智能的转变。因此,计算堆栈和技术堆栈的每一个方面都已经发生了变化。
我们想要创建的是一个无处不在的计算平台,这实际上是我们工作的复杂性所在。

如果你考虑我们所做的事情,我们正在构建一个完整的 AI 基础设施,并将其视为一台计算机。

我曾经说过,数据中心现在是计算的单位。当我想到一台计算机时,我不只是想到那个芯片,我想到的是整体,包括软件和内部的所有机械设备,这是我的计算机。我们每年都在尝试构建一台全新的计算机,这是之前从未有人做过的事情。我们每年都能交付两到三倍的性能提升,每年将成本降低两到三倍,每年将能效提高两到三倍。

因此,我们要求我们的客户不要一次性购买所有设备,而是每年购买一点。这样做的原因是,我们希望他们能够将成本平均分摊到未来。所有这些都是架构兼容的。
Gerstner:是什么促使你每年都这样做
黄仁勋:整个电子生态系统如何致力于与我们合作,最终构建一个集成到各种不同生态系统中的计算机方块,并且协调工作非常流畅。

显然,这涉及 API、方法论、商业流程和设计规则。

我们发明了庞大的计算基础设施,它被整合到了每一个地方,可以通过 Dell 或 HP 销售,也可以在云端托管,甚至应用于边缘计算,人们在机器人系统中使用它,包括人形机器人和自动驾驶汽车,所有这些都是架构兼容的。

至于我们公司,我们不是为了从别人那里夺取市场份额,而是为了创造市场。如果你看看我们公司的介绍,你会发现我们从不谈论市场份额,我们讨论的全是如何解决下一个问题,如何做得更好,如何加快从一年缩短到一个月的速度。我们考虑所有这些不同的事情,但我们非常清楚我们的使命是非常单一的,唯一的问题是这个使命是否必要。所有伟大的公司都应该具有这样的问题:你在做什么,它是否必要,它是否有价值,它是否有影响,它是否帮助了人们。

作为一位开发者,如果你是一个 AI 初创公司,正在决定如何成立公司,你唯一不需要做的选择是支持哪一种 ASIC。如果你支持 CUDA,你可以走向全世界,以后也可以随时改变主意。我们是进入 AI 世界的入口,一旦你决定加入我们的平台,其他的决定可以推迟,你总是可以稍后自己构建 ASIC,我们对此并不反感。

我们与各大云服务提供商(例如 Google Cloud Platform、Azure)合作时,我们会提前几年向他们展示我们的路线图,尽管他们不会向我们展示他们的 ASIC 路线图,这也不会让我们感到被冒犯。我们的路线图在 GTC 上是透明的。即使合作伙伴正在构建自己的 ASIC,我们也没有任何问题。

Gerstner:你最近说过人们对 Blackwell 的需求简直疯狂。你说你工作中最困难的部分之一是在计算资源短缺的世界中向人们说「不」。回想 2023 年初,那时对 Nvidia 全年的预测是 260 亿美元的收入,但实际上你们做到了 600 亿美元,是吧?
那是在 2022 年 11 月,有人告诉我如果你无法算出投资我们公司的利润,那就买 Nvidia 股票吧,因为全世界的人都在试图获取 Nvidia 芯片来构建将改变世界的应用程序。当然,ChatGPT 的出现标志着新纪元的到来。

你曾用非常简单的英语说,Blackwell 的需求是疯狂的,而且将来也会这样,尽管未来是未知且无法预测的。
黄仁勋:谈论未来最好的方式是从基本原理出发进行推理。那么问题来了,我们正在做的事情的基本原理是什么?

首先,我们在做什么?我们正在做的第一件事是重新定义计算,未来的计算方式将高度依赖机器学习。

现在几乎每一个应用程序,比如 Word、Excel、PowerPoint、Photoshop,它们都是手工设计的。我向你保证,未来它们将高度依赖机器学习,而且还会有智能体帮助你使用它们。

所以,我们现在可以肯定地说,我们已经重新定义了计算,整个计算技术堆栈正在被重新定义。此外,软件将会有所不同,软件能写的内容将会有所不同,我们使用软件的方式也会有所不同,所以这些都是基本事实了。
黄仁勋:OpenAI 是我们这个时代最具影响力的公司之一

Gerstner:众所周知,OpenAI 最近筹集了 65 亿美元,估值约为 1500 亿美元。

据报道,他们今年的收入或运营收入约为 50 亿美元,明年可能达到 100 亿美元。如果你看看 OpenAI 现在的业务,其收入大约是谷歌首次公开募股时的两倍。他们大约有 2.5 亿的周平均用户数,我们估计这是谷歌 IPO 时的两倍。

请和我们谈谈 OpenAI 作为合作伙伴对你的重要性,以及 OpenAI 作为推动公众对 AI 的认识和使用的重要作用。
黄仁勋OpenAI 确实是我们这个时代最具影响力的公司之一,一家纯粹追求通用人工智能(AGI)愿景的 AI 公司。不管它的定义是什么,我几乎认为定义本身并不完全重要。在它达到任何人对 AGI 的定义之前,我们将会把它用到极致。

你所要做的就是去和数字生物学家、气候技术研究者、材料研究者、物理科学家、天体物理学家、量子化学家交谈,去问视频游戏设计师、制造工程师、机器人学家他们的感受。

无论你想选择哪个行业,深入其中和那些重要的人交谈,问他们人工智能是否已经革新了他们的工作方式。然后你收集这些数据点,你对此持有多大的怀疑态度。因为他们讨论的不是人工智能作为一个概念上的好处,他们是在讨论现在就在使用的 AI 所带来的好处。

现在,农业技术、材料技术、气候技术等等正在进步,AI 正在帮助研究者推进工作。现在,正如我们所说,每一个行业、每一家公司、每一所高校,将以某种方式改变业务。

这种改变今天就发生了。所以,我认为 ChatGPT 的觉醒引发了这一切,这完全令人难以置信。我喜欢他们的速度和他们推动这一领域发展的独特目标,这真的意义重大。
AI 模型的未来

Gerstner:他们在经济引擎中构建,以资助下一个模型前沿。我认为硅谷日益达成的共识是整个模型层的商品化正在使得很多人能够以非常低的成本构建模型。所以早期,我们有很多模型公司。很多人质疑这些公司是否能构建在经济引擎上的逃逸速度,继续资助下一代模型。我个人认为,这就是为什么你看到了整合。显然,OpenAI 已经达到了那种逃逸速度,他们可以资助自己的未来。对我来说不确定的是,其他公司是否也能做到。
黄仁勋:首先,模型和 AI 之间存在根本的不同。模型是 AI 的一个基本成分。它是必要的,但不是充分的。比如用于自动驾驶汽车的人工智能与用于人形机器人的人工智能相关,但并不是一样的。

因此,你必须了解分类。现在你只需将模型一词替换为 GPU。

有些公司非常擅长制造 GPU,但却不知道如何成为一家加速计算公司,现在不止一家公司在制造 GPU,但它们并不是加速计算公司。尽管有些加速器可用于应用加速,但这与加速计算公司是不同的。

你必须决定你想成立什么样的公司,在不同领域可能都有机会。但就像创建公司一样,你必须留意生态系统的变化以及随着时间的推移哪些东西会被商品化,认识到什么是功能,什么是产品,什么是公司。你可以用很多不同的方式来思考这个问题。
黄仁勋谈 xAI:别人用 4 年完成的事情,埃隆用了 19 天

Gerstner:当然,有一家新入局者既有钱、又有智慧、还有野心,那就是 xAI。你认为他们有能力建立超级集群吗?
黄仁勋:答案是肯定的。首先是对他们成就的认可。从概念到建成一个准备好安装 Nvidia 设备的数据中心,再到通电,连接好一切并进行首次训练,这一切都值得赞扬。

在如此短的时间内建造一个巨大的工厂,包括液冷、供电、获得许可,这简直像超人一样。据我所知,世界上只有一个人能做到这一点。埃隆在理解大型系统的工程和建设以及资源整合方面是独一无二的,这简直令人难以置信。当然,他的工程团队也是非凡的,软件团队、网络团队和基础设施团队也很棒。

从规划开始,与我们的工程团队、网络团队、基础设施计算团队、软件团队一起,所有的准备工作都提前完成。然后所有的基础设施、后勤以及在那一天进场的所有技术和设备、视频基础设施和计算基础设施等等,都在 19 天内完成,这实在是不可思议。

所以我认为埃隆所取得的成就是独一无二、前所未有的。十万个 GPU,这简直是地球上搭建最快的超级计算机集群。通常来说,你要建造的超级计算机集群需要三年时间来规划,然后交付设备、安装和运行还需要一年时间。别人要用 4 年完成的事情,埃隆只用了 19 天。
Brad Gerstner:那我们再谈谈 OpenAI 的 o1。Noam Brown 是该模型的核心贡献者之一,他在 Meta 工作时曾有 Libratus、Pluribus 和 Cicero 等成果。Inference-Time 推理(Reasoning)作为扩展智能的全新载体,与仅仅构建更大的模型截然不同,这有多重要?
黄仁勋:这是一件大事。我认为,很多智能无法先验地完成,甚至很多计算都无法重新排序。无序执行可以优先完成,很多事情只能在运行时完成。

无论你是从计算机科学的角度还是从智能的角度来思考,其中大多数的内容都需要考虑上下文以及正在寻找的答案类型。有时,一个快速的答案就足够了。这取决于答案的结果,取决于答案的使用属性。所以,有些答案需要花一个晚上,有些答案需要一周的时间。

所以我完全可以想象我给人工智能发送一个提示,然后告诉它,考虑一个晚上,不要马上告诉我,然后明天再回来告诉我。我认为从产品的角度来看,智能的质量和细分会产生一击即中的版本,当然也会有一些需要五分钟的版本。
Brad Gerstner:「智能层」会将这些问题导向正确的模型,对症下药。使用高级语音模式和 o1 预览版,我辅导了儿子的 AP 历史考试,就像有世界上最好的历史老师坐在旁边思考这些问题。又回到了这个问题上,你知道,你今天 40% 以上的收入都是推理得来的,且推理又得益于推理链。未来还会带来十亿倍的增长,是这样吗
黄仁勋:没错,这是大多数人还没有完全内化的部分。这就是我们说的工业革命。
Brad Gerstner:所以每个人都非常关注英伟达,在训练更大的模型。想问:是不是如果收入比例变为 50:50,你未来会做更多的推理呢?训练永远是重要的,但推理的增长会比我们希望的多得多。
黄仁勋:是的,我们希望是这样。
Brad Gerstner:你们是否已经使用了推理链等工具来改善自己的业务?

黄仁勋:是的,我们今天的网络安全系统离不开我们自己的智能体。智能体帮助设计芯片,我们有 AI 芯片设计师、AI 软件工程师、AI 验证工程师。我们在内部组建了这些团队,我们有能力而且愿意利用这个机会探索技术。
AI 在业务增长和提升生产力方面的作用

Brad Gerstner:英伟达很独特。每个员工大约 400 万的收入,每个员工有大约 200 万的利润或自由现金流。你建立了一种效率文化,而这种文化真正释放了创造力、创新、所有权和责任。你打破了职能管理的模式。每个人都喜欢谈论你所有的直接下属。AI 的杠杆作用将继续让你在高效的同时保持超级创造力。

黄仁勋:毫无疑问。英伟达现在有 3.2 万名员工,我希望英伟达某天将成为一家拥有 5 万名员工的公司,同时会有 1 亿个 AI 辅助我们。我们将有一个 AI 擅长事务的目录。我们的收件箱里面也会充满这些擅长不同事务的 AI 发来的信息。AI 也会招募其它 AI 来解决问题,它们还会在 Slack 频道里面交流。

当然,它们也会与人类交流。可以说,我们就是一个庞大的员工群体,其中一些是数字化的 AI,另一些则是生物体的人类。我还希望某天其中一些会是电子化的机器人。

Brad Gerstner:人们常误解 AI 会替代人类的工作。但你公司的员工数量还在增长,并且你会用 5 万人完成原本 15 万人才能完成的工作。

黄仁勋:AI 并不会接替每一项工作。AI 将极大地影响人们看待工作的方式。让我们承认这一点,AI 有潜力做很棒的好事,它也有可能造成伤害。

被忽视的部分是,当公司使用 AI 变得更有效率时,就可能带来更好的收益或更好的增长。当这种情况发生时,CEO 的下一封电子邮件很可能就不是裁员。

Brad Gerstner:因为业务在增长,需要更多人。

黄仁勋:这是因为我们有更多的想法可以探索,我们需要人在自动化之前进行思考。当然,AI 也可以帮助我们思考,但也仍然需要我们去弄清楚要解决什么问题。人类可做的事情有很多。因此,随着生产力的提高,我们将雇佣更多的人。人们常忘记这一点。回顾过去,显然我们今天比 200 年前有更多的想法。因此 GDP 更高,就业人数更多了,即便我们一直在大量进行自动化。
Brad Gerstner:有调查说,过去十年是生产力增长最慢的十年。人们还在辩论其原因,但如果世界就像你刚才所描述的那样,我们将利用和制造智能,那么我们的生产力是正处于急剧扩张的边缘吗?

黄仁勋:我们希望如此。当然,你知道,我们生活在这个世界上,所以我们有直接的证据。现在,一个独立的研究人员就能够使用 AI 以难以想象的非凡规模探索科学。这就是生产力。

另外,我们正在设计非常惊人的芯片,其复杂性呈指数级增长,而公司的员工基础并不是衡量生产力的标准。我们开发的软件越来越好,因为我们在使用 AI 和超级计算机来帮助我们。因此,很多行业都有这样的增长。

毫无疑问,智能是世界上已知的最有价值的商品。现在我们要大规模生产它。我们将被 AI 包围。如果它们做得非常好,比你好得多,会发生什么?但反思一下,这就是我现在的生活。我有 60 个向我报告的人,他们在各自领域都比我优秀得多。我与他们互动没有任何问题。对 AI 也是如此。所以我认为人们将会学到的是:他们都将成为 CEO,成为 AI 智能体的首席执行官。

确保安全的 AI 开发

Brad Gerstner:我们来谈谈 AI 的安全和监管吧。我们是在正确的道路上吗?你认为我们该如何确保 AI 是有利的,而不会导致一个反乌托邦的世界。

黄仁勋:关于安全的对话非常重要和有益。AI 是一个巨大的神经元网络,是一个很抽象的观念。人工智能和大型语言模型确实相关,但并不一样。现在这方面有很多出色的工作。

一、开源模型,这样一来,整个研究社区、每个行业和每个公司都可以参与 AI,将这种能力用在自己的应用中。

二,人们在发明 AI 来保证 AI 安全,人们低估了这方面的技术。比如用 AI 来整理数据、对齐 AI、合成数据来扩展 AI 知识、减少幻觉、监控其它 AI、创建安全护栏等等。整个行业都在为之努力,包括方法论研究、红队研究、工作流程、模型卡、评估系统、基准测试系统…… 人们正在以非常快的速度构建各种工具。但这些努力都被低估了,没有得到应有的赞誉。
这是这些智能体、不同功能构建的理由。我们再次回到了第一性原理。
Brad Gerstner:我们必须回到开源的话题上。你们发布了规参数很大、非常重要且可用的开源模型。
黄仁勋:最近是 Nemotron。

Brad Gerstner:很明显的是,Meta 对于业界有重要的开源贡献。推特上都是大模型开源 vs 闭源的讨论。如何保证你们自己的开源大模型一直处于前沿水平?第二个问题,在商业项目中,既有开源大模型,也有闭源模型的情况,是否会是未来合理的生态,这样安全吗?
黄仁勋:开源 vs 闭源,和安全有关,但不仅仅是安全的问题。举个例子,用闭源模型显然是完全没问题的,这是保持创新所必须的。我全心全意支持这一点。不是封闭或开源,应该是封闭和开源。开源是促进很多行业的必需品,现在如果没有开源,那么多科学领域如何发展?它们都从 AI 的发展中受益了。

因为他们必须开发自己特定领域的人工智能,因此必须使用开源模型来开发特定领域人工智能。它们是相关的,但又不是一回事。只是因为你有一个开源模型并不意味着你就有了人工智能,所以你必须有那个开源模型来创建人工智能。

所以,金融服务、医疗保健、运输等一系列行业现在因为开源而活跃。这令人难以置信。
Brad Gerstner:你们的开源大模型需求量很大吗?
黄仁勋:首先不得不提的是行业老大 Llama,扎克伯格他们的成果太棒了,是难以估量的,很大程度上促进了每一个行业、科技领域。

我们把 Nemotron 定位于生成合成数据。直观的想法是,一个人工智能会在那里循环生成数据,自我学习,这听起来很脆弱,你可以无限循环多少次,这个循环值得怀疑。但这有点像我脑海中的一个画面 —— 就像你把一个超级聪明的人关进一个舒适的房间,关上门,大约一个月,你知道出来的可能不是一个更聪明的人。

但理论上你可以让两三个人坐在一起,我们有不同的人工智能,我们有不同的知识分布,我们可以互相提问回答,这样每个人都会变得更加聪明。

所以,你可以让人工智能模型进行交流、互动,来回辩论,强化学习并合成数据生成,这种想法在直觉上是有道理的。我们的模型 Nemotron-4 340B 是世界上最好的奖励系统模型。

它是最好的批评家,这是一个增强其他所有模型的绝佳模型。所以不管别人的模型有多棒,我都建议使用 Nemotron-4 340B 来增强和改进它。我们已经看到 Llama 变得更好,其他所有模型也都变得更好。

Brad Gerstner:我们的采访快要结束了。
黄仁勋:谢天谢地(笑)。

Brad Gerstner:作为 2016 年交付了 DGX-1 的人,这真是一段不可思议的旅程,你们走过的旅程既不可思议又令人难以置信。你们存活了下来 —— 从 2016 年的 DGX-1 到 2022 年技术突破的出现。

所以有一个问题我也经常被问到,你能够坚持今天所做的事情多久?60 份报告都在说,英伟达无处不在,你们在引领这场变革。你觉得现在很享受吗?有没有想要做的其他事?
黄仁勋:一个半小时的采访后,你就想问这个?(笑)

回答是:这是一段很棒的经历,我无法想象还能做什么更好的事了。

我认为,我认为不应该给人留下这样的印象,即我们的工作总是充满乐趣。我的工作并不总是充满乐趣,我也不指望它总是充满乐趣,我曾经期望它总是充满乐趣。我认为这一直很重要,是的。

我不会太认真对待自己,我非常认真地对待工作,我非常认真地对待我们的责任,我非常认真地对待我们的贡献和我们的时机。

这总是充满乐趣吗?不是的。但我是不是一直深爱着这份事业?是的。就像所有的事情一样,无论是家人、朋友、孩子,总是充满乐趣吗?不是的。但我们总是深深地爱着他们。

所以,我能做多久?真正的问题是,我能坚持多久。这唯一重要的信息是,这个问题只能用我将如何继续学习来回答。不过可以确定的是,我今天更加乐观了。我这么说不仅仅是因为我们今天的主题,我对自己的能力更加乐观,保持关注并继续学习,因为人工智能。

是的,我在使用它,我不知道你们是怎样的,我每天都在使用 AI。我的每一项研究都涉及到人工智能,所有的问题,即使我知道答案,我也会用人工智能验算一下。令人惊讶的是,我接下来追问的两三个问题揭示了一些我不知道的东西。你只需要选择话题。

我认为人工智能作为导师、作为助手、也能作为头脑风暴的伙伴,仔细检查我的工作。这是完全革命性的,我是一名信息工作者,我的输出是信息,所以我认为,这一切对社会的贡献都是非凡的。这样我就能保持跟进,我就可以继续做出贡献。

我知道这项工作对我来说非常重要,我想继续从事下去。我的生活质量令人难以置信。
Brad Gerstner:我无法想象你和我已经在这个领域工作了几十年,我无法想象错过这一段经历。这是我们职业生涯中最重要的时刻,我们非常感谢这种合作关系。

黄仁勋:不要错过未来 10 年。

Brad Gerstner:你会让 AI 变得更聪明。谢谢你的讲述,真的非常享受。

黄仁勋:非常感谢 Brad,谢谢 Clark。

参考内容:
https://www.youtube.com/watch?v=bUrCR4jQQg8

© 版权声明

相关文章

暂无评论

暂无评论...