新浪博客

[转载]黄仁勋最新2万字演讲实录:将打破摩尔定律发布新产品,机器人时代已经到来

2024-06-08 16:37阅读:

[转载]黄仁勋最新2万字演讲实录:将打破摩尔定律发布新产品,机器人时代已经到来


腾讯科技讯 6月2日,英伟达联合创始人兼首席执行官黄仁勋在Computex 2024(2024台北国际电脑展)上发表主题演讲,分享了人工智能时代如何助推全球新产业革命。
以下为本次演讲的要点:
黄仁勋展示了最新量产版Blackwell芯片,并称将在2025年推出Blackwell Ultra AI芯片,下一代AI平台命名为Rubin,2027年推Rubin Ultra,更新节奏将是“一年一次”,打破“摩尔定律”。
黄仁勋宣称英伟达推动了大语言模型诞生,其在2012年后改变了GPU架构,并将所有新技术集成在单台计算机上。
英伟达的加速计算技术帮助实现了100倍速率提升,而功耗仅增加到原来的3倍,成本为原来的1.5倍。
黄仁勋预计下一代AI需要理解物理世界。他给出的方法是让AI通过视频与合成数据学习,并让AI互相学习。
黄仁勋在PPT里甚至给token敲定了一个中文译名——词元。
黄仁勋表示,机器人时代已经到来,将来所有移动的物体都将实现自主运行。 [转载]黄仁勋最新2万字演讲实录:将打破摩尔定律发布新产品,机器人时代已经到来

以下是腾讯科技整理的两小时演讲全文实录:


尊敬的各位来宾,我非常荣幸能再次站在这里。首先,我要感谢台湾大学为我们提供这个体育馆作为举办活动的场所。上一次我来到这里,是我从台湾大学获得学位的时候。今天,我们即将探讨的内容很多,所以我必须加快步伐,以快速而清晰的方式传达信息。我们有很多话题要聊,我有许多激动人心的故事要与大家分享。
我很高兴能够来到中国台湾,这里有我们很多合作伙伴。事实上,这里不仅是英伟达发展历程中不可或缺的一部分,更是我们与合作伙伴共同将创新推向全球的关键节点。我们与许多合作伙伴共同构建了全球范围内的人工智能基础设施。今天,我想与大家探讨几个关键议题:
1)我们共同的工作正在取得哪些进展,以及这些进展的意义何在?
2)生成式人工智能到底是什么?它将如何影响我们的行业,乃至每一个行业?
3)一个关于我们如何前进的蓝图,我们将如何抓住这个令人难以置信的机遇?
接下来会发生什么?生成式人工智能及其带来的深远影响,我们的战略蓝图,这些都是我们即将探讨的令人振奋的主题。我们正站在计算机行业重启的起点上,一个由你们铸就、由你们创造的新时代即将开启。现在,你们已经为下一段重要旅程做好了准备。
新的计算时代正在开始


但在开始深入讨论之前,我想先强调一点:英伟达位于计算机图形学、模拟和人工智能的交汇点上,这构成了我们公司的灵魂。今天,我将向大家展示的所有内容,都是基于模拟的。这些不仅仅是视觉效果,它们背后是数学、科学和计算机科学的精髓,以及令人叹为观止的计算机架构。没有任何动画是预先制作的,一切都是我们自家团队的杰作。这就是英伟达的领会,我们将其全部融入了我们引以为傲的Omniverse虚拟世界中。现在,请欣赏视频!
全球数据中心的电力消耗正在急剧上升,同时计算成本也在不断攀升。我们正面临着计算膨胀的严峻挑战,这种情况显然无法长期维持。数据将继续以指数级增长,而CPU的性能扩展却难以像以往那样快速。然而,有一种更为高效的方法正在浮现。
近二十年来,我们一直致力于加速计算的研究。CUDA技术增强了CPU的功能,将那些特殊处理器能更高效完成的任务卸载并加速。事实上,由于CPU性能扩展的放缓甚至停滞,加速计算的优势愈发显著。我预测,每个处理密集型的应用都将实现加速,且不久的将来,每个数据中心都将实现全面加速。 [转载]黄仁勋最新2万字演讲实录:将打破摩尔定律发布新产品,机器人时代已经到来
现在,选择加速计算是明智之举,这已成为行业共识。想象一下,一个应用程序需要100个时间单位来完成。无论是100秒还是100小时,我们往往无法承受运行数天甚至数月的人工智能应用。
在这100个时间单位中,有1个时间单位涉及需要顺序执行的代码,此时单线程CPU的重要性不言而喻。操作系统的控制逻辑是不可或缺的,必须严格按照指令序列执行。然而,还有许多算法,如计算机图形学、图像处理、物理模拟、组合优化、图处理和数据库处理,特别是深度学习中广泛使用的线性代数,它们非常适合通过并行处理进行加速。为了实现这一目标,我们发明了一种创新架构,将GPU与CPU完美结合。
专用的处理器能够将原本耗时的任务加速至令人难以置信的速度。由于这两个处理器能并行工作,它们各自独立且自主运行。这意味着,原本需要100个时间单位才能完成的任务,现在可能仅需1个时间单位即可完成。尽管这种加速效果听起来令人难以置信,但今天,我将通过一系列实例来验证这一说法。 [转载]黄仁勋最新2万字演讲实录:将打破摩尔定律发布新产品,机器人时代已经到来


这种性能提升所带来的好处是惊人的,加速100倍,而功率仅增加约3倍,成本仅上升约50%。我们在PC行业早已实践了这种策略。在PC上添加一个价值500美元的GeForce GPU,就能使其性能大幅提升,同时整体价值也增加至1000美元。在数据中心,我们也采用了同样的方法。一个价值十亿美元的数据中心,在添加了价值5亿美元的GPU后,瞬间转变为一个强大的人工智能工厂。今天,这种变革正在全球范围内发生。
节省的成本同样令人震惊。每投入1美元,你就能获得高达60倍的性能提升。加速100倍,而功率仅增加3倍,成本仅上升1.5倍。节省的费用是实实在在的! [转载]黄仁勋最新2万字演讲实录:将打破摩尔定律发布新产品,机器人时代已经到来


显然,许多公司在云端处理数据上花费了数亿美元。当数据得到加速处理时,节省数亿美元就变得合情合理。为什么会这样呢?原因很简单,我们在通用计算方面经历了长时间的效率瓶颈。
现在,我们终于认识到了这一点,并决定加速。通过采用专用处理器,我们可以重新获得大量之前被忽视的性能提升,从而节省大量金钱和能源。这就是为什么我说,你购买得越多,节省得也越多。
现在,我已经向你们展示了这些数字。虽然它们并非精确到小数点后几位,但这准确地反映了事实。这可以称之为“CEO数学”。CEO数学虽不追求极致的精确,但其背后的逻辑是正确的——你购买的加速计算能力越多,节省的成本也就越多。


350个函式库帮助开拓新市场


加速计算带来的结果确实非凡,但其实现过程并不容易。为什么它能节省这么多钱,但人们却没有更早地采用这种技术呢?原因就在于它的实施难度太大。
没有现成的软件可以简单地通过加速编译器运行,然后应用程序就能瞬间提速100倍。这既不符合逻辑也不现实。如果这么容易,那么CPU厂商早就这样做了。
事实上,要实现加速,软件必须进行全面重写。这是整个过程中最具挑战性的部分。软件需要被重新设计、重新编码,以便将原本在CPU上运行的算法转化为可以在加速器上并行运行的格式。
这项计算机科学研究虽然困难,但我们在过去的20年里已经取得了显著的进展。例如,我们推出了广受欢迎的cuDNN深度学习库,它专门处理神经网络加速。我们还为人工智能物理模拟提供了一个库,适用于流体动力学等需要遵守物理定律的应用。另外,我们还有一个名为Aerial的新库,它利用CUDA加速5G无线电技术,使我们能够像软件定义互联网网络一样,用软件定义和加速电信网络。 [转载]黄仁勋最新2万字演讲实录:将打破摩尔定律发布新产品,机器人时代已经到来


这些加速能力不仅提升了性能,还帮助我们将整个电信行业转化为一种与云计算类似的计算平台。此外,Coolitho计算光刻平台也是一个很好的例子,它极大地提升了芯片制造过程中计算最密集的部分——掩模制作的效率。台积电等公司已经开始使用Coolitho进行生产,不仅显著节省了能源,而且大幅降低了成本。他们的目标是通过加速技术栈,为算法的更进一步发展和制造更深更窄的晶体管所需的庞大计算能力做好准备。
Pair of Bricks是我们引以为傲的基因测序库,它拥有世界领先的基因测序吞吐量。而Co OPT则是一个令人瞩目的组合优化库,能够解决路线规划、优化行程、旅行社问题等复杂难题。人们普遍认为,这些问题需要量子计算机才能解决,但我们却通过加速计算技术,创造了一个运行极快的算法,成功打破了23项世界纪录,至今我们仍保持着每一个主要的世界纪录。
Coup Quantum是我们开发的量子计算机仿真系统。对于想要设计量子计算机或量子算法的研究人员来说,一个可靠的模拟器是必不可少的。在没有实际量子计算机的情况下,英伟达CUDA——我们称之为世界上最快的计算机——成为了他们的首选工具。我们提供了一个模拟器,能够模拟量子计算机的运行,帮助研究人员在量子计算领域取得突破。这个模拟器已经被全球数十万研究人员广泛使用,并被集成到所有领先的量子计算框架中,为世界各地的科学超级计算机中心提供了强大的支持。
此外,我们还推出了数据处理库Kudieff,专门用于加速数据处理过程。数据处理占据了当今云支出的绝大部分,因此加速数据处理对于节省成本至关重要。QDF是我们开发的加速工具,能够显著提升世界上主要数据处理库的性能,如Spark、Pandas、Polar以及NetworkX等图处理数据库。
这些库是生态系统中的关键组成部分,它们使得加速计算得以广泛应用。如果没有我们精心打造的如cuDNN这样的特定领域库,仅凭CUDA,全球深度学习科学家可能无法充分利用其潜力,因为CUDA与TensorFlow、PyTorch等深度学习框架中使用的算法之间存在显著差异。这就像在没有OpenGL的情况下进行计算机图形学设计,或是在没有SQL的情况下进行数据处理一样不切实际。
这些特定领域的库是我们公司的宝藏,我们目前拥有超过350个这样的库。正是这些库让我们在市场中保持开放和领先。今天,我将向你们展示更多令人振奋的例子。
就在上周,谷歌宣布他们已经在云端部署了QDF,并成功加速了Pandas。Pandas是世界上最受欢迎的数据科学库,被全球1000万数据科学家所使用,每月下载量高达1.7亿次。它就像是数据科学家的Excel,是他们处理数据的得力助手。
现在,只需在谷歌的云端数据中心平台Colab上点击一下,你就可以体验到由QDF加速的Pandas带来的强大性能。这种加速效果确实令人惊叹,就像你们刚刚看到的演示一样,它几乎瞬间就完成了数据处理任务。


CUDA实现良性循环


CUDA已经达到了一个人们所称的临界点,但现实情况比这要好。CUDA已经实现一个良性的发展循环。回顾历史和各种计算架构、平台的发展,我们可以发现这样的循环并不常见。以微处理器CPU为例,它已经存在了60年,但其加速计算的方式在这漫长的岁月里并未发生根本性改变。
要创建一个新的计算平台往往面临着“先有鸡还是先有蛋”的困境。没有开发者的支持,平台很难吸引用户;而没有用户的广泛采用,又难以形成庞大的安装基础来吸引开发者。这个困境在过去20年中一直困扰着多个计算平台的发展。
然而,通过持续不断地推出特定领域的库和加速库,我们成功打破了这一困境。如今,我们已在全球拥有500万开发者,他们利用CUDA技术服务于从医疗保健、金融服务到计算机行业、汽车行业等几乎每一个主要行业和科学领域。
随着客户群的不断扩大,OEM和云服务提供商也开始对我们的系统产生兴趣,这进一步推动了更多系统进入市场。这种良性循环为我们创造了巨大的机遇,使我们能够扩大规模,增加研发投入,从而推动更多应用的加速发展。
每一次应用的加速都意味着计算成本的显著降低。正如我之前展示的,100倍的加速可以带来高达97.96%,即接近98%的成本节省。随着我们将计算加速从100倍提升至200倍,再飞跃至1000倍,计算的边际成本持续下降,展现出了令人瞩目的经济效益。
当然,我们相信,通过显著降低计算成本,市场、开发者、科学家和发明家将不断发掘出消耗更多计算资源的新算法。直至某个时刻,一种深刻的变革将悄然发生。当计算的边际成本变得如此低廉时,全新的计算机使用方式将应运而生。
事实上,这种变革正在我们眼前上演。过去十年间,我们利用特定算法将计算的边际成本降低了惊人的100万倍。如今,利用互联网上的所有数据来训练大语言模型已成为一种合乎逻辑且理所当然的选择,不再受到任何质疑。
这个想法——打造一台能够处理海量数据以自我编程的计算机——正是人工智能崛起的基石。人工智能的崛起之所以成为可能,完全是因为我们坚信,如果我们让计算变得越来越便宜,总会有人找到巨大的用途。如今,CUDA的成功已经证明了这一良性循环的可行性。
随着安装基础的持续扩大和计算成本的持续降低,越来越多的开发者得以发挥他们的创新潜能,提出更多的想法和解决方案。这种创新力推动了市场需求的激增。现在我们正站在一个重大转折点上。然而,在我进一步展示之前,我想强调的是,如果不是CUDA和现代人工智能技术——尤其是生成式人工智能的突破,以下我所要展示的内容将无法实现。
这就是“地球2号”项目——一个雄心勃勃的设想,旨在创建地球的数字孪生体。我们将模拟整个地球的运行,以预测其未来变化。通过这样的模拟,我们可以更好地预防灾难,更深入地理解气候变化的影响,从而让我们能够更好地适应这些变化,甚至现在就开始改变我们的行为和习惯。
“地球2号”项目可能是世界上最具挑战性、最雄心勃勃的项目之一。我们每年都在这个领域取得显著的进步,而今年的成果尤为突出。现在,请允许我为大家展示这些令人振奋的进展。
在不远的将来,我们将拥有持续的天气预报能力,覆盖地球上的每一平方公里。你将始终了解气候将如何变化,这种预测将不断运行,因为我们训练了人工智能,而人工智能所需的能量又极为有限。这将是一个令人难以置信的成就。我希望你们会喜欢它,而更加重要的是,这一预测实际上是由Jensen AI做出的,而非我本人。我设计了它,但最终的预测由Jensen AI来呈现。
由于我们致力于不断提高性能并降低成本,研究人员在2012年发现了CUDA,那是英伟达与人工智能的首次接触。那一天对我们而言至关重要,因为我们做出了明智的选择,与科学家们紧密合作,使深度学习成为可能。AlexNet的出现实现了计算机视觉的巨大突破。


AI超算的崛起,起初并不被认同


但更为重要的智慧在于我们退后一步,深入理解了深度学习的本质。它的基础是什么?它的长期影响是什么?它的潜力是什么?我们意识到,这项技术拥有巨大的潜力,能够继续扩展几十年前发明和发现的算法,结合更多的数据、更大的网络和至关重要的计算资源,深度学习突然间能够实现人类算法无法企及的任务。
现在,想象一下,如果我们进一步扩大架构,拥有更大的网络、更多的数据和计算资源,将会发生什么?因此,我们致力于重新发明一切。自2012年以来,我们改变了GPU的架构,增加了张量核心,发明了NV-Link,推出了cuDNN、TensorRT、Nickel,还收购了Mellanox,推出了Triton推理服务器。
这些技术集成在一台全新的计算机上,它超越了当时所有人的想象。没有人预料到,没有人提出这样的需求,甚至没有人理解它的全部潜力。事实上,我自己也不确定是否会有人会想买它。
但在GTC大会上,我们正式发布了这项技术。旧金山一家名叫OpenAI的初创公司迅速注意到了我们的成果,并请求我们提供一台设备。我亲自为OpenAI送去了世界上首台人工智能超级计算机DGX。
2016年,我们持续扩大研发规模。从单一的人工智能超级计算机,单一的人工智能应用,扩大到在2017年推出了更为庞大且强大的超级计算机。随着技术的不断进步,世界见证了Transformer的崛起。这一模型的出现,使我们能够处理海量的数据,并识别和学习在长时间跨度内连续的模式。
如今,我们有能力训练这些大语言模型,以实现自然语言理解方面的重大突破。但我们并未止步于此,我们继续前行,构建了更大的模型。到了2022年11月,在极为强大的人工智能超级计算机上,我们使用数万颗英伟达GPU进行训练。
仅仅5天后,OpenAI宣布ChatGPT已拥有100万用户。这一惊人的增长速度,在短短两个月内攀升至1亿用户,创造了应用历史上最快的增长记录。其原因十分简单——ChatGPT的使用体验便捷而神奇。
用户能够与计算机进行自然、流畅的互动,仿佛与真人交流一般。无需繁琐的指令或明确的描述,ChatGPT便能理解用户的意图和需求。
ChatGPT的出现标志着一个划时代的变革,这张幻灯片恰恰捕捉到了这一关键转折。请允许我为大家展示下。 [转载]黄仁勋最新2万字演讲实录:将打破摩尔定律发布新产品,机器人时代已经到来


直至ChatGPT的问世,它才真正向世界揭示了生成式人工智能的无限潜能。长久以来,人工智能的焦点主要集中在感知领域,如自然语言理解、计算机视觉和语音识别,这些技术致力于模拟人类的感知能力。但ChatGPT带来了质的飞跃,它不仅仅局限于感知,而是首次展现了生成式人工智能的力量。
它会逐个生成Token,这些Token可以是单词、图像、图表、表格,甚至是歌曲、文字、语音和视频。Token可以代表任何具有明确意义的事物,无论是化学物质、蛋白质、基因,还是之前我们提到的天气模式。
这种生成式人工智能的崛起意味着,我们可以学习并模拟物理现象,让人工智能模型理解并生成物理世界的各种现象。我们不再局限于缩小范围进行过滤,而是通过生成的方式探索无限可能。
如今,我们几乎可以为任何有价值的事物生成Token,无论是汽车的转向盘控制、机械臂的关节运动,还是我们目前能够学习的任何知识。因此,我们所处的已不仅仅是一个人工智能时代,而是一个生成式人工智能引领的新纪元。
更重要的是,这台最初作为超级计算机出现的设备,如今已经演化为一个高效运转的人工智能数据中心。它不断地产出,不仅生成Token,更是一个创造价值的人工智能工厂。这个人工智能工厂正在生成、创造和生产具有巨大市场潜力的新商品。
正如19世纪末尼古拉·特斯拉(Nikola Tesla)发明了交流发电机,为我们带来了源源不断的电子,英伟达的人工智能生成器也正在源源不断地产生具有无限可能性的Token。这两者都有巨大的市场机会,有望在每个行业掀起变革。这确实是一场新的工业革命!
我们现在迎来了一个全新的工厂,能够为各行各业生产出前所未有的、极具价值的新商品。这一方法不仅极具可扩展性,而且完全可重复。请注意,目前,每天都在不断涌现出各种各样的人工智能模型,尤其是生成式人工智能模型。如今,每个行业都竞相参与其中,这是前所未有的盛况。
价值3万亿美元的IT行业,即将催生出能够直接服务于100万亿美元产业的创新成果。它不再仅仅是信息存储或数据处理的工具,而是每个行业生成智能的引擎。这将成为一种新型的制造业,但它并非传统的计算机制造业,而是利用计算机进行制造的全新模式。这样的变革以前从未发生过,这确实是一件令人瞩目的非凡之事。

我的更多文章

下载客户端阅读体验更佳

APP专享