新浪博客

【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI 推理加速器TensorRT 3(PPT实录)

2017-09-26 15:38阅读:

【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI 推理加速器TensorRT 3(PPT实录)

原创 2017-09-26 新智元 新智元 新智元 新智元 AI_era
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。





【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)


1新智元报道
【新智元导读】GTC CHINA上,黄仁勋展示了英伟达强大的生态系统建构能力,在围绕GPU为中心的计算生态中:BAT已在云服务中使用GPU,华为、浪潮和联想也都使用GPU服务器,此外还有海康威视、科大讯飞和京东也都在积极使用GPU产品。GPU的计算帝国已然呈现。另外,黄仁勋在北京现场重磅发布了可编程的AI 推理加速器TensorRT 3,从功能上看与TPU有众多相似之处。演讲中,黄仁勋特别提到了自动驾驶和自主机器,这将是英伟达接下来发力的重点。
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

2017年9月26日,北京,英伟达GPU技术峰会GTC CHINA 开幕。英伟达创始人兼CEO黄仁勋发表主旨演讲。
生态:GPU帝国,BAT、华为浪潮联想,1900家创业公司统统包括

“Welcome Beijing!”黄仁勋挥着手激动上台,然后直奔主题。
首先,黄仁勋讲了两股力量推动计算领域发生改变。第一次是摩尔定律的结束,加快、加深管道,让CPU设计者在片上放下越来越多的晶体管。但是,现在这样做越来越来。45%,CPU性能却只以10%的速度增长。
另一方面,新的计算模型,也即深度学习,以暴风般的速度和大数据一起席卷而来。
深度学习研究者发现了GPU的力量,
一方面发现新的计算模型,持续提升性能。每一代都能够将更多晶体管的数量转换为计算力。让有一个月的计算缩减为一天。
GPU的崛起,单从GTC的参会人数就能看出来。在短短5年间,GTC的参会人数就堪比大型会议,今年有22,000人参会。
黄仁勋在演讲中提到,摩尔定律已经是昨天的定律,是一种缓慢的定律,我们现在处于超级摩尔定律时代。
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

在展示了GPU的独特性能和为深度学习而生的历史使命之后,黄仁勋展示了英伟达更加强大的一面——生态系统。围绕着英伟达而生的GPU帝国似乎已经成型,他在现场宣布,中的阿里巴巴、百度和腾讯都已经在云服务中使用GPU,另外华为、浪潮和联想也都采用GPU服务器。
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

另外,他还介绍了面向全球开发人员的NVIDIA.AI。英伟达将会全力推进“统一架构” CUDA GPU计算。通过Inception计划,支持1900家初创企业。
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

从CUDA开始,英伟达其实一直做得最出色的便是打造生态系统的能力,在GPU性能不断受到关注的今天,有人指出,英伟达的技术也许不是最强的,但是他们打造生态系统的能力和决心绝对不容忽视。未来,GPU帝国终会成型。
关于英伟达在中国打造的计算新纪元,下面这张图是很好的说明:
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

最重磅发布:NVIDIA TENSORRT 3,应对TPU 在本次大会上,黄仁勋发布了本次发布会英伟达最重要的一个产品NVIDIA TENSORRT3——中是一款可编程的AI 推理加速器。支持所有的框架,比如Caffe,Pytorch和TensorFlow。
正是因为具备相对良好的编程环境,GPU成为目前最主流的深度学习硬件。英伟达公司发布的CUDA运算平台,是专门针对开发者提供的一种并行计算平台。开发者能通过CUDA平台使用软件语言很方便得开发英伟达GPU实现运算加速。由于CUDA平台之前被广泛认可和普及,积累了良好的编程环境,目前应用在人工智能领域、可进行通用计算的GPU市场基本被英伟达垄断。
现在,英伟达推出加速推理的TensorRT 3,可编程,支持所有框架,所有机器,可以想见,又会扩大另一大片市场。
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

从黄仁勋现场的介绍来看,TensorRT 3主要的功能是推理和加速,这与谷歌的TPU功能类似。
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

黄仁勋在现场说,神经网络的响应时间或处理延时会对服务质量造成直接影响。运行在V100上的TensorRT在处理头像时刻实现7ms的延时,在处理语音时延时报道200ms,这是标准云服务的理想目标。单靠CPU是无法实现的。上图,蓝色是CPU运行TensorFlow。
接下来黄仁勋介绍了AI 推理在数据中心的应用,最主要的是是降低成本,在这里依然是与CPU直接作比较,他说,V100相较CPU加速了40倍。
提到省钱,黄仁勋说:“你买越多的GPU,你节省的钱就越多。”
原来,4个机架,160CPU,65KW
现在,1个机架就行了,节省50万美元
黄仁勋来来回回将4个机架和1个机架的图像进行对比,他说自己可以玩上一整天。“更少的空间,更少的碳足迹,节省更多钱!”
How exciting is that!
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

Demo 图像处理和声音处理


【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

为了展示TensorTR 3的性能,台上做了挺多展示。其中有《权力的游戏》的展示,用语音搜索“冬天来了”,首先转换成文字,然后直接跳到那一帧。语音到文字的转换,庞大的视频数据,几乎没有延迟,达到可以商用的程度。
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

黄仁勋说,有了TensorTR 3,将来我们不需要庞大的数据中心,更多样的应用,“节省更多的钱”!
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

然后他宣布,中国AI五巨头——阿里巴巴、腾讯、百度、京东、讯飞,都已经采用了英伟达的推理平台。
【黄仁勋北京演讲】GPU帝国启幕,发布可编程AI <wbr>推理加速器TensorRT <wbr>3(PPT实录)

我的更多文章

下载客户端阅读体验更佳

APP专享