民警在山口前沿进行实地巡逻踏查。孟伟健 摄

与之相伴的是CUDA的不断更新,今年初,全新的AI加速库CUDA X AI SDK正式发布,可以用于数据分析、机器学习、深度学习等多个领域的加速,更好地释放 Tensor Core GPU 的灵活性。如今,CUDA已经发布了500多个库。

“建医院的时候整个人处于紧绷亢奋的状态,根本停不下来。”梁少智告诉记者,现在更多的是把这种激情藏在心底,让它在自己的本职工作中去燃烧。

随着CUDA的迭代,CUDA团队开发了石油、天然气和国防等相关产业所使用的科学计算方面的库。开发者们也逐渐把GPU应用于气候建模、勘探石油和天然气等很多领域。

自1月27日起改建,经过数千名建设者、数百台机械昼夜奋战,历时10天。因此,郑州岐伯山医院的建设亦被媒体称为“十日奇迹”。

作为最早一批到达医院建设现场的人员,任务艰巨繁重,梁少智需要立刻投入工作。

这个重大的决策和CUDA成功背后,还有一个关键人物——现英伟达GPU 计算软件总经理的Ian Buck。他在加入英伟达之前就通过实验证实GPU用于通用计算的潜力巨大,2004年进入英伟达实习后,Ian Buck开始聚集相关的硬件和软件工程师创建GPGPU模型。

当然,为了让新注册的开发者更快上手CUDA,除了提供文档,英伟达深度学习学院(DLI)也提供实战培训,帮助开发者了解如何开发、应用甚至部署。还有英伟达的校园大使项目,目前以及与国内23个高校合作,让高校老师能开设DLI课程,补充理论课程。

新“核弹”来了,英伟达推出7倍算力自动驾驶芯片,与BAT滴滴一起强调量产 | GTC 2019

在与记者的交谈中,梁少智多次强调这类突击式建设中的技术就是自己未来几年的研究方向。“无论是装配式建筑,还是数字化BIM技术,都是支撑让世界看见中国速度的根本。”

他同时指出,进入到新的领域,营销可能需要更多的支出。但英伟达使用的是统一的平台,进入新领域的时候并不需要像其它公司一样开发新的架构和软件,不会大幅增加研发成本。比如开发自动驾驶的软件和开发机器人的软件差别没那么大,它们都有感知环境、设定路径、模拟周围物体移动的相同之处。

还有一家公司走的是定制化和本地服务的路线,通过与有强AI需求的公司合作,提供性价比更高的定制化解决方案,同时提供更加本地化的服务,以期获得一些市场份额。

在这种吸引力下,特别是伴随深度学习的火热,英伟达的开发者生态日渐壮大,过去三、四年开发者数量增长尤为快速。2019年,全球已经有超过160万CUDA开发者。中国CUDA开发者数量最为众多,数量也增长最快,数量已经超过了30万,并且还在以每个月新增1万人的数量增长。仅今年,CUDA的下载次数就超过了500万次。

13年前就“注定”成为AI明星

2016年,英伟达投入数十亿美元动用数千工程师打造的第一个专为深度学习优化的Pascal GPU推出。2017年,又推出了性能比Pascal提升5倍的Volta架构,神经网络推理加速器TensorRT 3也同时亮相。

由于积雪较厚,民警牵马巡逻。孟伟健 摄

至于未来是否会进一步开放甚至开源CUDA,Greg Estes告诉雷锋网,现在整个开发者社区做出了各种贡献,CUDA周边也有很多开源软件和代码,对于CUDA的进一步开放英伟达并不反对。

还有一点不容忽视的是,GTC China 2019上英伟达展示了GPU相比CPU在云端AI推理中的成本以及性能优势,即便黄仁勋表示这并不是要用GPU替代CPU,但在云端训练市场需求放缓,推理市场迅速增长的背景下,英伟达和英特尔将在云端AI推理市场激烈的竞争难以避免。

雷锋网原创文章,。详情见转载须知。

为了让英伟达拓展新的市场领域,多年来黄仁勋一直都会事先做好风险预估工作。十多年前,黄仁勋下了一次关键性的赌注,押注一系列的改动和软件开发,让GPU能够处理图像以外更为复杂的任务。

26日到达现场后,仅仅半天的时间,梁少智已经和同事完成了前期的测量绘图工作,并对接设计院进行前期的场地规划和初步设计,还组织机械进场。当日下午,27台机械进场施工,当晚即完成接诊区旧房拆除清运工作。

“郑州拟修建‘小汤山’医院,有能到郑州的请回话。”1月25日晚上,梁少智看到工作群里的这条信息后,没有犹豫,直接报名参加了。26日一早,梁少智简单收拾一下行李,就出门前往建设工地。

“我们也将不断探索,开拓一些现在还没人愿意关注的市场。这需要勇气,也非常困难,但英伟达的基因让我们非常享受各种挑战。” Greg Estes如此解释构建更强大开发者生态的挑战。

1993年成立不久后,英伟达就面临激烈的显卡市场竞争,幸运的是,它从47家显卡生产商的竞争中胜出,并于1999年在美国上市。带领英伟达走向成功的关键人物之一就是其创始人兼CEO黄仁勋,人称黄教主。

除了特别多技术方面的感触以外,梁少智更关心的还是当下的疫情。“宁可建而不用,不可用而不备。备而不用就是我们当时的初衷,值得欣慰的是后来入住岐伯山医院的病人确实不多。”(完)

“一家三口奔赴抗疫一线”,梁少智一家的事迹在当地被广泛传颂。

不久后,英伟达对其芯片作出改动,开发出软件辅助工具,包括支持标准的编程语言,而非用于向图形芯片发出指令的神秘工具。在Ian Buck的率领下,2006年CUDA正式推出,这是全球首款GPU的通用计算解决方案。

由此,深度神经网络引发了第三次AI浪潮,英伟达也一步步成为了“AI明星”。

但也并非没有可能,有一家初创公司的思路是在软件层面完美兼容CUDA,通过提供性价比更高的硬件,能够替代英伟达GPU。但由于CUDA并非完全开放,且在持续迭代,要完美兼容CUDA面临挑战,能否在兼容的同时完成新生态的建设影响成败。

梁少智告诉记者,当时父母得知他的决定后,十分支持。“他们还鼓励我说算是一家人齐心协力抗击疫情了。”

“虽然已经有段时间了,但那10天的每一个场景,甚至现场那么多坚毅的眼神,都不停在脑海闪现。”梁少智在向记者回忆当时场景时,也显得平静了许多。

此举给英伟达带来了不小的成本压力。黄仁勋估计,名为CUDA(Compute Unified Device Architecture,统一计算架构)的项目每年需要花费5亿美元,当时英伟达的总营收约为30亿美元。

更多的开发者让CUDA软件堆栈不断完善,也让英伟达可开发不同的全套解决方案应用到各个垂直行业,这也是英伟达成功的关键。要探索更多的领域,英伟达需要进一步开放CUDA,在支持x86的基础上,英伟达今年6月宣布将在年底前向Arm生态系统提供全堆栈的AI和HPC软件。

英伟达开发者计划副总裁Greg Estes说,“之所以英伟达在AI时代比其它公司跑的更快一些,主要的原因是十多年前做出的战略性决定——将CUDA开放给各个行业。任何一个英伟达GPU都可以使用相同的软件堆栈。”

“我们这边没事,你自己要多注意点,每天做好防护。”疫情发生后,梁少智的父母一直坚守在岗位,每天面对病患,风险相对较大,但得知梁少智赴一线参建定点救治医院,更多的还是安慰梁少智。

英伟达与华大基因合作,使用 CUDA 进行全基因组测序

民警骑马巡逻及时、准确掌握边境辖区动态。孟伟健 摄

这是否会改变市场格局?雷锋网雷锋网(公众号:雷锋网)

这是英伟达在AI时代率先被广泛应用的重要原因,也是其在未来竞争中核心竞争力。26年的硬件能力积累,13年前开始的统一平台软件布局,160万的开发者生态,不断探索新领域的商业模式,这样的一个系统公司怎么看都难以超越。

另外,英伟达还用迁移学习、联邦学习等方式帮助开发者更快地将AI技术应用于自动驾驶、医疗等行业。

这才有了大家都熟悉的2012年Alex Krizhevsky用英伟达GPU运行AlexNet卷积神经网络算法在2012年ImageNet竞赛中获得第一,图像识别的错误率大大降低。

AI的光环下,英伟达的股价比GPU性能的提升更加迅速,2016年每股30美元左右, 到2018年最高涨至每股280美元,创下历史新高。

这两种方法都有成功的机会,但实际应用和发展的过程中每一步都充满挑战且非常关键。

2018年,黄仁勋口中自2006年CUDA GPU发明以来最大的飞跃图灵(Turing)架构发布,这一新架构承载了RT核心(RT Core)以及全新张量核心(Tensor Core),RT Core使全球首款光线追踪GPU成为可能,Tensor Core能实现高性能的深度学习训练和推理。

连日来,新疆哈密市伊吾县普降大雪,气温降至-27℃左右,部分道路积雪厚度达到1米左右。新疆出入境边防检查总站哈密边境管理支队前山边境派出所组织民警,以马巡的方式在边境辖区山口前沿进行实地巡逻踏查,及时、准确掌握边境辖区动态,确保边境辖区安全稳定。(孟伟健 张辉)

这意味着,英伟达生态系统中的合作伙伴都能接触到一个巨大的市场,无论是做AI、游戏还是数据中心、边缘计算。

民警牵马在雪中费力前行。孟伟健 摄

CUDA工具包包括了GPU加速库、编译器、开发工具。为了便于使用,英伟达让使用CUDA的开发人员可以使用熟悉的C、C ++、Fortran、Python、MATLAB等流行语言设计程序,以几个基本关键字的形式通过扩展表达并行性,就能用GPU实现加速计算。

同样关键的是,CUDA发布之后,英伟达所有新推出的GPU都支持CUDA。这就意味着只要研究人员、学生拥有搭载英伟达GPU的笔记本电脑或者台式机,就能在学校实验室和宿舍开发软件。再加上英伟达说服了许多大学开设课程,教学生用其最新的技术。

当时仅10天的建设工期,决定着所有的工作进度节点都是按照小时计算的。梁少智回忆说:“节奏和平时相比,是加倍再加倍还要加倍……”

为了中国开发者,DLI将很多课程转换为中文,还在中国新开了10个基础的DLI课程。

梁少智介绍,母亲在郑州一家三甲医院领着一些护工照顾病人,父亲则在这家医院的门诊大厅疏导病人。

不过,相比硬件的加速,软件带来的提升更加显著。黄仁勋称,在不改变硬件的前提下,通过软件和库的完善,过去2年英伟达将计算性能提升4倍,AI推理性能可以提升2倍,所需的开发时间也可以几周缩短为几天,从几天缩短为几小时。

即便是新推出的硬件平台Orin,也十分强调其软件定义特性,尽可能延长硬件的生命周期以及发挥软件的优势。

会话式AI涉及语音识别和转化为文字、理解文字、再转化为文字用语音反馈三个部分,此前的TensorRT版本能完成理解的部分,TensorRT7可以完成三个流程,并且是在300毫秒内。

民警在巡逻过程中了解牧民生活情况。孟伟健 摄

“作为技术人员,参与突击建设救援医院的这类装配式建筑,更多的感悟是要深入了解学习这类技术,运用在更多的项目中。”梁少智说,这次只是建一座单层医院,技术成熟以后或许会快速地架起一座桥、建起一座楼、一个工厂。

促使梁少智做出这个决定的原因,除了党员身份以外,还有父母的影响。他告诉记者,父母都在医院上班,春节也没有休息,一直在参与疫情防控方面的工作。

梁少智所属的中建七局安装工程有限公司,主要负责二工区隔离病房、门诊观察区建设,及院区所有水电、管线和道路、绿化施工。

英伟达承诺第8代图灵架构GPU模拟物理世界的能力将比Pascal架构提升6倍,实时光线追踪能力比Pascal架构提升25倍。

所有GPU,从云端到终端不同的硬件平台,都支持统一的CUDA软件平台,让英伟上百万的开发者可以基于GPU在各个领域进行计算加速。这促进了CUDA软件堆栈的完善,也让英伟达能够针对不同的领域推出完整的解决方案。

“爸爸妈妈一直奋斗在疫情防控一线,他们是我的榜样,我也想尽己所能做点什么。”梁少智如是说。

医院建设期间,每天的大部分时间,梁少智都待在工地上,和劳务工人一起吃饭,一起干活。“我的工作虽然不像父母一样,直接面对病患,与疫情作斗争,但同样是在和时间抢生命。”梁少智感慨道。

Close