训练ResNet-50模型速度超NVIDIA DGX A100 Graphcore的IPU还有哪些隐藏实力?-数码-万事网 
知识
新闻网
百科网
数码网
汽车网
宠物网
植物网
英语网
财经网
联系我们
SITEMAP
万事数码网

训练ResNet-50模型速度超NVIDIA DGX A100 Graphcore的IPU还有哪些隐藏实力?

2024-05-03 发布

12月21日消息,近期,AI基准测试MLPerf公布了最新一期的训练测试榜单,成为行业内关注的焦点。

IPU提供商Graphcore此次向MLPerf提交了IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256四种系统配置进行训练测试,并获得最新测试结果。在ResNet-50模型、自然语言处理模型BERT的训练性能方面均有大幅提升。ResNet-50模型训练性能甚至超越NVIDIADGXA100。

Graphcore专注于适用AI的IPU研发,旗下拥有IPU硬件和Poplar软件两项主要业务,通过输出软硬一体解决方案来服务机器智能需求。企查查信息显示,Graphcore自2016年成立以来已获得超过7.1亿美元投资。

和自己比:ResNet-50模型训练性能提升24%BERT模型训练性能提升5%

Graphcore提交给MLPerf的IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256系统均由不同数量的IPU-M2000、双CPU服务器构成。

IPU-POD16就是由4个1U的IPU-M2000构成,配有一台双CPU服务器,可提供4petaFLOPS的AI算力。

其中,IPU-M2000是一款即插即用的机器智能刀片式计算单元,由Graphcore的7纳米Colossus第二代GC200IPU提供动力,并由Poplar软件栈提供支持。

今年7月,Graphcore曾首次向MLPerf提交了IPU-POD16、IPU-POD64的训练测试。这次Graphcore同样有提交IPU-POD16、IPU-POD64进行测试,这两项在硬件方面并未有变化。

最新测试结果显示,与首次提交的MLPerf训练结果相比,对于ResNet-50模型,Graphcore这次在IPU-POD16上实现24%的性能提升,在IPU-POD64上实现了41%的性能提升;对于模型BERT来说,在IPU-POD16上实现了5%的性能提升,在IPU-POD64上实现了12%的性能提升。

Graphcore大中华区总裁兼全球首席营收官卢涛表示,这些性能提升是自Graphcore首次提交以来仅通过软件优化就实现的。MLPerf测试结果表明Graphcore的IPU系统更加强大、高效,软件也更成熟。

Graphcore大中华区总裁兼全球首席营收官卢涛

和同行比:ResNet-50模型训练IPU-POD16性能超NVIDIADGXA100

最新的MLPerf测试结果还对比了Graphcore与NVIDIA的产品性能。

通常而言,ResNet-50模型主要用于计算机视觉领域,NVIDIAGPU在ResNet-50模型上的测试结果长期处于领先地位。

不过,最新的MLPerf测试结果显示Graphcore的IPU-POD16在ResNet-50模型训练方面的表现优于NVIDIA的DGXA100。在DGXA100上训练ResNet-50需要29.1分钟,而IPU-POD16仅耗时28.3分钟。

DGXA100是NVIDIA去年5月发布的旗舰产品,DGXA100使用两颗AMD霄龙7742处理器,主打适用于所有AI工作负载。

对于Graphcore产品在ResNet-50模型测试上取得的成绩,卢涛表示:ResNet是一个2016年的模型,已经在GPU上优化了5年。我们通过两次的MLPerf测试,就能够在这个GPU最主流的模型上超过GPU,这是非常自豪的一件事。而且我们后面还有进一步的提升空间。

值得注意的是,Graphcore这一次MLPerf测试跟上一次相比最大的不同是首次提交了IPU-POD128和IPU-POD256大规模系统集群的测试。IPU-POD128和IPU-POD256也取得了很好的成绩。

从ResNet-50模型在不同机器集群上的训练性能来看,在IPU-POD16上的训练时间是28.33分钟,随着系统的增大,训练时间逐次递减。在IPU-POD64上,只需要8.5分钟;在IPU-POD128上训练的时间为5.67分钟;在IPU-POD256上,为3.79分钟。

对于NLP模型BERT,Graphcore在开放和封闭类别分别提交了IPU-POD16、IPU-POD64和IPU-POD128的结果,在新的IPU-POD128上的训练时间为5.78分钟。

谈及此次Graphcore提交系统测试性能整体都有提升的原因,卢涛向TechWeb表示,这一次提交了大规模集群,其背后是GCL通信库的基本完备,能够支撑搭建集群,这是Graphcore在产品和技术上迈进的重要一步。同时在产品细节上Graphcore团队也做了很多优化,如编译器优化、框架层面优化、算法模型优化、还有IPU跟CPU之间的通信优化等等。

卢涛介绍,在MLPerf原始数据中,每家制造商系统相关的主机CPU数量都十分惊人,而Graphcore的主机CPU与IPU的比率始终是最低的。以BERT-Large模型为例,IPU-POD64只需要一个双CPU的主机服务器。ResNet-50需要更多的主机处理器来支持图像预处理,Graphcore为每个IPU-POD64指定了四个双核服务器。1比8的比例仍然低于其他所有MLPerf参与者。能实现主机CPU与IPU的低比率是因为Graphcore的IPU仅使用主机服务器进行数据移动,无需主机服务器在运行时分派代码。因此,IPU系统需要的主机服务器更少,从而实现了更灵活、更高效的横向扩展系统。

在GPT2、ViT、EfficientNet等新模型上表现如何?

如果说ResNet-50、BERT等都是到2019年为止比较主流的模型。那么,近2年陆续涌现的GPT2、EfficientNet、ViT等新模型也越来越受到行业关注,比如,在AI领域,ViT已经成为学界和工业界用Transformer来做计算机视觉的一个比较典型的算法模型。

尽管没有在MLPerf中测试,Graphcore中国工程总负责人、AI算法科学家金琛展示了Graphcore产品在GPT2、EfficientNet、ViT等新模型中表现。

以EfficientNet-B4为例,在IPU-POD16上的训练需要20.7个小时,IPU-POD256则只需要1.8个小时,性能远优于DGXA100官方提供的数据。

Graphcore中国工程总负责人、AI算法科学家金琛

据介绍,目前Graphcore产品已经在金融、保险、天气预测、科学计算等领域落地,卢涛称,在金融领域案例中,IPU能够比GPU快10倍。在保险算法模型方面的案例中,IPU的应用比GPU快5倍。天气预测方面,在欧洲中期天气预报中心的模型上,IPU比CPU快50倍、比GPU快5倍。

近期,国内百度深度学习平台飞桨发布了在GraphcoreIPU上实现训练和推理全流程支持的开源代码库,百度飞桨的开发者可以在IPU上进行AI模型加速。国内的开发者小伙伴们不妨试试看IPU的加速效果。


TAG:知识 | 数码 | AI | Graphcore | 深度学习
文章链接:https://www.96ws.com/keji/47381.html
免责声明:内容均来源自互联网,不得分享与下载,不得用于任何商业行为,内容仅供参考,内容不能作为任何依据,本站不为此内容做任何负责,如果内容和图片涉及侵权或者错误请及时联系本站,我们将在第一时间做出修改或者删除
旅游
使用 AI、ML 和数据融合调查未来的安
人工智能(AI)和机器学习(ML)技术的出现为安全组织带来了变革。随着他们的到来,组织不再局限于
2022年10大人工智能 (AI) 软件
在技术生态系统快速增长的众多驱动力中,人工智能(AI)及其子领域处于最前沿。Gartner将AI
马斯克称5年后AI会比人类更聪明 看好中
美国当地时间本周三,特斯拉CEO埃隆·马斯克(ElonMusk)在推特直播活动中称,比人类更聪明
苹果高端耳机 AirPods Studi
预计在 WWDC 2020 上正式发布。近日,苹果分析师 Ming-Cuo 称,苹果计划在今年晚
昇腾AI开发者创享日南京站举办:江北科投
网·人工智能8月6日今天,以“创未来,享非凡”为主题的2022昇腾AI开发者创享日南京站成功举办
知识本站内容和图片均来自互联网,仅供读者参考,请勿转载与分享,如有内容和图片有误或者涉及侵权请及时联系本站处理。
金融财经百科宠物英语花卉植物汽车数码资讯美容健康教育旅游 潮流