欢迎访问金沙澳门手机版网址公司网站!


通讯产品

MENU

通讯产品

解决3大关键技术挑战

点击: 79 次  来源:http://www.bottlebabble.com 时间:2020-02-07

图片 1

12月2日,在加拿大举行的第32届NIPS神经信息处理系统大会上,百度正式发布自主研发的超级AI计算平台X-MAN3.0。该平台专为AI深度学习场景优化设计,每秒完成2000万亿次深度神经网络计算,极大的加快了AI深度学习模型的训练速度。

NIPS作为机器学习和神经计算领域的顶级会议,吸引了机器学习、人工智能、统计等领域的众多国际专家参与。近年来,在计算机视觉、语音识别、自然语言处理等领域也出现了大量的创新应用,NIPS在AI深度学习领域的学术影响力变得举足轻重。

算法、数据和计算是推动AI深度学习技术快速发展的三大要素。为支持更强的泛化能力,更高的预测精度,算法模型日趋复杂,越来越多的数据需要被及时标注和处理,计算性能成为关键。百度X-MAN超级AI计算平台提供极致的计算性能,支持超大复杂算法模型,能够快速及时处理海量数据。自2016年诞生以来,百度X-MAN超级AI计算平台历经3代发展,3次架构升级,创造6项业界第一,同时期关键技术性能保持领先,引领行业发展趋势。目前,X-MAN系列产品已在百度大规模应用,正在助力百度AI战略快速落地。

两级交换,GPU资源统一池化

浪潮是百度在数据中心领域最重要的战略伙伴,一直与百度联合研发包括X-MAN3.0在内的各类AI专用计算平台。X-MAN是百度用于超大规模AI训练的专用平台,第一代产品发布于2016年,每年更新一代,此次发布的是第三代。

X-MAN3.0高度为8U,由两个高度分别为4U的独立AI模组组成,每个模组可支持8颗最新的NVDIA V100,两个AI模组之间通过高速互联背板连接。GPU之间通过NVlink Switch链路通信,全局单向通信总带宽为2400GB/秒。

同时,X-MAN 3.0专门设计了两级AI加速芯片互联交换体系,CPU与GPU之间的逻辑关系可以通过软件定义的方式任意指定,更为灵活的支持不同负载的AI应用,避免系统瓶颈。这是X-MAN3.0与业界其他产品的区别之处。

专为深度神经网络优化的超强AI计算平台

现在AI训练对于计算平台的挑战越来越大,为了提高AI模型的精准度,训练数据集规模平均增长了300倍以上,Google Open Image在2017年末就已经达到了900万标记图片,模型规模高速膨胀,一些互联网公司的AI模型已经达到千亿参数的规模。

这不仅需要用户部署更大规模的GPU计算平台,而且需要部署具有更大纵向扩展能力的GPU计算平台,因为后者能够解决日益严峻的GPU之间的通信瓶颈。以AI模型常用的三维快速傅里叶变换算法为例,这种算法在GPU并行环境,每三次运算就需要一次全局性通信,对于GPU间的交互带宽高度依赖。

X-MAN3.0是目前扩展GPU数量最多的计算平台之一,而且采用了NVlink Switch技术,可以很好地缓解通信瓶颈问题,可以为互联网公司的超大规模AI训练带来超出预期的应用价值。

当前AI训练芯片领域竞争激烈,众多方案将在19年相继落地应用。X-MAN3.0整体采用模块化设计,能够快速、高效的支持各种AI训练芯片,这为百度快速引入更有竞争力的AI训练芯片方案奠定了关键技术基础。

X-MAN解决的3大关键技术挑战

为提供更强的计算性能和最佳的计算效率,X-MAN在系统设计中面临了三大关键技术的挑战:如何有效提升单机计算性能、如何实现多机加速的高可扩展性以及如何均衡CPU与AI加速芯片的配比关系,以避免系统瓶颈。

在有限的单机空间内,集成更多数量、性能更强、互联带宽更高的AI加速卡,是提升单机计算性能的直接手段,但带来了高速互联、结构、散热、供电等硬件技术难题;单机训练方式难以满足超大规模数据集和复杂的模型场景下的计算力需求,大规模分布式训练成为必然,解决多机加速的可扩展性就成了关键技术难题;深度学习模型的负载差异较大,CPU密集型,计算密集型,通信密集型,存在着多种需求场景,为了避免系统性能瓶颈、充分发挥计算效率,如何快速灵活的调整CPU和AI计算芯片的配比并支持独立迭代升级成了关键的技术难题。

X-MAN的3次架构升级和9大技术特征

自2016年首次发布以来,X-MAN的三代产品各自都有着鲜明的设计理念:超高的计算密度、高效散热、兼容多元化AI加速芯片。X-MAN通过3次架构升级,有效攻克了3大技术挑战。

X-MAN1.0发布于2016年Q2,单机可以支持16个AI加速卡,最高扩展到64,实现了超高的计算密度。X-MAN1.0具备4大技术特征:硬件解耦、资源池化、PCIe Fabric技术、100G RDMA高速互联。

X-MAN2.0发布于2017年Q3,通过冷板式液冷散热技术实现了超高的散热效率。和业界主流方案一样,X-MAN2.0可以支持8卡NVLink高速互联,差异化方面,X-MAN2.0具备2大技术特征:液冷散热和灵活的IO支持。

随着AI人工智能技术的快速发展,众多AI芯片公司应运而生,AI芯片格局正呈现多元化发展趋势。此次NIPS大会上发布的X-MAN3.0,采用了硬件系统模块化、互联接口标准化、互联拓扑高灵活性的设计思路,既提升了多元化AI加速芯片的兼容性,也促进了AI加速芯片生态健康、快速、可持续的发展。X-MAN3.0具备3大关键技术特征,包括48V供电技术、标准化的AI加速卡接口定义和灵活的互联拓扑。

此次百度快速研发落地X-MAN3.0,得到了浪潮、英业达等服务器系统厂商的积极参与支持; 我们期待有更多的服务器系统合作伙伴、AI加速芯片厂商和同行加入共建开放的生态,促进整个生态圈的良性发展。

X-MAN1.0

X-MAN3.0

X-MAN创造了6项业界第一,引领行业技术发展趋势

凭借着对AI业务模型的深刻理解、扎实的硬件基础架构技术和对行业趋势的准确预判,百度设计了X-MAN AI计算平台系列产品,创造了6项业界第一。其中, 2016年Q2发布的X-MAN1.0创造了5个业界第一:

首次实现单机扩展16片AI加速卡;

首次实现4/8/16/32/64卡系统级弹性扩展;

首次实现AI计算硬件解耦架构(注:Facebook 2017年Q1发布的Big Basin、微软2017年Q1发布的HGX-1等都采用了相似设计理念);

首次实现PCIe Fabric技术架构,支持按需求业务动态分配AI计算资源;

首次实现虚拟机多卡高速无损通信技术。

2017年Q3发布的X-MAN2.0业界首创将冷板式液冷散热技术应用到AI计算产品里,有效解决了高性能AI加速卡的散热挑战(注:Google 2018年Q2发布的TPU3.0也采用了相似技术)。

X-MAN大规模部署,助力百度AI战略快速落地

凭借着强大的单机计算性能、业界领先的多机扩展性、灵活的AI计算资源动态分配调整能力,X-MAN系列产品已在百度实现规模化部署,广泛应用于语音识别、计算机视觉、自然语音处理、无人车等基础AI技术的深度学习模型训练,将训练时间从周级别缩短到天级别;服务于百度DuerOS、Apollo、ABC Cloud等核心业务,助力百度AI战略的快速落地。

深度布局AI

根据 IDC数据,2018年前两季度,浪潮在中国GPU服务器领域的销售额份额为52%,远远领先于其他厂商。近年来,通过JDM模式创新,浪潮一直为互联网公司提供定制化的计算平台方案,除了X-MAN系列,浪潮与百度联合研发了很多业界领先的产品,比如ABC一体机,单物理集群支持64块GPU的超强扩展平台SR-AI整机柜,以及天蝎整机柜服务器冰山冷存储节点,都已经在百度批量部署应用,极大地提升百度数据中心的计算力和可扩展性。

目前,浪潮是全球领先的AI计算力厂商,从计算平台、管理套件、框架优化、应用加速等四个层次致力于打造敏捷、高效、优化的AI基础设施。浪潮已成为TOP级互联网客户最主要的AI服务器供应商,并与科大讯飞、商汤、旷视、今日头条、滴滴等人工智能领先科技公司保持在系统与应用方面的深入紧密合作,帮助AI客户在语音、图像、视频、搜索、网络等方面取得数量级的应用性能提升。

文章来源:AI商业评论