欢迎光临郑州众佳电子官网

别让存储成为模型训练的关键瓶颈、郑州DELL存储总代理

别让存储成为模型训练的关键瓶颈、郑州DELL存储总代理

郑州DELL戴尔服务器总经销、DELL郑州金牌售后服务维修站、戴尔DELL磁盘柜、戴尔工作站维修站,郑州DELL专业维修站、戴尔光纤存储磁盘柜、戴尔双机热备方案、戴尔HBA光纤存储、郑州DELL服务器总代理、戴尔服务器原装配件

联系人:林建斌13203713625 0371-63572828

地址:郑州文化路东风路欧洲花园里昂座502室

网址:

http://www.dell114.net
http://www.dellbokee.com

http://www.hndell.net

http://www.zzdell.net

据说现在的科技公司,不是在抢GPU,就是在往抢GPU的路上……此前4月,特斯拉CEO马斯克就购买了1万块GPU,他还称公司将继续大量购买英伟达的GPU。

在国内,近日也有报道称,字节跳动今年向英伟达订购了超过10亿美元的GPU,仅字节一家公司今年的订单,可能已接近英伟达去年在国内销售的商用GPU总和。

而在企业这边,为了“珍惜”来之不易的GPU,IT人员也在快马加鞭,他们希望能让GPU时刻忙碌,从而确保投资回报。不过有的企业可能会发现,GPU数量增加了,但GPU闲置却越来越严重。

原因何在?


别让存储成为你的

关键瓶颈

如果说HPC的历史教会了我们什么的话,那就是不能以牺牲存储和网络为代价,过分关注计算。如果存储无法以良好的性能及时将数据传输到计算单元,那么即使你手握世界上最多的GPU,也无法将其转化为效率。

IT分析公司 Small World Big Data 的分析师 Mike Matchett 表示,有些模型足够小,可以在内存(RAM)中执行,从而将更多的注意力放在计算上。但如今像ChatGPT这样的大模型,需要数十亿个节点,无法保存在内存中,因为成本太高。

“你无法在内存中存放数十亿个节点,存储变得更加重要。”Matchett 说。


一般而言,无论是怎样的用例,在模型训练的过程中都有四个共同点: 

  1. 训练模型 

  2. 推理应用 

  3. 数据存储  

  4. 加速计算 


而在这些要素中,数据存储在规划过程中往往容易被忽视。

因为在创建和部署模型时,大多数的要求是迅速通过POC或测试环境,从而尽快开展模型训练,数据存储需求并不是优先考虑的。

然而,挑战在于训练或推理部署可能持续数月或数年时间。许多公司在这段时间里迅速扩大了模型规模,而基础设施也必须扩展以适应不断增长的模型和数据集。

谷歌此前公布的数百万ML训练工作负载的研究报告表明,工作负载平均花费30%的训练时间在输入数据的管道上。虽然过去的一些研究工作侧重于通过优化GPU来加速训练,但在优化数据管道的各个部分方面仍然面临许多挑战。



确定合适的存储系统

共 1 页 1 条数据