文 | 硅星人 杜晨
Meta不但是全世界第一大的社交网站企业,和当下最热门技艺概念“元宇宙”的推进者。它同一时间也是人力智能(AI)探讨的全世界顶级公司之一。
该企业在AI方面卓越探讨效果的背后,势必有强盛的算力扶持。只是一直以来,Facebook 从未对外界公布展现过其算力究竟有多厉害。
而在今日,Meta企业忽然对外宣告了其在塑造 AI 超等计算机方面的全新进展。
依据Meta这次公布显露的结果,其塑造的超等计算机AI RSC,日前算力在全世界应当曾经排到了前四的水准。
这种概况曾经足以令人十分震惊。终归,在算力方面能够和RSC相提并论的其余超等计算机,均由华夏、美国、日本的国家所有探讨机构运作——而RSC是前五里唯来源于私营机构的超算体系。
这还没完:这台超等计算机,还在以惊人的速度,变得更快、更强。
Meta预测,到本年7月,也即半年之内,RSC的算力将实现2.5倍的增添。另据不业余机构HPCwire预计,Meta的RSC超等计算机,其运转Linpack benchmark的算力将有望达到220 PFlops。
如没有不测,RSC将成为名副本来的“全世界最快AI超等计算机”。
AI RSC 里面,相片来自:Meta
AI 研发映入“超算”时期
起首须要回答一种难题:
甚么样的AI探讨,须要如许强盛的超等计算机?
通常的模子,也许可行在通常的电脑或平凡的数据中内心,用一块或者几块显卡就能达成训练。而Meta正好探讨的,是比日前的模子参数量要大得多,功能请求更高、更严刻,训练消费时间更久的——超大模子。
以辩别有害内容为例:CV算法须要能够以更高的采样率,料理很大、更长的视频;语言声音辩别算法须要在极大噪音的繁杂背景下达到更高的辩别明确度;NLP模子要能够同一时间了解多个言语、土音和口音,等等……
在往日,众多算法在跑分数据集上都获得了可以的成绩。然则,Meta是全家几大洲十亿等级使用者量的企业,它必需保证统一个模子投放在制造环境中能够第一大限制确保普适性。是以,通常模子不足够使用了,此刻要训练大模子。
训练大模子,须要大算力——问全部一种从事大模子探讨的人,你都会获得这样的谜底。终归往日的训练任务用几周能够达成,可在往后,面临新的大模子,咱们可等不起几年……
“在今日,包括辩别有害内容等在内的众多要紧的事业,都关于超大模子发生了极大的须要,”Meta 在其新闻稿中写道,“而高功能计算体系是训练这点超大模子的要紧组件。”
Meta 这次发表的超等计算机AI RSC,全称为AI Research SuperCluster(人力智能探讨超等计算集群)。
尽管Meta在今日初次公布宣告公布这一体系,实质上RSC的前身版本最早在2017年就曾经在Facebook企业里面投入制造运用了。那时,Facebook团队采纳了2.2万张英伟达V100 Tensor GPU构成了首个单一集群。该体系每天可行运行大约3.5万个训练任务。
据HPCwire估计,这种鉴于V100 GPU的前身版本,依照Linpack benchmark的浮点计算功能应当曾经达到了135 PFlops。这种水准在全世界超算排行榜Top500的2021年11月名次中,曾经足以排到第三名了,也即其算力可能曾经超过了美国燃料部在加州Livermore运作的“山脊”(Sierra) 超等计算机。
只是,关于Meta来讲,这还远远不够。它们想要的,是全球上第一大、最快、最强的AI超等计算机。
这台超算还必需要达到制造环境的数据平安等级,终归在未来,Meta的制造体系所用的模子可能干脆在它上面训练甚而运转。
而且,这台超算还须要为使用者——Meta企业的AI探讨员——提供不亚于通常训练机/显卡的运用便捷性,和流畅的开发者体会。
Meta AI RSC 技艺名目经理 Kevin Lee 相片来自:Meta
2020年初,Facebook团队以为那时企业的超算集群难以跟上未来大模子训练的须要,打算“从新出发”,采纳最顶尖的GPU和数据传输网站技艺,塑造一种最新的集群。
这台新的超算,必需能够在尺寸以EB(超越10亿GB)为单位的数据集上,训练具备超越万亿参数量的超大神经网站模子。
(比如,华夏科研机构智源BAAI开发的“悟道”,以及google昨年用Switch Transformer技艺训练的混合行家体系模子,皆是参数量达到万亿等级的大模子;比较来看,之前在业界十分著名的OpenAI GPT-3言语模子,功能和泛用性曾经十分令人惊讶,参数量为1750亿左右。)
Meta团队抉择了三家在AI计算和数据中心组件方面最知名的企业:英伟达、Penguin Computing,和Pure Storage。
详细来讲,Meta干脆从英伟达收购了760台 DGX通用训练体系。这点体系包涵共计6080块Ampere架构Tesla A100 Tensor焦点GPU,在那时,乃于今天,皆是最高级的AI训练、推理、剖析三融合体系。当中的网站通信则采纳了英伟达InfiniBand,数据传输速度多达200GB每秒。
存储方面,Meta 从 Pure Storage收购了共计231PB的闪存阵列、模块和缓存容量;而全部的机架搭建、设施安装和数据中心的延续治理事业,则由从Facebook时期就在效劳该企业的Penguin Computing负责。
这样创建出去的新超算集群,Meta将其正规命名为AI RSC:
图中显现的是 RSC 第一阶段(P1)的参数细节。相片来自:Meta
相较于此前FAIR采纳V100显卡搭建的计算集群,初代RSC关于制造等级的计算机视线类算法带来了20倍的功能提高,运转英伟达多卡通讯构架的速度提高了超越9倍,关于大范围当然言语料理类workflow的训练速度也提高了3倍——节约的训练时间以周为单位。
值得一提的是,在Meta刚刚做好RSC进级计划的时刻,新冠疫情忽然袭来了。全部实体建设的工期都碰到了极大的不确定性,RSC是否成功进级换代,打上了一种庞大的问号。
然则,企业营业进行和AI科研的须要,没有办法等候新冠疫情。负责RSC进级和建设的团队,以及包括英伟达、Penguin Computing、Pure Storage等三家硅谷企业在内的技艺合作方,不得不在极大的工期负担下,达成数据中心的装修建造、设施的制造和运输、现场装机、布线、调试等一系列十分烦琐和技艺请求极高的事业。
更夸张的是源于那时全美各地都有居家隔离令,全个RSC名目团队的多位负责人,都不得不在家中远程事业……团队里的探讨员Shubho Sengupta显示,“最让咱感觉骄傲的是,咱们在十足远程办公的要求下达成了(RSC的进级事业)。考量到名目的繁杂性,十足无和其余团队成员见面就可以把这点事都办了,简直太疯狂了”
就日前来看,RSC曾经是全球上运转速度最快的AI超等计算机之一了。
可是Meta仍不满足。
塑造全世界最快、最平安的AI超算
为了满足Meta在制造环境和AI探讨这两大方面日渐增添的算力要求,RSC必需持续进级扩容。
依照Meta的RSC第二阶段(P2)计划,到本年7月,也即半年之内,全个计算集群的 A100 GPU总数提高到惊人的1.6万块……
初代RSC采纳的DGX A100单机数量是760台,折合6080张显卡——这样计算的话,也便是说RSC将在P2再增添9920张显卡,即Meta须要再从英伟达收购1240台DGX A100超等计算机……
就连英伟达也显示,Meta的计划,将让RSC成为英伟达DGX A100截止日前第一大的消费者部署集群,无之一。
算力提高了,其余配套设备,包括存储和网站,也要和上。
依照Meta的估计,RSC的P2达成后,其数据存储总量将达到1 EB——折合超越10亿GB。
不但如许,全个超算集群的单个节点之中的通讯带宽也得到了史没有前例般的提高,达到惊人的16TB/s,而且实现一比一过载(也即每个DGX A100 计算节点对应一种网站接口,不显露多节点共享接口争抢带宽资源的概况)
(这边另有个点值得单独提一下:依照Meta团队的预计,像RSC这样采纳DGX A100节点创建超算集群的做法,能够扶持的节点上限也便是1.6万了,再多就会显露过载,意指着追加投资的边际收益明显下降。)
在数据平安的方位,Meta这一次也无忘了在新闻稿中专门推荐其数据料理形式,以求令公众安心。
“不论是检验有害内容,仍是缔造新的加强现实体会——为了塑造新的AI模子,咱们都会用到来源企业制造体系,取自真正全球的数据,”Meta显示,这也是为何RSC从设置之初就加入了数据隐私和数据平安方面的考量。唯有这样,Meta的探讨院才能够平安地运用加密、匿名化后的真正全球数据来训练模子。
1)RSC被设置为没有办法和真实的互联网干脆接连,却是和位于RSC所在地周边的一座 Meta 数据中心发展接连;
2)当Meta的探讨人士向RSC的效劳器引入数据的时刻,这点数据起首要经过一道隐私检查体系,确认数据曾经发展了匿名化;
3)在数据正规投入到AI模子算法的训练此前,数据也会再一次发展加密,而且密钥是周期生成和抛弃的,这样即便有旧的训练数据存储,也没有办法被访问;
4)数据只有会在训练体系的内存中解密,这样即便有不速之客闯进RSC,对效劳器发展物理访问,也没有办法破解数据。
可能是出于保密的目的,Meta甚而连RSC的详细所在地全没有显露……
只是依据已知的概况,RSC的周边必有一座 Facebook/Meta数据中心存留。而且,下图截取自RSC的公告视频,图中咱们可行见到,AI RSC位于右上,左下则是Meta的一座数据中心。图中有着大批较高的树木。
硅星人根本可行确定,上图中的Meta数据中心位于美国弗吉尼亚州Henrico县。该县是美国东部第一大的数据中心聚集地,也是接连欧洲、南美、亚洲、非洲的多条海底光缆在美国的终端所在地。至于RSC的实质所在地,其前身应当是QTS Richmond数据中心。
右边为 Meta 数据中心,左边为 QTS Richmond 也即 Meta AI RSC 所在地 截自 Google Maps
最终,让咱们来瞧瞧本钱……
不考量同样极端不便宜的存储和网站根基设备,咱们就先只瞧计算的部分:
每台DGX A100的准则售价为19.9万美元,Meta大宗收购确信有打折,但假设无打折的话:RSC这一次P2的扩容本钱,仅显卡收购的部分,就多达2.5亿美元……)
自然,依照今日的Meta市值来看,这笔费率简直是九牛一毛。假若真的塑造出全球第一大最强最快的AI超算,关于这家企业的营业,不论是其此刻的焦点营业,仍是未来的元宇宙产物,估计全能够带来十分大的帮助。
Meta是那么说的:“终归,咱们在RSC上面的努力,将能够为作为下一种要害计算平台的元宇宙铺就公路。届时,AI驱动的利用和产物将来会扮演要紧的角色。”